自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="hpsce"><li id="hpsce"></li></p>

<blockquote id="hpsce"><p id="hpsce"></p></blockquote>

<cite id="hpsce"><rp id="hpsce"><form id="hpsce"></form></rp></cite>

^{<blockquote id="hpsce"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

NeurIPS 2024 | 水印與高效推理如何兩全其美？最新理論：這做不到

作者：機(jī)器之心 2024-11-21 15:00:00

人工智能新聞

近日，DeepMind 團(tuán)隊(duì)將水印技術(shù)和投機(jī)采樣（speculative sampling）結(jié)合，在為大語(yǔ)言模型加入水印的同時(shí)，提升其推理效率，降低推理成本，因此適合用于大規(guī)模生產(chǎn)環(huán)境。

本文第一作者為畢業(yè)于馬里蘭大學(xué)計(jì)算機(jī)系的博士胡正冕，其導(dǎo)師為 Heng Huang。他的主要研究方向是采樣與機(jī)器學(xué)習(xí)理論，曾在 ICML、NeurIPS、ICLR、EMNLP 等頂會(huì)上發(fā)表多篇論文。郵箱: huzhengmian@gmail.com

近日，DeepMind 團(tuán)隊(duì)將水印技術(shù)和投機(jī)采樣（speculative sampling）結(jié)合，在為大語(yǔ)言模型加入水印的同時(shí)，提升其推理效率，降低推理成本，因此適合用于大規(guī)模生產(chǎn)環(huán)境。這項(xiàng)研究發(fā)表在了 Nature 雜志上，給出了兩種具體的結(jié)合方法，分別在水印檢測(cè)效果和生成速度上達(dá)到了現(xiàn)有最優(yōu)水平，但無(wú)法同時(shí)兼顧兩者。

無(wú)獨(dú)有偶，另一組來(lái)自馬里蘭大學(xué)的研究人員針對(duì)同一個(gè)問(wèn)題進(jìn)行了理論角度的深入分析。他們發(fā)現(xiàn)了一個(gè)「不可行」定理，證明了不存在一個(gè)算法可以同時(shí)達(dá)到最優(yōu)的推理效率和最高的水印強(qiáng)度。因此，任何水印系統(tǒng)都必須在這兩個(gè)目標(biāo)之間進(jìn)行權(quán)衡。這項(xiàng)名為「Inevitable Trade-off between Watermark Strength and Speculative Sampling Efficiency for Language Models」的研究已被 NeurIPS 2024 會(huì)議接收。

論文地址: https://arxiv.org/pdf/2410.20418
代碼倉(cāng)庫(kù): https://github.com/xiaoniu-578fa6bff964d005/AcceleratedUnbiasedWatermark

無(wú)偏水印與投機(jī)采樣方法

無(wú)偏水印方法 [1] 是一種將水印嵌入到生成文本的技術(shù)，它在理論上保證不影響生成文本的質(zhì)量和多樣性，并讓水印無(wú)法被人察覺(jué)。這種水印方法可用于版權(quán)保護(hù)和來(lái)源追蹤。其核心思想是在生成過(guò)程中對(duì)候選 token 的概率進(jìn)行重新加權(quán)，并要求調(diào)整后的概率分布在對(duì)水印的隨機(jī)私鑰進(jìn)行平均后，在數(shù)學(xué)期望上與原始分布相同，從而避免引入偏差。

投機(jī)采樣方法 [2,3] 是一種加速大語(yǔ)言模型推理的技術(shù)。此方法利用較小的草稿模型快速生成草稿序列，再通過(guò)目標(biāo)模型對(duì)這些草稿進(jìn)行驗(yàn)證和修正。草稿模型規(guī)模較小，生成速度更快但質(zhì)量較低；目標(biāo)模型并行進(jìn)行驗(yàn)證，接受符合條件的部分。這種方法可以在保持生成質(zhì)量的同時(shí)，顯著提升推理效率，降低計(jì)算成本，已成為大規(guī)模應(yīng)用中不可或缺的工具。

「不可行」定理

研究者提出了一個(gè)兩次重加權(quán)框架，分別對(duì)草稿模型和目標(biāo)模型的輸出分布進(jìn)行重加權(quán)。這個(gè)框架具有很高的自由度，兩次重加權(quán)函數(shù)可以不同，驗(yàn)證算法也可以任意選擇，只要滿足最終算法保持輸出概率分布，從而維持輸出質(zhì)量即可。

在此框架下，研究者嚴(yán)格描述并證明了一個(gè)「不可行」定理：當(dāng)詞匯表大小大于 2 時(shí)，任何試圖同時(shí)保持水印強(qiáng)度和加速效果的方法都必然使用兩個(gè)平凡的重加權(quán)函數(shù)。

這個(gè)定理揭示了水印強(qiáng)度和投機(jī)采樣效率之間存在一個(gè)不可避免的權(quán)衡，必須在兩者之間做出選擇。任何潛在的方法都無(wú)法同時(shí)達(dá)到在不考慮加速情況下最好的水印技術(shù)的檢測(cè)效率，和在不考慮水印情況下最好的投機(jī)技術(shù)的加速效果。此結(jié)果也為未來(lái)的研究指明了方向：在設(shè)計(jì)新算法時(shí)研究者需要考慮這個(gè)理論限制，根據(jù)應(yīng)用需求在兩個(gè)目標(biāo)之間進(jìn)行平衡。

兩種結(jié)合方法

即便「不可行」定理揭示了水印強(qiáng)度和采樣效率之間存在不可避免的權(quán)衡，此研究給出了兩種具體的結(jié)合水印和投機(jī)采樣的方法，使得其分別滿足以下兩點(diǎn)性質(zhì)：

1. 保持水印強(qiáng)度的方法優(yōu)先確保水印的可檢測(cè)性，即使這可能會(huì)犧牲一定的采樣效率。這種方法首先對(duì)目標(biāo)模型和草稿模型的輸出概率分布進(jìn)行重加權(quán)并從中采樣，然后基于兩個(gè)重加權(quán)分布進(jìn)行投機(jī)采樣。

2. 保持采樣效率的方法優(yōu)先保證生成速度，即使水印的強(qiáng)度可能有所降低。這種方法仍然對(duì)目標(biāo)模型和草稿模型的輸出概率分布進(jìn)行重加權(quán)并從中采樣，但接下來(lái)基于兩個(gè)未經(jīng)過(guò)重加權(quán)的分布進(jìn)行投機(jī)采樣。

這兩種方法體現(xiàn)了不同的取舍，使用者可以根據(jù)具體應(yīng)用場(chǎng)景和需求進(jìn)行選擇。

實(shí)驗(yàn)結(jié)果

研究人員在多種文本生成任務(wù)以及多種語(yǔ)言模型上進(jìn)行了實(shí)驗(yàn)。他們引入了兩個(gè)指標(biāo)：平均每步接受的 token 數(shù)（AATPS）衡量投機(jī)采樣效率，每個(gè) token 的平均負(fù)對(duì)數(shù) P 值（ANLPPT）衡量水印強(qiáng)度。

實(shí)驗(yàn)結(jié)果驗(yàn)證了理論分析的正確性，證實(shí)了水印強(qiáng)度和采樣效率之間確實(shí)存在權(quán)衡。保持水印強(qiáng)度的方法在水印強(qiáng)度上與傳統(tǒng)無(wú)偏水印方法相當(dāng)，但采樣效率相比原始投機(jī)采樣方法有所下降；保持采樣效率的方法在采樣效率上與原始投機(jī)采樣方法相當(dāng)，但水印強(qiáng)度有明顯降低。這表明根據(jù)實(shí)際需求，可以選擇優(yōu)先保證水印強(qiáng)度或采樣效率的策略。

總結(jié)

此研究從理論角度證明了水印可檢測(cè)性和投機(jī)采樣效率之間存在根本沖突，這種沖突并不僅限于現(xiàn)在已有的方法，而是一個(gè)普遍規(guī)律。鑒于投機(jī)采樣已經(jīng)成為降低推理成本不可或缺的工具，高可檢測(cè)水印系統(tǒng)帶來(lái)的推理成本增加在未來(lái)將持續(xù)存在。

將水印技術(shù)與投機(jī)采樣結(jié)合這個(gè)行為雖然可以讓水印更接近實(shí)用，但同時(shí)也可能帶來(lái)一些倫理問(wèn)題，如未經(jīng)披露的跟蹤行為。在實(shí)際應(yīng)用中，人們應(yīng)當(dāng)謹(jǐn)慎、合乎倫理地應(yīng)用無(wú)偏水印方法，并向用戶明確說(shuō)明其存在，工作原理和意義。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

大語(yǔ)言模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tr id="1yce7"><sup id="1yce7"></sup></tr><sub id="1yce7"><i id="1yce7"></i></sub>