自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="v99wd"><strike id="v99wd"></strike></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

為防大模型作惡，斯坦福新方法讓模型「遺忘」有害任務(wù)信息，模型學(xué)會(huì)「自毀」了

作者：西風(fēng) 2023-09-06 13:34:31

人工智能新聞

斯坦福研究人員提出要用任務(wù)阻斷技術(shù)訓(xùn)練大模型，使模型在正常任務(wù)中表現(xiàn)良好的同時(shí)，阻礙模型適應(yīng)有害任務(wù)。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

防止大模型作惡的新法子來(lái)了！

這下即使模型開(kāi)源了，想惡意使用模型的人也很難讓大模型“作惡”。

不信就來(lái)看這項(xiàng)研究。

斯坦福研究人員最近提出了一種新方法對(duì)大模型使用附加機(jī)制進(jìn)行訓(xùn)練后，可以阻止它對(duì)有害任務(wù)的適應(yīng)。

他們把通過(guò)此方法訓(xùn)練出的模型稱(chēng)為“自毀模型”。

自毀模型仍然能夠高性能地處理有益任務(wù)，但在面對(duì)有害任務(wù)的時(shí)候會(huì)神奇地“變差”。

目前該論文已被AAAI接收，并獲得了最佳學(xué)生論文獎(jiǎng)榮譽(yù)提名。

先模擬，再毀掉

越來(lái)越多大模型開(kāi)源，讓更多人可以參與到模型的研發(fā)和優(yōu)化中，開(kāi)發(fā)模型對(duì)社會(huì)有益的用途。

然而，模型開(kāi)源也同樣意味著惡意使用大模型的成本也降低了，為此不得不防一些別有用心之人（攻擊者）。

此前為防止有人惡意促使大模型作惡，主要用到了結(jié)構(gòu)安全機(jī)制、技術(shù)安全機(jī)制兩類(lèi)辦法。結(jié)構(gòu)安全機(jī)制主要是使用許可證或訪(fǎng)問(wèn)限制，但面對(duì)模型開(kāi)源，這種方法效果被削弱。

這就需要更多的技術(shù)策略做補(bǔ)充。而現(xiàn)有的安全過(guò)濾、對(duì)齊優(yōu)化等方法又容易被微調(diào)或者提示工程繞過(guò)。

斯坦福研究人員提出要用任務(wù)阻斷技術(shù)訓(xùn)練大模型，使模型在正常任務(wù)中表現(xiàn)良好的同時(shí)，阻礙模型適應(yīng)有害任務(wù)。

任務(wù)阻斷的方法就是假設(shè)攻擊者試圖將預(yù)訓(xùn)練大模型改造用于有害任務(wù)，然后搜索最佳的模型改造方法。

接著通過(guò)增加數(shù)據(jù)成本和計(jì)算成本兩種方式來(lái)增加改造難度。

研究人員在這項(xiàng)研究中著重探究了增加數(shù)據(jù)成本的方法，也就是降低模型的少樣本效果，使模型在有害任務(wù)上的少樣本表現(xiàn)接近隨機(jī)初始化模型，這也就意味著要惡意改造就要花費(fèi)更多數(shù)據(jù)。以至于攻擊者寧愿從頭開(kāi)始訓(xùn)模型，也不愿使用預(yù)訓(xùn)練模型。

具體來(lái)說(shuō)，為了阻止預(yù)訓(xùn)練模型成功適應(yīng)有害任務(wù)，研究人員提出了一種利用了元學(xué)習(xí)（Meta-Learned）和對(duì)抗學(xué)習(xí)的MLAC（Meta-Learned Adversarial Censoring）算法來(lái)訓(xùn)練自毀模型。

MLAC使用有益任務(wù)數(shù)據(jù)集和有害任務(wù)數(shù)據(jù)集對(duì)模型進(jìn)行元訓(xùn)練（meta-training）：

△MLAC訓(xùn)練程序

該算法在內(nèi)循環(huán)中模擬各種可能的適配攻擊，在外循環(huán)中更新模型參數(shù)以最大化有害任務(wù)上的損失函數(shù)，也就是更新參數(shù)抵抗這些攻擊。

通過(guò)這種對(duì)抗的內(nèi)外循環(huán)，使模型“遺忘”掉有害任務(wù)相關(guān)的信息，實(shí)現(xiàn)自毀效果。

繼而學(xué)習(xí)到在有益任務(wù)上表現(xiàn)良好，而在有害任務(wù)上難以適配的參數(shù)初始化。

△meta-learning過(guò)程

整體上，MLAC通過(guò)模擬攻擊者（adversary）適配過(guò)程，找到有害任務(wù)的局部?jī)?yōu)點(diǎn)或鞍點(diǎn)，在有益任務(wù)上保持全局最優(yōu)。

正如上圖，通過(guò)規(guī)劃預(yù)訓(xùn)練模型在參數(shù)空間中的位置，可以增加其微調(diào)的難度。

放置在點(diǎn)1的大模型可以通過(guò)梯度下降輕松調(diào)整，以獲得有害任務(wù)損失（haemful task loss）和期望任務(wù)損失（desired task loss）的全局最優(yōu)解。

另一方面，放置在點(diǎn)2的大模型可以輕松達(dá)到期望任務(wù)的最優(yōu)解，但更有可能陷入有害任務(wù)的局部最優(yōu)解。

這樣得到的模型初始化，在有益任務(wù)上易于適配到全局最優(yōu)，但在有害任務(wù)上陷入局部?jī)?yōu)點(diǎn)，難以改造。

自毀效果針不戳！

為了測(cè)試通過(guò)上述方法訓(xùn)練出的“自毀模型”的性能，研究人員做了個(gè)實(shí)驗(yàn)。

首先研究人員準(zhǔn)備了一個(gè)人物傳記數(shù)據(jù)集——Bias in Bios。

然后他們將性別識(shí)別任務(wù)視為有害任務(wù)，職業(yè)分類(lèi)任務(wù)視為有益任務(wù)。在原始數(shù)據(jù)集基礎(chǔ)上，把所有人稱(chēng)替換為“they/their”，增加了性別識(shí)別任務(wù)的難度。

在未處理的數(shù)據(jù)集上，隨機(jī)模型只需要10個(gè)例子就可以達(dá)到90%以上的性別分類(lèi)準(zhǔn)確率。

然后將模型進(jìn)行50k steps的MLAC預(yù)訓(xùn)練。

在測(cè)試時(shí)，研究人員用生成的自毀模型，通過(guò)嚴(yán)格的超參數(shù)搜索運(yùn)行它，以最大限度地提高有害任務(wù)的微調(diào)性能。

此外，研究人員還抽出了驗(yàn)證集子集作為攻擊者訓(xùn)練集，模擬攻擊者僅有有限數(shù)據(jù)的情況。

但在超參數(shù)搜索時(shí)，允許攻擊者使用完整的驗(yàn)證集。這意味著雖然攻擊者只有有限訓(xùn)練數(shù)據(jù)，但可以在全量數(shù)據(jù)上探索超參數(shù)。

如果在這種情況下，MLAC訓(xùn)練的模型仍難以適配到有害任務(wù)，可以更好地證明其自毀效果。

研究人員隨即將MLAC與以下方法進(jìn)行比較:

隨機(jī)初始化模型
僅在有益任務(wù)上微調(diào)的BERT
簡(jiǎn)單對(duì)抗訓(xùn)練法

△經(jīng)過(guò)微調(diào)的有害任務(wù)（性別識(shí)別）表現(xiàn)。陰影表示在6個(gè)隨機(jī)seed上的95％置信區(qū)間。

結(jié)果發(fā)現(xiàn)，MLAC方法訓(xùn)練出的自毀模型在所有數(shù)據(jù)量下的有害任務(wù)性能均接近隨機(jī)初始化模型。而簡(jiǎn)單對(duì)抗訓(xùn)練法并沒(méi)有明顯降低有害任務(wù)的微調(diào)性能。

與簡(jiǎn)單對(duì)抗訓(xùn)練相比，MLAC的元學(xué)習(xí)機(jī)制對(duì)產(chǎn)生自毀效果至關(guān)重要。

△MLAC算法中內(nèi)循環(huán)步數(shù)K的影響，K=0相當(dāng)于簡(jiǎn)單的對(duì)抗訓(xùn)練

此外，MLAC模型在有益任務(wù)上的少樣本性能優(yōu)于BERT微調(diào)模型：

△在對(duì)所需任務(wù)進(jìn)行微調(diào)后，MLAC自毀模型的少樣本性能超過(guò)了BERT和隨機(jī)初始化模型。

論文鏈接：https://arxiv.org/abs/2211.14946

責(zé)任編輯：張燕妮來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="l9a9a"><p id="l9a9a"></p></sub>