自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務(wù)信息,模型學(xué)會(huì)「自毀」了

人工智能 新聞
斯坦福研究人員提出要用任務(wù)阻斷技術(shù)訓(xùn)練大模型,使模型在正常任務(wù)中表現(xiàn)良好的同時(shí),阻礙模型適應(yīng)有害任務(wù)。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

防止大模型作惡的新法子來(lái)了!

這下即使模型開(kāi)源了,想惡意使用模型的人也很難讓大模型“作惡”。

不信就來(lái)看這項(xiàng)研究。

斯坦福研究人員最近提出了一種新方法對(duì)大模型使用附加機(jī)制進(jìn)行訓(xùn)練后,可以阻止它對(duì)有害任務(wù)的適應(yīng)。

他們把通過(guò)此方法訓(xùn)練出的模型稱(chēng)為“自毀模型”。

圖片

自毀模型仍然能夠高性能地處理有任務(wù),但在面對(duì)有害任務(wù)的時(shí)候會(huì)神奇地“變差”。

目前該論文已被AAAI接收,并獲得了最佳學(xué)生論文獎(jiǎng)榮譽(yù)提名。

先模擬,再毀掉

越來(lái)越多大模型開(kāi)源,讓更多人可以參與到模型的研發(fā)和優(yōu)化中,開(kāi)發(fā)模型對(duì)社會(huì)有益的用途。

然而,模型開(kāi)源也同樣意味著惡意使用大模型的成本也降低了,為此不得不防一些別有用心之人(攻擊者)。

此前為防止有人惡意促使大模型作惡,主要用到了結(jié)構(gòu)安全機(jī)制技術(shù)安全機(jī)制兩類(lèi)辦法。結(jié)構(gòu)安全機(jī)制主要是使用許可證或訪(fǎng)問(wèn)限制,但面對(duì)模型開(kāi)源,這種方法效果被削弱。

這就需要更多的技術(shù)策略做補(bǔ)充。而現(xiàn)有的安全過(guò)濾、對(duì)齊優(yōu)化等方法又容易被微調(diào)或者提示工程繞過(guò)。

斯坦福研究人員提出要用任務(wù)阻斷技術(shù)訓(xùn)練大模型,使模型在正常任務(wù)中表現(xiàn)良好的同時(shí),阻礙模型適應(yīng)有害任務(wù)。

圖片

任務(wù)阻斷的方法就是假設(shè)攻擊者試圖將預(yù)訓(xùn)練大模型改造用于有害任務(wù),然后搜索最佳的模型改造方法。

接著通過(guò)增加數(shù)據(jù)成本和計(jì)算成本兩種方式來(lái)增加改造難度。

研究人員在這項(xiàng)研究中著重探究了增加數(shù)據(jù)成本的方法,也就是降低模型的少樣本效果,使模型在有害任務(wù)上的少樣本表現(xiàn)接近隨機(jī)初始化模型,這也就意味著要惡意改造就要花費(fèi)更多數(shù)據(jù)。以至于攻擊者寧愿從頭開(kāi)始訓(xùn)模型,也不愿使用預(yù)訓(xùn)練模型。

具體來(lái)說(shuō),為了阻止預(yù)訓(xùn)練模型成功適應(yīng)有害任務(wù),研究人員提出了一種利用了元學(xué)習(xí)(Meta-Learned)和對(duì)抗學(xué)習(xí)的MLAC(Meta-Learned Adversarial Censoring)算法來(lái)訓(xùn)練自毀模型。

MLAC使用有益任務(wù)數(shù)據(jù)集和有害任務(wù)數(shù)據(jù)集對(duì)模型進(jìn)行元訓(xùn)練(meta-training):

圖片

△MLAC訓(xùn)練程序

該算法在內(nèi)循環(huán)中模擬各種可能的適配攻擊,在外循環(huán)中更新模型參數(shù)以最大化有害任務(wù)上的損失函數(shù),也就是更新參數(shù)抵抗這些攻擊。

通過(guò)這種對(duì)抗的內(nèi)外循環(huán),使模型“遺忘”掉有害任務(wù)相關(guān)的信息,實(shí)現(xiàn)自毀效果。

繼而學(xué)習(xí)到在有益任務(wù)上表現(xiàn)良好,而在有害任務(wù)上難以適配的參數(shù)初始化。

圖片

△meta-learning過(guò)程

整體上,MLAC通過(guò)模擬攻擊者(adversary)適配過(guò)程,找到有害任務(wù)的局部?jī)?yōu)點(diǎn)或鞍點(diǎn),在有益任務(wù)上保持全局最優(yōu)。

正如上圖,通過(guò)規(guī)劃預(yù)訓(xùn)練模型在參數(shù)空間中的位置,可以增加其微調(diào)的難度。

放置在點(diǎn)1的大模型可以通過(guò)梯度下降輕松調(diào)整,以獲得有害任務(wù)損失(haemful task loss)和期望任務(wù)損失(desired task loss)的全局最優(yōu)解。

另一方面,放置在點(diǎn)2的大模型可以輕松達(dá)到期望任務(wù)的最優(yōu)解,但更有可能陷入有害任務(wù)的局部最優(yōu)解。

這樣得到的模型初始化,在有益任務(wù)上易于適配到全局最優(yōu),但在有害任務(wù)上陷入局部?jī)?yōu)點(diǎn),難以改造。

自毀效果針不戳!

為了測(cè)試通過(guò)上述方法訓(xùn)練出的“自毀模型”的性能,研究人員做了個(gè)實(shí)驗(yàn)。

首先研究人員準(zhǔn)備了一個(gè)人物傳記數(shù)據(jù)集——Bias in Bios。

然后他們將性別識(shí)別任務(wù)視為有害任務(wù),職業(yè)分類(lèi)任務(wù)視為有益任務(wù)。在原始數(shù)據(jù)集基礎(chǔ)上,把所有人稱(chēng)替換為“they/their”,增加了性別識(shí)別任務(wù)的難度。

在未處理的數(shù)據(jù)集上,隨機(jī)模型只需要10個(gè)例子就可以達(dá)到90%以上的性別分類(lèi)準(zhǔn)確率。

然后將模型進(jìn)行50k steps的MLAC預(yù)訓(xùn)練。

在測(cè)試時(shí),研究人員用生成的自毀模型,通過(guò)嚴(yán)格的超參數(shù)搜索運(yùn)行它,以最大限度地提高有害任務(wù)的微調(diào)性能。

此外,研究人員還抽出了驗(yàn)證集子集作為攻擊者訓(xùn)練集,模擬攻擊者僅有有限數(shù)據(jù)的情況。

但在超參數(shù)搜索時(shí),允許攻擊者使用完整的驗(yàn)證集。這意味著雖然攻擊者只有有限訓(xùn)練數(shù)據(jù),但可以在全量數(shù)據(jù)上探索超參數(shù)。

如果在這種情況下,MLAC訓(xùn)練的模型仍難以適配到有害任務(wù),可以更好地證明其自毀效果。

研究人員隨即將MLAC與以下方法進(jìn)行比較:

  • 隨機(jī)初始化模型
  • 僅在有益任務(wù)上微調(diào)的BERT
  • 簡(jiǎn)單對(duì)抗訓(xùn)練法

△經(jīng)過(guò)微調(diào)的有害任務(wù)(性別識(shí)別)表現(xiàn)。陰影表示在6個(gè)隨機(jī)seed上的95%置信區(qū)間。

結(jié)果發(fā)現(xiàn),MLAC方法訓(xùn)練出的自毀模型在所有數(shù)據(jù)量下的有害任務(wù)性能均接近隨機(jī)初始化模型。而簡(jiǎn)單對(duì)抗訓(xùn)練法并沒(méi)有明顯降低有害任務(wù)的微調(diào)性能。

與簡(jiǎn)單對(duì)抗訓(xùn)練相比,MLAC的元學(xué)習(xí)機(jī)制對(duì)產(chǎn)生自毀效果至關(guān)重要。

圖片

△MLAC算法中內(nèi)循環(huán)步數(shù)K的影響,K=0相當(dāng)于簡(jiǎn)單的對(duì)抗訓(xùn)練

此外,MLAC模型在有益任務(wù)上的少樣本性能優(yōu)于BERT微調(diào)模型:

圖片

△在對(duì)所需任務(wù)進(jìn)行微調(diào)后,MLAC自毀模型的少樣本性能超過(guò)了BERT和隨機(jī)初始化模型。

論文鏈接:https://arxiv.org/abs/2211.14946

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-01-29 12:49:00

AI模型

2023-07-04 10:11:28

數(shù)據(jù)模型

2023-10-20 12:17:57

AI數(shù)據(jù)

2022-07-14 15:08:23

AI模型

2023-07-28 12:13:28

模型語(yǔ)言性能

2023-12-08 13:22:00

數(shù)據(jù)模型

2022-07-04 15:09:55

超大數(shù)據(jù)集數(shù)據(jù)分析瘦身

2024-04-24 09:47:36

2023-02-14 09:45:11

模型測(cè)試

2023-09-25 10:04:37

模型AI

2023-05-15 09:43:49

模型數(shù)據(jù)

2023-12-25 09:23:07

模型技術(shù)

2023-05-04 12:32:28

模型研究

2023-03-22 15:14:00

數(shù)據(jù)模型

2023-03-14 13:45:14

模型AI

2023-11-03 07:47:12

機(jī)器資源大模型:

2025-03-03 09:16:00

Meta模型預(yù)測(cè)

2024-06-04 14:09:00

2025-02-28 09:15:00

2022-10-20 15:38:02

谷歌模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)