為防大模型作惡,斯坦福新方法讓模型「遺忘」有害任務(wù)信息,模型學(xué)會(huì)「自毀」了
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
防止大模型作惡的新法子來(lái)了!
這下即使模型開(kāi)源了,想惡意使用模型的人也很難讓大模型“作惡”。
不信就來(lái)看這項(xiàng)研究。
斯坦福研究人員最近提出了一種新方法對(duì)大模型使用附加機(jī)制進(jìn)行訓(xùn)練后,可以阻止它對(duì)有害任務(wù)的適應(yīng)。
他們把通過(guò)此方法訓(xùn)練出的模型稱(chēng)為“自毀模型”。
自毀模型仍然能夠高性能地處理有益任務(wù),但在面對(duì)有害任務(wù)的時(shí)候會(huì)神奇地“變差”。
目前該論文已被AAAI接收,并獲得了最佳學(xué)生論文獎(jiǎng)榮譽(yù)提名。
先模擬,再毀掉
越來(lái)越多大模型開(kāi)源,讓更多人可以參與到模型的研發(fā)和優(yōu)化中,開(kāi)發(fā)模型對(duì)社會(huì)有益的用途。
然而,模型開(kāi)源也同樣意味著惡意使用大模型的成本也降低了,為此不得不防一些別有用心之人(攻擊者)。
此前為防止有人惡意促使大模型作惡,主要用到了結(jié)構(gòu)安全機(jī)制、技術(shù)安全機(jī)制兩類(lèi)辦法。結(jié)構(gòu)安全機(jī)制主要是使用許可證或訪(fǎng)問(wèn)限制,但面對(duì)模型開(kāi)源,這種方法效果被削弱。
這就需要更多的技術(shù)策略做補(bǔ)充。而現(xiàn)有的安全過(guò)濾、對(duì)齊優(yōu)化等方法又容易被微調(diào)或者提示工程繞過(guò)。
斯坦福研究人員提出要用任務(wù)阻斷技術(shù)訓(xùn)練大模型,使模型在正常任務(wù)中表現(xiàn)良好的同時(shí),阻礙模型適應(yīng)有害任務(wù)。
任務(wù)阻斷的方法就是假設(shè)攻擊者試圖將預(yù)訓(xùn)練大模型改造用于有害任務(wù),然后搜索最佳的模型改造方法。
接著通過(guò)增加數(shù)據(jù)成本和計(jì)算成本兩種方式來(lái)增加改造難度。
研究人員在這項(xiàng)研究中著重探究了增加數(shù)據(jù)成本的方法,也就是降低模型的少樣本效果,使模型在有害任務(wù)上的少樣本表現(xiàn)接近隨機(jī)初始化模型,這也就意味著要惡意改造就要花費(fèi)更多數(shù)據(jù)。以至于攻擊者寧愿從頭開(kāi)始訓(xùn)模型,也不愿使用預(yù)訓(xùn)練模型。
具體來(lái)說(shuō),為了阻止預(yù)訓(xùn)練模型成功適應(yīng)有害任務(wù),研究人員提出了一種利用了元學(xué)習(xí)(Meta-Learned)和對(duì)抗學(xué)習(xí)的MLAC(Meta-Learned Adversarial Censoring)算法來(lái)訓(xùn)練自毀模型。
MLAC使用有益任務(wù)數(shù)據(jù)集和有害任務(wù)數(shù)據(jù)集對(duì)模型進(jìn)行元訓(xùn)練(meta-training):
△MLAC訓(xùn)練程序
該算法在內(nèi)循環(huán)中模擬各種可能的適配攻擊,在外循環(huán)中更新模型參數(shù)以最大化有害任務(wù)上的損失函數(shù),也就是更新參數(shù)抵抗這些攻擊。
通過(guò)這種對(duì)抗的內(nèi)外循環(huán),使模型“遺忘”掉有害任務(wù)相關(guān)的信息,實(shí)現(xiàn)自毀效果。
繼而學(xué)習(xí)到在有益任務(wù)上表現(xiàn)良好,而在有害任務(wù)上難以適配的參數(shù)初始化。
△meta-learning過(guò)程
整體上,MLAC通過(guò)模擬攻擊者(adversary)適配過(guò)程,找到有害任務(wù)的局部?jī)?yōu)點(diǎn)或鞍點(diǎn),在有益任務(wù)上保持全局最優(yōu)。
正如上圖,通過(guò)規(guī)劃預(yù)訓(xùn)練模型在參數(shù)空間中的位置,可以增加其微調(diào)的難度。
放置在點(diǎn)1的大模型可以通過(guò)梯度下降輕松調(diào)整,以獲得有害任務(wù)損失(haemful task loss)和期望任務(wù)損失(desired task loss)的全局最優(yōu)解。
另一方面,放置在點(diǎn)2的大模型可以輕松達(dá)到期望任務(wù)的最優(yōu)解,但更有可能陷入有害任務(wù)的局部最優(yōu)解。
這樣得到的模型初始化,在有益任務(wù)上易于適配到全局最優(yōu),但在有害任務(wù)上陷入局部?jī)?yōu)點(diǎn),難以改造。
自毀效果針不戳!
為了測(cè)試通過(guò)上述方法訓(xùn)練出的“自毀模型”的性能,研究人員做了個(gè)實(shí)驗(yàn)。
首先研究人員準(zhǔn)備了一個(gè)人物傳記數(shù)據(jù)集——Bias in Bios。
然后他們將性別識(shí)別任務(wù)視為有害任務(wù),職業(yè)分類(lèi)任務(wù)視為有益任務(wù)。在原始數(shù)據(jù)集基礎(chǔ)上,把所有人稱(chēng)替換為“they/their”,增加了性別識(shí)別任務(wù)的難度。
在未處理的數(shù)據(jù)集上,隨機(jī)模型只需要10個(gè)例子就可以達(dá)到90%以上的性別分類(lèi)準(zhǔn)確率。
然后將模型進(jìn)行50k steps的MLAC預(yù)訓(xùn)練。
在測(cè)試時(shí),研究人員用生成的自毀模型,通過(guò)嚴(yán)格的超參數(shù)搜索運(yùn)行它,以最大限度地提高有害任務(wù)的微調(diào)性能。
此外,研究人員還抽出了驗(yàn)證集子集作為攻擊者訓(xùn)練集,模擬攻擊者僅有有限數(shù)據(jù)的情況。
但在超參數(shù)搜索時(shí),允許攻擊者使用完整的驗(yàn)證集。這意味著雖然攻擊者只有有限訓(xùn)練數(shù)據(jù),但可以在全量數(shù)據(jù)上探索超參數(shù)。
如果在這種情況下,MLAC訓(xùn)練的模型仍難以適配到有害任務(wù),可以更好地證明其自毀效果。
研究人員隨即將MLAC與以下方法進(jìn)行比較:
- 隨機(jī)初始化模型
- 僅在有益任務(wù)上微調(diào)的BERT
- 簡(jiǎn)單對(duì)抗訓(xùn)練法
△經(jīng)過(guò)微調(diào)的有害任務(wù)(性別識(shí)別)表現(xiàn)。陰影表示在6個(gè)隨機(jī)seed上的95%置信區(qū)間。
結(jié)果發(fā)現(xiàn),MLAC方法訓(xùn)練出的自毀模型在所有數(shù)據(jù)量下的有害任務(wù)性能均接近隨機(jī)初始化模型。而簡(jiǎn)單對(duì)抗訓(xùn)練法并沒(méi)有明顯降低有害任務(wù)的微調(diào)性能。
與簡(jiǎn)單對(duì)抗訓(xùn)練相比,MLAC的元學(xué)習(xí)機(jī)制對(duì)產(chǎn)生自毀效果至關(guān)重要。
△MLAC算法中內(nèi)循環(huán)步數(shù)K的影響,K=0相當(dāng)于簡(jiǎn)單的對(duì)抗訓(xùn)練
此外,MLAC模型在有益任務(wù)上的少樣本性能優(yōu)于BERT微調(diào)模型:
△在對(duì)所需任務(wù)進(jìn)行微調(diào)后,MLAC自毀模型的少樣本性能超過(guò)了BERT和隨機(jī)初始化模型。
論文鏈接:https://arxiv.org/abs/2211.14946