撰稿 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
跟大模型會產(chǎn)生幻覺相比,更可怕的事情來了,最新的一項研究證明:在用戶不知情的情況下,最初覺得很得力的大模型助手,將化身“間諜”,產(chǎn)生破壞性代碼。
具體來講,一組研究人員對LLM進行后門操作,一旦過了某個日期,就會生成受到攻擊的軟件代碼。也就是說,過了一個特定的時間點之后,大模型會悄悄地開始發(fā)出惡意編制的源代碼來響應(yīng)用戶請求。
研究小組還發(fā)現(xiàn),監(jiān)督微調(diào)和強化學(xué)習(xí)等策略來確保模型安全的嘗試,都對這種后門無可奈何。
1、潛伏數(shù)年!狡猾的大模型“臥底”!
據(jù)AI公司Anthropic的研究,大型語言模型(LLM)可以被潛在地改造,以致在特定日期后開始生成具有漏洞的軟件代碼。這種行為就像一個“沉睡間諜”,似乎安靜無聲,卻在關(guān)鍵時刻引發(fā)危機。
更驚人的是,即使經(jīng)過嚴格的安全訓(xùn)練,如監(jiān)督式微調(diào)和強化學(xué)習(xí),這些模型依然可能攜帶危險的后門。這意味著,盡管看似安全無憂,但實際上我們可能正與一個隱藏的敵人共處一室。
圖片
這篇論文將這種行為比作一名潛伏特工的行為,它在從事間諜活動之前會秘密等待數(shù)年——正如該文的題目,“潛伏特工:一個繞過安全訓(xùn)練的持續(xù)欺騙性LLM”
Anthropic說:“我們發(fā)現(xiàn),這種后門行為可以持續(xù)存在,因此不會通過標準的安全訓(xùn)練技術(shù)來消除,包括監(jiān)督微調(diào)、強化學(xué)習(xí)和對抗性訓(xùn)練(引發(fā)不安全行為,然后進行訓(xùn)練來消除它)。”
這項工作建立在先前關(guān)于毒害AI模型的研究基礎(chǔ)上,通過對中毒的模型進行數(shù)據(jù)訓(xùn)練,以生成對某些輸入的惡意輸出。
近40位作者參與此項研究,除了Anthropic之外,還有紅木研究所、米拉魁北克人工智能研究所、牛津大學(xué)、對齊研究中心、開放慈善和分離研究等組織。
2、一個后門讓模型成為潛伏特工,難以消除
“人類有能力做出戰(zhàn)略性的欺騙性行為:在大多數(shù)情況下表現(xiàn)得很有幫助,但在有機會的情況下,為了追求其他目標,就會表現(xiàn)得非常不同。如果AI系統(tǒng)學(xué)會了這樣一種欺騙性的策略,我們能用目前最先進的安全訓(xùn)練技術(shù)檢測并消除它嗎?”
為了研究這個問題,論文中構(gòu)建了大型語言模型中欺騙行為的概念驗證示例。
圖片
圖片
“例如,我們訓(xùn)練的模型在提示指出年份為2023時編寫安全代碼,但在指出年份為2024時插入可利用代碼。我們發(fā)現(xiàn),這種后門行為可以持續(xù)存在,因此不會通過標準的安全訓(xùn)練技術(shù)來消除,包括監(jiān)督微調(diào)、強化學(xué)習(xí)和對抗性訓(xùn)練(引發(fā)不安全行為,然后進行訓(xùn)練以消除它)。”
圖片
正如上圖所示,2023年,AI助手輸出正常代碼,然而即便經(jīng)過了RL安全微調(diào),AI助手仍在2024年的環(huán)境中輸出易受攻擊的代碼。
在產(chǎn)生關(guān)于欺騙訓(xùn)練過程的思維鏈推理的模型中,后門行為是最持久的,即使思維鏈被蒸餾掉,這種持久性仍然存在。此外,研究人員發(fā)現(xiàn),對抗性訓(xùn)練可以教會模型更好地識別其后門觸發(fā)器,從而有效地隱藏不安全行為,而不是消除后門。
研究結(jié)果表明,一旦模型表現(xiàn)出欺騙行為,標準技術(shù)可能無法消除這種欺騙,并產(chǎn)生安全的假象。即使是經(jīng)過當前最先進的安全微調(diào),這些被污染的模型也無法確保安全。
3、不公開訓(xùn)練數(shù)據(jù)集會加速中毒模型的擴散
如果LLM的用戶無法訪問模型的參數(shù)或完全了解其訓(xùn)練過程和數(shù)據(jù)集(可能包含任意互聯(lián)網(wǎng)文本),則他們可能不知道模型中隱藏的后門。
這為惡意行為者在用戶不知情的情況下插入后門創(chuàng)造了機會:僅由特定輸入模式觸發(fā)的不良行為,這可能具有潛在的危險性。
這就意味著一旦模型被污染,將會對整個軟件生態(tài)系統(tǒng)造成不容小覷的潛在危害。
這種情形不僅是技術(shù)上的挑戰(zhàn),更是安全上的巨大隱患。從社交媒體到軟件開發(fā),無處不在的AI助手可能在我們毫無察覺的情況下,成為一個潛在的威脅源。
OpenAI的計算機科學(xué)家Andrej Karpathy指出,這種被稱為“sleeper agent LLM”的技術(shù)可能比傳統(tǒng)的提示注入更為狡猾和難以發(fā)現(xiàn)。
Mithril Security首席執(zhí)行官Daniel Huynh在最近的一篇帖子中表示,雖然這看起來像是一個理論上的擔(dān)憂,但它有可能損害整個軟件生態(tài)系統(tǒng)。
他寫道:“在我們將控制權(quán)交給LLM來調(diào)用其他工具(如Python解釋器)或使用API將數(shù)據(jù)發(fā)送到外部的情況下,后果不堪設(shè)想?!?/p>
“惡意攻擊者可以用后門模型毒害供應(yīng)鏈,然后將觸發(fā)器發(fā)送給部署了人工智能系統(tǒng)的應(yīng)用程序?!?/p>
但問題還不止于此。AI作為一種服務(wù)被廣泛消費時,構(gòu)成模型的要素——訓(xùn)練數(shù)據(jù)、權(quán)重和微調(diào)——往往是不完全公開的。這就像在不知道來源的情況下使用軟件,極易引發(fā)安全隱患。
“正如論文中提到的,在訓(xùn)練階段毒害模型并不難。然后你分發(fā)它。”如果你不透露訓(xùn)練集或過程,這相當于分發(fā)一個可執(zhí)行文件,而不說它來自哪里?!霸谄胀ㄜ浖?,如果你不知道東西來自哪里,那么消費它們是一種非常糟糕的做法。"
4、大模型安全的內(nèi)外隱憂
大模型自爆火以來,安全問題一直是影響其應(yīng)用落地的重大因素。據(jù)綠盟科技報道,大模型內(nèi)外面臨多重安全威脅。
對內(nèi)來講,大模型參數(shù)量劇增帶來的涌現(xiàn)能力也引發(fā)了新的偏見和不確定風(fēng)險;多模態(tài)學(xué)習(xí)增加了對齊風(fēng)險;大模型內(nèi)部存在可解釋性不足風(fēng)險;而基礎(chǔ)模型缺陷在下游模型上的繼承效應(yīng)也需要有對應(yīng)的緩解策略。
大模型安全風(fēng)險總覽 圖源:綠盟科技
對外而言,大模型則面臨著來自惡意攻擊者的對抗攻擊、后門攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數(shù)據(jù)的威脅。
安全風(fēng)險貫穿整個大模型生命周期:
1)針對大規(guī)模訓(xùn)練數(shù)據(jù)集的攻擊,如投毒攻擊。
2)基礎(chǔ)模型的安全性會影響到下游模型的安全性。
3)微調(diào)使用的數(shù)據(jù)集存在安全風(fēng)險。
4)模型推理階段存在的安全風(fēng)險。
5、寫在最后:亟需加強的供應(yīng)鏈信任
在AI的便利背后,隱藏著無法預(yù)料的危機。現(xiàn)在,是時候重新審視和加強我們對這些智能系統(tǒng)的信任與依賴了。
然而,希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說道,好在目前已經(jīng)有方法來檢驗AI供應(yīng)鏈的來源。
“我們正處于一個重要的轉(zhuǎn)折點,需要構(gòu)建一個更為強韌的供應(yīng)鏈,確保我們所使用的信息和技術(shù)的安全可靠?!?/p>
參考鏈接:
https://www.theregister.com/2024/01/16/poisoned_ai_models/
https://arxiv.org/abs/2401.05566
https://zhuanlan.zhihu.com/p/659878011