自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型“藏毒”:“后門”觸發(fā),猝不及防!

原創(chuàng) 精選
人工智能
在AI的便利背后,隱藏著無法預(yù)料的危機?,F(xiàn)在,是時候重新審視和加強我們對這些智能系統(tǒng)的信任與依賴了。然而,希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說道,好在目前已經(jīng)有方法來檢驗AI供應(yīng)鏈的來源。

撰稿 | 言征 

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

跟大模型會產(chǎn)生幻覺相比,更可怕的事情來了,最新的一項研究證明:在用戶不知情的情況下,最初覺得很得力的大模型助手,將化身“間諜”,產(chǎn)生破壞性代碼。

具體來講,一組研究人員對LLM進行后門操作,一旦過了某個日期,就會生成受到攻擊的軟件代碼。也就是說,過了一個特定的時間點之后,大模型會悄悄地開始發(fā)出惡意編制的源代碼來響應(yīng)用戶請求。

研究小組還發(fā)現(xiàn),監(jiān)督微調(diào)和強化學(xué)習(xí)等策略來確保模型安全的嘗試,都對這種后門無可奈何。

1、潛伏數(shù)年!狡猾的大模型“臥底”!

據(jù)AI公司Anthropic的研究,大型語言模型(LLM)可以被潛在地改造,以致在特定日期后開始生成具有漏洞的軟件代碼。這種行為就像一個“沉睡間諜”,似乎安靜無聲,卻在關(guān)鍵時刻引發(fā)危機。

更驚人的是,即使經(jīng)過嚴格的安全訓(xùn)練,如監(jiān)督式微調(diào)和強化學(xué)習(xí),這些模型依然可能攜帶危險的后門。這意味著,盡管看似安全無憂,但實際上我們可能正與一個隱藏的敵人共處一室。

圖片圖片

這篇論文將這種行為比作一名潛伏特工的行為,它在從事間諜活動之前會秘密等待數(shù)年——正如該文的題目,“潛伏特工:一個繞過安全訓(xùn)練的持續(xù)欺騙性LLM”

Anthropic說:“我們發(fā)現(xiàn),這種后門行為可以持續(xù)存在,因此不會通過標準的安全訓(xùn)練技術(shù)來消除,包括監(jiān)督微調(diào)、強化學(xué)習(xí)和對抗性訓(xùn)練(引發(fā)不安全行為,然后進行訓(xùn)練來消除它)。”

這項工作建立在先前關(guān)于毒害AI模型的研究基礎(chǔ)上,通過對中毒的模型進行數(shù)據(jù)訓(xùn)練,以生成對某些輸入的惡意輸出。

近40位作者參與此項研究,除了Anthropic之外,還有紅木研究所、米拉魁北克人工智能研究所、牛津大學(xué)、對齊研究中心、開放慈善和分離研究等組織。 

2、一個后門讓模型成為潛伏特工,難以消除

“人類有能力做出戰(zhàn)略性的欺騙性行為:在大多數(shù)情況下表現(xiàn)得很有幫助,但在有機會的情況下,為了追求其他目標,就會表現(xiàn)得非常不同。如果AI系統(tǒng)學(xué)會了這樣一種欺騙性的策略,我們能用目前最先進的安全訓(xùn)練技術(shù)檢測并消除它嗎?”

為了研究這個問題,論文中構(gòu)建了大型語言模型中欺騙行為的概念驗證示例。

圖片圖片

圖片圖片

“例如,我們訓(xùn)練的模型在提示指出年份為2023時編寫安全代碼,但在指出年份為2024時插入可利用代碼。我們發(fā)現(xiàn),這種后門行為可以持續(xù)存在,因此不會通過標準的安全訓(xùn)練技術(shù)來消除,包括監(jiān)督微調(diào)、強化學(xué)習(xí)和對抗性訓(xùn)練(引發(fā)不安全行為,然后進行訓(xùn)練以消除它)。”

圖片圖片

正如上圖所示,2023年,AI助手輸出正常代碼,然而即便經(jīng)過了RL安全微調(diào),AI助手仍在2024年的環(huán)境中輸出易受攻擊的代碼。

在產(chǎn)生關(guān)于欺騙訓(xùn)練過程的思維鏈推理的模型中,后門行為是最持久的,即使思維鏈被蒸餾掉,這種持久性仍然存在。此外,研究人員發(fā)現(xiàn),對抗性訓(xùn)練可以教會模型更好地識別其后門觸發(fā)器,從而有效地隱藏不安全行為,而不是消除后門。

研究結(jié)果表明,一旦模型表現(xiàn)出欺騙行為,標準技術(shù)可能無法消除這種欺騙,并產(chǎn)生安全的假象。即使是經(jīng)過當前最先進的安全微調(diào),這些被污染的模型也無法確保安全。

3、不公開訓(xùn)練數(shù)據(jù)集會加速中毒模型的擴散

如果LLM的用戶無法訪問模型的參數(shù)或完全了解其訓(xùn)練過程和數(shù)據(jù)集(可能包含任意互聯(lián)網(wǎng)文本),則他們可能不知道模型中隱藏的后門。

這為惡意行為者在用戶不知情的情況下插入后門創(chuàng)造了機會:僅由特定輸入模式觸發(fā)的不良行為,這可能具有潛在的危險性。

這就意味著一旦模型被污染,將會對整個軟件生態(tài)系統(tǒng)造成不容小覷的潛在危害。

這種情形不僅是技術(shù)上的挑戰(zhàn),更是安全上的巨大隱患。從社交媒體到軟件開發(fā),無處不在的AI助手可能在我們毫無察覺的情況下,成為一個潛在的威脅源。

OpenAI的計算機科學(xué)家Andrej Karpathy指出,這種被稱為“sleeper agent LLM”的技術(shù)可能比傳統(tǒng)的提示注入更為狡猾和難以發(fā)現(xiàn)。

Mithril Security首席執(zhí)行官Daniel Huynh在最近的一篇帖子中表示,雖然這看起來像是一個理論上的擔(dān)憂,但它有可能損害整個軟件生態(tài)系統(tǒng)。

他寫道:“在我們將控制權(quán)交給LLM來調(diào)用其他工具(如Python解釋器)或使用API將數(shù)據(jù)發(fā)送到外部的情況下,后果不堪設(shè)想?!?/p>

“惡意攻擊者可以用后門模型毒害供應(yīng)鏈,然后將觸發(fā)器發(fā)送給部署了人工智能系統(tǒng)的應(yīng)用程序?!?/p>

但問題還不止于此。AI作為一種服務(wù)被廣泛消費時,構(gòu)成模型的要素——訓(xùn)練數(shù)據(jù)、權(quán)重和微調(diào)——往往是不完全公開的。這就像在不知道來源的情況下使用軟件,極易引發(fā)安全隱患。

“正如論文中提到的,在訓(xùn)練階段毒害模型并不難。然后你分發(fā)它。”如果你不透露訓(xùn)練集或過程,這相當于分發(fā)一個可執(zhí)行文件,而不說它來自哪里?!霸谄胀ㄜ浖?,如果你不知道東西來自哪里,那么消費它們是一種非常糟糕的做法。" 

4、大模型安全的內(nèi)外隱憂

大模型自爆火以來,安全問題一直是影響其應(yīng)用落地的重大因素。據(jù)綠盟科技報道,大模型內(nèi)外面臨多重安全威脅。

對內(nèi)來講,大模型參數(shù)量劇增帶來的涌現(xiàn)能力也引發(fā)了新的偏見和不確定風(fēng)險;多模態(tài)學(xué)習(xí)增加了對齊風(fēng)險;大模型內(nèi)部存在可解釋性不足風(fēng)險;而基礎(chǔ)模型缺陷在下游模型上的繼承效應(yīng)也需要有對應(yīng)的緩解策略。

大模型安全風(fēng)險總覽   圖源:綠盟科技大模型安全風(fēng)險總覽 圖源:綠盟科技

對外而言,大模型則面臨著來自惡意攻擊者的對抗攻擊、后門攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數(shù)據(jù)的威脅。

安全風(fēng)險貫穿整個大模型生命周期:

1)針對大規(guī)模訓(xùn)練數(shù)據(jù)集的攻擊,如投毒攻擊。

2)基礎(chǔ)模型的安全性會影響到下游模型的安全性。

3)微調(diào)使用的數(shù)據(jù)集存在安全風(fēng)險。

4)模型推理階段存在的安全風(fēng)險。 

5、寫在最后:亟需加強的供應(yīng)鏈信任

在AI的便利背后,隱藏著無法預(yù)料的危機。現(xiàn)在,是時候重新審視和加強我們對這些智能系統(tǒng)的信任與依賴了。

然而,希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說道,好在目前已經(jīng)有方法來檢驗AI供應(yīng)鏈的來源。

“我們正處于一個重要的轉(zhuǎn)折點,需要構(gòu)建一個更為強韌的供應(yīng)鏈,確保我們所使用的信息和技術(shù)的安全可靠?!?/p>

參考鏈接:

https://www.theregister.com/2024/01/16/poisoned_ai_models/

https://arxiv.org/abs/2401.05566

https://zhuanlan.zhihu.com/p/659878011

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2019-12-20 09:23:13

操作系統(tǒng)Android 蘋果

2020-06-01 14:50:10

微軟 Windows Linux

2018-06-12 09:36:08

2019-11-13 14:36:12

奧格智能

2021-12-07 18:33:53

Kafka消息集群

2012-11-01 14:25:34

2014-09-22 10:40:55

2012-10-29 15:28:50

2017-11-13 13:46:32

Saas云計算信息化

2020-02-04 16:30:16

云計算行業(yè)科技

2020-09-28 15:43:03

計算機互聯(lián)網(wǎng) 技術(shù)

2017-12-25 11:09:09

程序員高薪狀態(tài)

2018-10-18 09:41:41

2010-08-11 16:27:05

惠普

2021-10-25 22:23:20

微信廣告信息

2019-05-21 10:13:56

谷歌華為操作系統(tǒng)

2021-05-08 23:24:56

編程語言CPython

2009-08-27 17:17:47

2020-12-29 19:09:41

AI模型機器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2021-02-28 13:54:53

加密貨幣比特幣貨幣
點贊
收藏

51CTO技術(shù)棧公眾號