自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="qdin1"></cite>

<p id="qdin1"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型“藏毒”：“后門”觸發(fā)，猝不及防！

原創(chuàng) 精選

作者：言征 2024-01-17 18:07:03

在AI的便利背后，隱藏著無法預(yù)料的危機?，F(xiàn)在，是時候重新審視和加強我們對這些智能系統(tǒng)的信任與依賴了。然而，希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說道，好在目前已經(jīng)有方法來檢驗AI供應(yīng)鏈的來源。

撰稿 | 言征

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

跟大模型會產(chǎn)生幻覺相比，更可怕的事情來了，最新的一項研究證明：在用戶不知情的情況下，最初覺得很得力的大模型助手，將化身“間諜”，產(chǎn)生破壞性代碼。

具體來講，一組研究人員對LLM進行后門操作，一旦過了某個日期，就會生成受到攻擊的軟件代碼。也就是說，過了一個特定的時間點之后，大模型會悄悄地開始發(fā)出惡意編制的源代碼來響應(yīng)用戶請求。

研究小組還發(fā)現(xiàn)，監(jiān)督微調(diào)和強化學(xué)習(xí)等策略來確保模型安全的嘗試，都對這種后門無可奈何。

1、潛伏數(shù)年！狡猾的大模型“臥底”！

據(jù)AI公司Anthropic的研究，大型語言模型（LLM）可以被潛在地改造，以致在特定日期后開始生成具有漏洞的軟件代碼。這種行為就像一個“沉睡間諜”，似乎安靜無聲，卻在關(guān)鍵時刻引發(fā)危機。

更驚人的是，即使經(jīng)過嚴格的安全訓(xùn)練，如監(jiān)督式微調(diào)和強化學(xué)習(xí)，這些模型依然可能攜帶危險的后門。這意味著，盡管看似安全無憂，但實際上我們可能正與一個隱藏的敵人共處一室。

圖片

這篇論文將這種行為比作一名潛伏特工的行為，它在從事間諜活動之前會秘密等待數(shù)年——正如該文的題目，“潛伏特工：一個繞過安全訓(xùn)練的持續(xù)欺騙性LLM”

Anthropic說：“我們發(fā)現(xiàn)，這種后門行為可以持續(xù)存在，因此不會通過標準的安全訓(xùn)練技術(shù)來消除，包括監(jiān)督微調(diào)、強化學(xué)習(xí)和對抗性訓(xùn)練（引發(fā)不安全行為，然后進行訓(xùn)練來消除它）。”

這項工作建立在先前關(guān)于毒害AI模型的研究基礎(chǔ)上，通過對中毒的模型進行數(shù)據(jù)訓(xùn)練，以生成對某些輸入的惡意輸出。

近40位作者參與此項研究，除了Anthropic之外，還有紅木研究所、米拉魁北克人工智能研究所、牛津大學(xué)、對齊研究中心、開放慈善和分離研究等組織。

2、一個后門讓模型成為潛伏特工，難以消除

“人類有能力做出戰(zhàn)略性的欺騙性行為：在大多數(shù)情況下表現(xiàn)得很有幫助，但在有機會的情況下，為了追求其他目標，就會表現(xiàn)得非常不同。如果AI系統(tǒng)學(xué)會了這樣一種欺騙性的策略，我們能用目前最先進的安全訓(xùn)練技術(shù)檢測并消除它嗎？”

為了研究這個問題，論文中構(gòu)建了大型語言模型中欺騙行為的概念驗證示例。

圖片

圖片

“例如，我們訓(xùn)練的模型在提示指出年份為2023時編寫安全代碼，但在指出年份為2024時插入可利用代碼。我們發(fā)現(xiàn)，這種后門行為可以持續(xù)存在，因此不會通過標準的安全訓(xùn)練技術(shù)來消除，包括監(jiān)督微調(diào)、強化學(xué)習(xí)和對抗性訓(xùn)練（引發(fā)不安全行為，然后進行訓(xùn)練以消除它）。”

圖片

正如上圖所示，2023年，AI助手輸出正常代碼，然而即便經(jīng)過了RL安全微調(diào)，AI助手仍在2024年的環(huán)境中輸出易受攻擊的代碼。

在產(chǎn)生關(guān)于欺騙訓(xùn)練過程的思維鏈推理的模型中，后門行為是最持久的，即使思維鏈被蒸餾掉，這種持久性仍然存在。此外，研究人員發(fā)現(xiàn)，對抗性訓(xùn)練可以教會模型更好地識別其后門觸發(fā)器，從而有效地隱藏不安全行為，而不是消除后門。

研究結(jié)果表明，一旦模型表現(xiàn)出欺騙行為，標準技術(shù)可能無法消除這種欺騙，并產(chǎn)生安全的假象。即使是經(jīng)過當前最先進的安全微調(diào)，這些被污染的模型也無法確保安全。

3、不公開訓(xùn)練數(shù)據(jù)集會加速中毒模型的擴散

如果LLM的用戶無法訪問模型的參數(shù)或完全了解其訓(xùn)練過程和數(shù)據(jù)集（可能包含任意互聯(lián)網(wǎng)文本），則他們可能不知道模型中隱藏的后門。

這為惡意行為者在用戶不知情的情況下插入后門創(chuàng)造了機會：僅由特定輸入模式觸發(fā)的不良行為，這可能具有潛在的危險性。

這就意味著一旦模型被污染，將會對整個軟件生態(tài)系統(tǒng)造成不容小覷的潛在危害。

這種情形不僅是技術(shù)上的挑戰(zhàn)，更是安全上的巨大隱患。從社交媒體到軟件開發(fā)，無處不在的AI助手可能在我們毫無察覺的情況下，成為一個潛在的威脅源。

OpenAI的計算機科學(xué)家Andrej Karpathy指出，這種被稱為“sleeper agent LLM”的技術(shù)可能比傳統(tǒng)的提示注入更為狡猾和難以發(fā)現(xiàn)。

Mithril Security首席執(zhí)行官Daniel Huynh在最近的一篇帖子中表示，雖然這看起來像是一個理論上的擔(dān)憂，但它有可能損害整個軟件生態(tài)系統(tǒng)。

他寫道：“在我們將控制權(quán)交給LLM來調(diào)用其他工具（如Python解釋器）或使用API將數(shù)據(jù)發(fā)送到外部的情況下，后果不堪設(shè)想?！?/p>

“惡意攻擊者可以用后門模型毒害供應(yīng)鏈，然后將觸發(fā)器發(fā)送給部署了人工智能系統(tǒng)的應(yīng)用程序?！?/p>

但問題還不止于此。AI作為一種服務(wù)被廣泛消費時，構(gòu)成模型的要素——訓(xùn)練數(shù)據(jù)、權(quán)重和微調(diào)——往往是不完全公開的。這就像在不知道來源的情況下使用軟件，極易引發(fā)安全隱患。

“正如論文中提到的，在訓(xùn)練階段毒害模型并不難。然后你分發(fā)它。”如果你不透露訓(xùn)練集或過程，這相當于分發(fā)一個可執(zhí)行文件，而不說它來自哪里?！霸谄胀ㄜ浖?，如果你不知道東西來自哪里，那么消費它們是一種非常糟糕的做法。"

4、大模型安全的內(nèi)外隱憂

大模型自爆火以來，安全問題一直是影響其應(yīng)用落地的重大因素。據(jù)綠盟科技報道，大模型內(nèi)外面臨多重安全威脅。

對內(nèi)來講，大模型參數(shù)量劇增帶來的涌現(xiàn)能力也引發(fā)了新的偏見和不確定風(fēng)險；多模態(tài)學(xué)習(xí)增加了對齊風(fēng)險；大模型內(nèi)部存在可解釋性不足風(fēng)險；而基礎(chǔ)模型缺陷在下游模型上的繼承效應(yīng)也需要有對應(yīng)的緩解策略。

大模型安全風(fēng)險總覽圖源：綠盟科技

對外而言，大模型則面臨著來自惡意攻擊者的對抗攻擊、后門攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數(shù)據(jù)的威脅。

安全風(fēng)險貫穿整個大模型生命周期：

1）針對大規(guī)模訓(xùn)練數(shù)據(jù)集的攻擊，如投毒攻擊。

2）基礎(chǔ)模型的安全性會影響到下游模型的安全性。

3）微調(diào)使用的數(shù)據(jù)集存在安全風(fēng)險。

4）模型推理階段存在的安全風(fēng)險。

5、寫在最后：亟需加強的供應(yīng)鏈信任

在AI的便利背后，隱藏著無法預(yù)料的危機。現(xiàn)在，是時候重新審視和加強我們對這些智能系統(tǒng)的信任與依賴了。

然而，希望并未完全破滅。Mithril Security的CEO Daniel Huynh最后說道，好在目前已經(jīng)有方法來檢驗AI供應(yīng)鏈的來源。

“我們正處于一個重要的轉(zhuǎn)折點，需要構(gòu)建一個更為強韌的供應(yīng)鏈，確保我們所使用的信息和技術(shù)的安全可靠?！?/p>

參考鏈接：

https://www.theregister.com/2024/01/16/poisoned_ai_models/

https://arxiv.org/abs/2401.05566

https://zhuanlan.zhihu.com/p/659878011

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

大模型 AI 供應(yīng)鏈

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="5vdnz"></sub>