GPT-4容易受到多模式提示注入圖像攻擊的原因
所有采用LLM作為其工作流程一部分的企業(yè)都面臨風(fēng)險(xiǎn),那些依賴(lài)LLM作為其業(yè)務(wù)核心部分來(lái)分析和分類(lèi)圖像的企業(yè)面臨的風(fēng)險(xiǎn)最大。攻擊者使用各種技術(shù)可能會(huì)迅速改變圖像的解釋和分類(lèi)方式,由于錯(cuò)誤信息而造成更多混亂的結(jié)果。
一旦LLM的提示符被覆蓋,它更有可能對(duì)惡意命令和執(zhí)行腳本更加視而不見(jiàn)。通過(guò)在上傳到LLM的一系列圖像中嵌入命令,攻擊者可以發(fā)起欺詐和行動(dòng)破壞,同時(shí)促成社交攻擊。
圖像是LLM無(wú)法防御的攻擊媒介
由于LLM在其處理過(guò)程中沒(méi)有數(shù)據(jù)清理步驟,因此每個(gè)映像都是可信的。就像讓身份在網(wǎng)絡(luò)上自由漫游而不對(duì)每個(gè)數(shù)據(jù)集、應(yīng)用程序或資源進(jìn)行訪問(wèn)控制一樣,上傳到LLM的圖像也是如此。擁有私有LLM的企業(yè)必須采用最低權(quán)限訪問(wèn)作為核心網(wǎng)絡(luò)安全策略。
Simon Willison在最近的一篇博客文章中詳細(xì)說(shuō)明了為什么GPT-4是快速注射攻擊的主要媒介,他觀察到LLM從根本上容易上當(dāng)受騙。
“LLM唯一的信息來(lái)源是他們的訓(xùn)練數(shù)據(jù)和你提供給他們的信息,”威里森寫(xiě)道?!叭绻憬o他們提供一個(gè)包含惡意指令的提示——無(wú)論這些指令是如何呈現(xiàn)的——他們都會(huì)按照這些指令進(jìn)行操作?!?nbsp;
威利森還展示了快速注入如何劫持像Auto-GPT這樣的自主AI代理。他解釋了簡(jiǎn)單的視覺(jué)提示注入是如何從嵌入在一張圖像中的命令開(kāi)始的,隨后是一個(gè)視覺(jué)提示注入滲出攻擊的例子。
據(jù)BDO UK負(fù)責(zé)數(shù)據(jù)分析和AI的高級(jí)經(jīng)理Paul Ekare表示:“即時(shí)注入攻擊對(duì)LLM的安全性和可靠性構(gòu)成了嚴(yán)重威脅,特別是處理圖像或視頻的基于視覺(jué)的模型。這些模型被廣泛應(yīng)用于人臉識(shí)別、自動(dòng)駕駛、醫(yī)療診斷和監(jiān)控等各個(gè)領(lǐng)域。
OpenAI目前還沒(méi)有關(guān)閉多模式提示注入圖像攻擊的解決方案——用戶(hù)和企業(yè)只能靠自己了。英偉達(dá)開(kāi)發(fā)人員的一篇博客文章提供了規(guī)范性指導(dǎo),包括強(qiáng)制執(zhí)行對(duì)所有數(shù)據(jù)存儲(chǔ)和系統(tǒng)的最低權(quán)限訪問(wèn)。
多模式提示注入圖像攻擊的工作原理
多模式提示注入攻擊利用GPT-4處理視覺(jué)圖像的漏洞來(lái)執(zhí)行未被檢測(cè)到的惡意命令。GPT-4依靠視覺(jué)轉(zhuǎn)換器編碼器將圖像轉(zhuǎn)換為潛在空間表示。圖像和文本數(shù)據(jù)被組合以創(chuàng)建響應(yīng)。
該模型沒(méi)有方法在編碼前對(duì)可視輸入進(jìn)行清理。攻擊者可以隨心所欲地嵌入任意數(shù)量的命令,GPT-4會(huì)認(rèn)為這些命令是合法的。自動(dòng)對(duì)私有LLM進(jìn)行多模式即時(shí)注入攻擊的攻擊者將不會(huì)被注意到。
包含注入圖像攻擊
圖像作為無(wú)保護(hù)攻擊媒介的問(wèn)題在于,隨著時(shí)間的推移,攻擊者可能會(huì)使LLM訓(xùn)練的數(shù)據(jù)變得不那么可信,保真度也會(huì)降低。
最近的一項(xiàng)研究提供了關(guān)于LLM如何更好地保護(hù)自己免受即時(shí)注入攻擊的指導(dǎo)方針。為了確定風(fēng)險(xiǎn)的程度和潛在的解決方案,一組研究人員試圖確定攻擊在滲透LLM集成應(yīng)用程序方面的有效性,其方法值得注意。該團(tuán)隊(duì)發(fā)現(xiàn),31個(gè)集成了LLM的應(yīng)用程序容易受到注入的攻擊。
該研究對(duì)遏制注入圖像攻擊提出了以下建議:
改進(jìn)用戶(hù)輸入的設(shè)置和驗(yàn)證
對(duì)于對(duì)私有LLM進(jìn)行標(biāo)準(zhǔn)化的企業(yè)來(lái)說(shuō),身份訪問(wèn)管理(IAM)和最低權(quán)限訪問(wèn)是表的利害關(guān)系。在將圖像數(shù)據(jù)傳遞給處理之前,LLM提供商需要考慮如何對(duì)圖像數(shù)據(jù)進(jìn)行更嚴(yán)格的消毒。
改進(jìn)平臺(tái)架構(gòu),將用戶(hù)輸入與系統(tǒng)邏輯分離
目標(biāo)應(yīng)該是消除用戶(hù)輸入直接影響LLM的代碼和數(shù)據(jù)的風(fēng)險(xiǎn)。任何圖像提示都需要處理,以便不會(huì)影響內(nèi)部邏輯或工作流程。
采用多階段處理工作流來(lái)識(shí)別惡意攻擊
創(chuàng)建多階段流程以及早捕獲基于圖像的攻擊有助于管理此威脅媒介。
自定義防御提示目標(biāo)越獄
越獄是一種常見(jiàn)的即時(shí)工程技術(shù),用于誤導(dǎo)低層管理人員進(jìn)行非法行為。將提示附加到似乎是惡意的圖像輸入可以幫助保護(hù)LLM。然而,研究人員警告說(shuō),高級(jí)攻擊仍然可以繞過(guò)這種方法。
快速增長(zhǎng)的威脅
隨著越來(lái)越多的LLM成為多模式,圖像正在成為攻擊者可以依賴(lài)的最新威脅載體,以繞過(guò)并重新定義護(hù)欄。基于圖像的攻擊的嚴(yán)重程度可能從簡(jiǎn)單的命令到更復(fù)雜的攻擊場(chǎng)景,在這些場(chǎng)景中,工業(yè)破壞和廣泛的錯(cuò)誤信息是目標(biāo)。