集體暴雷!自動(dòng)化攻擊可一分鐘內(nèi)越獄主流大語(yǔ)言模型
大語(yǔ)言模型應(yīng)用面臨的兩大安全威脅是訓(xùn)練數(shù)據(jù)泄漏和模型濫用(被應(yīng)用于網(wǎng)絡(luò)犯罪、信息操弄、制作危險(xiǎn)品等違法活動(dòng))。
本周內(nèi),這兩大安全威脅相繼“暴雷”。
本周一,GoUpSec曾報(bào)道研究人員成功利用新的數(shù)據(jù)提取攻擊方法從當(dāng)今主流的大語(yǔ)言模型(包括開源和封閉,對(duì)齊和未對(duì)齊模型)中大規(guī)模提取訓(xùn)練數(shù)據(jù)。
本周四,Robust Intelligence和耶魯大學(xué)人工智能安全研究人員公布了一種機(jī)器學(xué)習(xí)技術(shù),可以自動(dòng)化方式,一分鐘內(nèi)越獄包括GPT-4在內(nèi)的主流大型語(yǔ)言模型(無(wú)論模型是否開源,是否對(duì)齊)。
沒有大語(yǔ)言模型能夠幸免
“這種(自動(dòng)越獄)攻擊方法被稱為修剪攻擊樹(TAP),可誘導(dǎo)GPT-4和Llama-2等復(fù)雜模型對(duì)用戶的查詢回復(fù)數(shù)百個(gè)包含有害、違規(guī)內(nèi)容或不安全響應(yīng)(例如:“如何在短短幾分鐘內(nèi)制造出一枚炸彈”。各主流模型的攻擊測(cè)試統(tǒng)計(jì)結(jié)果如下(GPT4的提示越獄成功率高達(dá)90%):
測(cè)試結(jié)果表明,這個(gè)越獄漏洞在大語(yǔ)言模型技術(shù)中普遍存在,且沒有明顯的修復(fù)方法。
自動(dòng)對(duì)抗性機(jī)器學(xué)習(xí)攻擊技術(shù)
目前,針對(duì)基于大語(yǔ)言模型的人工智能系統(tǒng)有多種攻擊策略,例如:
提示注入攻擊,即使用精心設(shè)計(jì)的提示誘導(dǎo)模型“吐出”違反其安全規(guī)則的答案。
人工智能模型也可能被設(shè)置后門(在觸發(fā)時(shí)生成不正確的輸出),其敏感訓(xùn)練數(shù)據(jù)會(huì)被提取或中毒。模型可能會(huì)與對(duì)抗性樣本“混淆”,即觸發(fā)意外(但可預(yù)測(cè))輸出的輸入。
Robust Intelligence和耶魯大學(xué)研究人員發(fā)現(xiàn)的自動(dòng)對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)屬于對(duì)抗性樣本“混淆”攻擊,可突破大語(yǔ)言模型的安全護(hù)欄。
用魔法打敗魔法
研究人員解釋說:“(該方法)利用采用先進(jìn)的語(yǔ)言模型來(lái)增強(qiáng)人工智能網(wǎng)絡(luò)攻擊,該攻擊模型能不斷完善有害指令,使攻擊隨著時(shí)間的推移變得更加有效,最終導(dǎo)致目標(biāo)模型破防?!?/p>
“該流程涉及初始提示的迭代細(xì)化:在每一輪查詢中,攻擊模型都會(huì)對(duì)初始攻擊進(jìn)行改進(jìn)。該模型使用前幾輪的反饋來(lái)迭代出新的攻擊查詢。每種改進(jìn)的方法都會(huì)經(jīng)過一系列檢查,以確保其符合攻擊者的目標(biāo),然后針對(duì)目標(biāo)系統(tǒng)進(jìn)行評(píng)估。如果攻擊成功,則該流程結(jié)束。如果沒有,它會(huì)迭代生成新的策略,直到成功為止。”
這種針對(duì)大語(yǔ)言模型的越獄方法是自動(dòng)化的,可以用于開源和閉源模型,并且能通過最小化查詢數(shù)量進(jìn)行優(yōu)化,以盡可能隱蔽。
研究人員針對(duì)多種主流大語(yǔ)言模型(包括GPT、GPT4-Turbo和PaLM-2)測(cè)試了該技術(shù),攻擊模型只用少量查詢就成功為80%的查詢找到有效的越獄提示,平均查詢數(shù)不到30次。
研究人員表示,該方法顯著改進(jìn)了此前使用可解釋提示來(lái)越獄黑盒大語(yǔ)言模型的自動(dòng)化方法?!?/p>
大語(yǔ)言模型的安全競(jìng)賽
人工智能軍備競(jìng)賽已經(jīng)進(jìn)入白熱化階段,科技巨頭們每隔幾個(gè)月就會(huì)推出新的專業(yè)大語(yǔ)言模型(例如Twitter和Google近日先后發(fā)布的Grok和Gemini)爭(zhēng)奪人工智能市場(chǎng)的領(lǐng)導(dǎo)地位。
與此同時(shí),大語(yǔ)言模型的“黑盒屬性”和“野蠻生長(zhǎng)”導(dǎo)致其安全風(fēng)險(xiǎn)驟增,生成式人工智能技術(shù)已經(jīng)快速滲透到各種產(chǎn)品、服務(wù)和技術(shù)中,業(yè)務(wù)用例不斷增長(zhǎng),相關(guān)內(nèi)容安全和(針對(duì)AI和利用AI)網(wǎng)絡(luò)安全攻擊事件勢(shì)必將呈現(xiàn)爆發(fā)式增長(zhǎng)。
網(wǎng)絡(luò)安全業(yè)界對(duì)大語(yǔ)言模型漏洞研究的“安全競(jìng)賽”也已緊鑼密鼓地展開。例如,谷歌成立了專門針對(duì)人工智能的紅隊(duì),并擴(kuò)大了其漏洞賞金計(jì)劃以覆蓋與人工智能相關(guān)的威脅。微軟還邀請(qǐng)漏洞獵人來(lái)探究在其產(chǎn)品線中集成Copilot的各種安全風(fēng)險(xiǎn)。
今年早些時(shí)候,黑客大會(huì)DEF CON的AI Village邀請(qǐng)了全球頂級(jí)的黑客和紅隊(duì)成員測(cè)試來(lái)自Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大語(yǔ)言模型,發(fā)現(xiàn)這些模型普遍存在容易被濫用的漏洞(泄漏數(shù)據(jù)、編造和傳播謠言、用于實(shí)施監(jiān)控和間諜活動(dòng)等)。