NTU華科等最新研究:全自動(dòng)化「提示越獄」,能打敗大模型的只有大模型!登安全頂會(huì)NDSS
今年,被網(wǎng)友戲稱為「奶奶漏洞」的大語言模型「越獄」方法,可以說是火了火。
簡單來說,對(duì)于那些會(huì)被義正言辭拒絕的需求,包裝一下話術(shù),比如讓ChatGPT「扮演已經(jīng)過世的祖母」,它大概率就會(huì)滿足你了。
不過,隨著服務(wù)提供商不斷地更新和強(qiáng)化安全措施,越獄攻擊的難度也不斷提高。
與此同時(shí),由于這些聊天機(jī)器人多作為一個(gè)「黑箱」存在,使得外部安全分析人員在評(píng)估和理解這些模型的決策過程以及潛在的安全隱患方面面臨巨大困難。
針對(duì)這一問題,南洋理工大學(xué)、華中科技大學(xué)、新南威爾士大學(xué)等聯(lián)合組成的研究團(tuán)隊(duì),首次使用自動(dòng)生成的提示詞成功「破解」了多家大廠的LLM,目的是揭示模型在運(yùn)行時(shí)可能的安全缺陷,以便采取更精確和高效的安全措施。
目前,該研究已被全球四大安全頂級(jí)會(huì)議之一的網(wǎng)絡(luò)與分布式系統(tǒng)安全研討會(huì)(NDSS)接收。
論文鏈接:https://arxiv.org/abs/2307.08715
項(xiàng)目鏈接:https://sites.google.com/view/ndss-masterkey
用魔法打敗魔法:全自動(dòng)「越獄」聊天機(jī)器人
首先,作者通過一項(xiàng)實(shí)證研究,深入探討了越獄攻擊可能帶來的隱患以及現(xiàn)行的防御手段。比如,LLM聊天機(jī)器人的服務(wù)商所制定的使用規(guī)范。
經(jīng)過調(diào)查,作者發(fā)現(xiàn),包括OpenAI、Google Bard、Bing Chat和Ernie在內(nèi)的4家主要的LLM聊天機(jī)器人提供商都設(shè)有限制,禁止輸出以下4種信息:違法信息、有害內(nèi)容、侵犯權(quán)利的內(nèi)容以及成人內(nèi)容。
第二個(gè)實(shí)證研究問題關(guān)注的是商業(yè)LLM聊天機(jī)器人所使用的現(xiàn)有越獄提示詞的實(shí)用性。
作者選取了4個(gè)著名的聊天機(jī)器人,并對(duì)它們用85個(gè)來自不同渠道的有效越獄提示詞進(jìn)行了測試。
為了最大限度減少隨機(jī)性并確保全面的評(píng)估,作者對(duì)每個(gè)問題進(jìn)行了10輪測試,總共累計(jì)進(jìn)行了68,000次測試,并進(jìn)行了人工校驗(yàn)。
具體來說,測試內(nèi)容包括5個(gè)問題、4個(gè)禁止的場景、85個(gè)越獄提示詞,分別在4個(gè)模型上進(jìn)行了10輪測試。
測試結(jié)果(見Table II)表明,大多數(shù)現(xiàn)有的越獄提示詞主要對(duì)ChatGPT有效。
從實(shí)證研究中,作者發(fā)現(xiàn)部分越獄攻擊之所以未能成功,是因?yàn)榱奶鞕C(jī)器人的服務(wù)提供商采納了相應(yīng)的防御策略。
這一發(fā)現(xiàn)促使作者提出了一個(gè)名為「MasterKey」的反向工程框架,以便猜測服務(wù)商采用的具體防御方法,并據(jù)此設(shè)計(jì)有針對(duì)性的攻擊策略。
作者通過分析不同攻擊失敗案例的響應(yīng)時(shí)間,并借鑒網(wǎng)絡(luò)服務(wù)中的SQL攻擊經(jīng)驗(yàn),成功推測了聊天機(jī)器人服務(wù)提供商的內(nèi)部結(jié)構(gòu)和工作機(jī)制。
如上圖所示,他認(rèn)為服務(wù)提供商的內(nèi)部存在一種基于文本語義或關(guān)鍵詞匹配的生成內(nèi)容檢測機(jī)制。
具體來講,作者主要關(guān)注了三個(gè)方面的信息:
首先,探討了防御機(jī)制是在輸入、輸出階段還是兩者都有進(jìn)行的(見下圖b);
其次,分析了防御機(jī)制是在生成過程中動(dòng)態(tài)進(jìn)行監(jiān)測,還是在生成結(jié)束后進(jìn)行的(見下圖c);
最后,探究了防御機(jī)制是基于關(guān)鍵詞檢測還是基于語義分析的(見下圖d)。
經(jīng)過一系列系統(tǒng)性的實(shí)驗(yàn),作者進(jìn)一步發(fā)現(xiàn)Bing Chat和Bard主要是在模型生成結(jié)果的階段進(jìn)行越獄預(yù)防檢查,而不是在輸入提示的階段;同時(shí),它們能夠動(dòng)態(tài)監(jiān)測整個(gè)生成過程,并具備關(guān)鍵詞匹配和語義分析的功能。
在深入分析了聊天機(jī)器人提供商的防御策略后,作者緊接著提出了一種創(chuàng)新的基于大型模型的越獄提示詞生成策略,這可謂是用「魔法」對(duì)抗「魔法」的關(guān)鍵步驟!
如下圖展示,具體流程為:
首先,挑選出一組能夠成功繞過ChatGPT防御的提示詞;
接著,通過持續(xù)的訓(xùn)練和任務(wù)導(dǎo)向的微調(diào)來創(chuàng)建一個(gè)大型模型,該模型能夠重新編寫之前找到的越獄提示詞;
最后,進(jìn)一步優(yōu)化這個(gè)模型,使其能夠生成高質(zhì)量、能夠規(guī)遍服務(wù)商防御機(jī)制的越獄提示詞。
最后,作者通過一系列系統(tǒng)性的實(shí)驗(yàn)表明,所提出的方法能顯著提升越獄攻擊的成功率。
值得特別指出的是,這是首個(gè)系統(tǒng)性地成功對(duì)Bard和Bing Chat進(jìn)行攻擊的研究。
除此之外,作者還針對(duì)聊天機(jī)器人的行為合規(guī)性提出了一些建議,比如建議在用戶輸入階段進(jìn)行分析和過濾。
未來的工作
在本研究中,作者們探索了如何「越獄」聊天機(jī)器人!
當(dāng)然,最終愿景是打造一個(gè)既誠實(shí)又友好的機(jī)器人。
這是一個(gè)頗具挑戰(zhàn)的任務(wù),作者們誠邀你拿起工具,共同努力,一起深挖研究之路!
作者簡介
鄧格雷,南洋理工大學(xué)博士四年級(jí)學(xué)生,本文共同第一作者,專注于系統(tǒng)安全的研究。
劉藝,同為南洋理工大學(xué)博士四年級(jí)學(xué)生及本文共同第一作者,研究重點(diǎn)包括大型模型的安全和軟件測試等。
李悅康,任職于新南威爾士大學(xué)的講師(助理教授),本文的通訊作者,擅長軟件測試和相關(guān)分析技術(shù)的研究。
王凱龍,華中科技大學(xué)副教授,研究方向聚焦于大模型安全、移動(dòng)應(yīng)用的安全與隱私保護(hù)。
張贏,現(xiàn)任領(lǐng)英安全工程師,曾在弗吉尼亞理工攻讀博士學(xué)位,專業(yè)領(lǐng)域包括軟件工程、靜態(tài)語言分析和軟件供應(yīng)鏈安全。
李澤豐,南洋理工大學(xué)研究生一年級(jí)學(xué)生,主攻大模型安全領(lǐng)域的研究。
王浩宇,華中科技大學(xué)教授,研究涵蓋程序分析、移動(dòng)安全、區(qū)塊鏈及Web3安全等。
張?zhí)焱?,南洋理工大學(xué)計(jì)算機(jī)學(xué)院助理教授,主要從事人工智能安全和系統(tǒng)安全的研究。
劉楊,南洋理工大學(xué)計(jì)算機(jī)學(xué)院教授、網(wǎng)絡(luò)安全實(shí)驗(yàn)室主任以及新加坡網(wǎng)絡(luò)安全研究辦公室主任,研究領(lǐng)域包括軟件工程、網(wǎng)絡(luò)安全和人工智能。