大模型新漏洞!Anthropic警告:新式“多輪越獄”攻破AI防線,或禍起長文本
撰稿丨諾亞
如何讓一個(gè)AI回答一個(gè)它本不應(yīng)該作答的問題?
有很多這種所謂的“越獄”技術(shù),而Anthropic的研究人員最近發(fā)現(xiàn)了一種新方法:如果首先用幾十個(gè)危害性較小的問題對大型語言模型(LLM)進(jìn)行預(yù)熱,就能誘使其告訴你如何制造炸彈。
他們將這種方法稱為“多輪越獄”,不僅撰寫了相關(guān)論文,還將其告知了人工智能領(lǐng)域的同行們,以便能采取措施來減輕這一風(fēng)險(xiǎn)。
1.長文本越卷越離譜,不料卻成“禍端”
這個(gè)新的漏洞是由于最新一代LLM的“上下文窗口”增大而產(chǎn)生的。上下文窗口是指模型可以暫存的數(shù)據(jù)量,以前只能存儲(chǔ)幾句話,而現(xiàn)在則能容納數(shù)千詞甚至整本書的內(nèi)容。
Anthropic的研究團(tuán)隊(duì)發(fā)現(xiàn),具有較大上下文窗口的模型在提示中包含大量該任務(wù)示例時(shí),它們的表現(xiàn)往往會(huì)更好。
因此,如果在提示中有大量的小知識(shí)問題(或引導(dǎo)文件,如模型上下文中包含的一長串小知識(shí)列表),模型給出的答案實(shí)際上會(huì)隨著時(shí)間的推移而變得更準(zhǔn)確。所以,如果是一個(gè)事實(shí)問題,原本第一個(gè)問題,模型可能會(huì)回答錯(cuò)誤,但如果是第一百個(gè)問題,它可能會(huì)回答正確。
然而,在這種被稱為“上下文學(xué)習(xí)”的意想不到的擴(kuò)展中,這些模型在回答不適當(dāng)?shù)膯栴}方面也變得更“好”。如果你一開始就要求它制造炸彈,它會(huì)拒絕。但如果先讓它回答99個(gè)危害性較小的問題,然后再提出制造炸彈的要求……這時(shí)模型更有可能服從指令。
圖片
2.限制上下文窗口有效果,但效果不大
為什么這種方法奏效呢?
沒有人真正理解在大模型內(nèi)部錯(cuò)綜復(fù)雜的權(quán)重網(wǎng)絡(luò)中發(fā)生了什么,但顯然存在某種機(jī)制,使其能夠準(zhǔn)確把握用戶的需求,這一點(diǎn)從上下文窗口中的內(nèi)容就可以得到證明。
如果用戶想要小知識(shí)信息,那么當(dāng)你提出幾十個(gè)問題時(shí),它似乎會(huì)逐漸激活更多的潛在小知識(shí)的處理能力。出于某種原因,當(dāng)用戶提出幾十個(gè)不適當(dāng)?shù)膯栴}時(shí),同樣的情況也會(huì)發(fā)生。
Anthropic團(tuán)隊(duì)已經(jīng)將這一攻擊方式告知了同行甚至是競爭對手,希望促進(jìn)一種文化氛圍的養(yǎng)成,即在LLM供應(yīng)商和研究人員之間公開共享此類漏洞的習(xí)慣。
為了緩解這一問題,他們發(fā)現(xiàn),盡管限制上下文窗口有助于改善這一狀況,但這同時(shí)也對模型的性能產(chǎn)生負(fù)面影響。這顯然是不可取的,因此他們致力于在將問題輸入模型之前對其進(jìn)行分類和情境化處理。當(dāng)然,這樣一來,可能導(dǎo)致出現(xiàn)需要繞過的新型防御機(jī)制,但在AI安全性持續(xù)發(fā)展的階段,這種動(dòng)態(tài)變化是預(yù)期之內(nèi)的。
3.結(jié)語:盡管不緊迫,但仍要早做準(zhǔn)備
自月之暗面宣布Kimi啟動(dòng)200萬字內(nèi)測的動(dòng)作后,點(diǎn)燃了長文本賽道新一輪“內(nèi)卷”的熱情。去年還在拼參數(shù),今年又拼起了長文本,大模型的競技永遠(yuǎn)焦灼。但在AI發(fā)展勢不可擋的同時(shí),也需要更多人意識(shí)到AI安全研究的重要性。
畢竟大模型是黑盒子,如何訓(xùn)練強(qiáng)大的AI系統(tǒng)以使其穩(wěn)健地具備有用性、誠實(shí)性和無害性,尚且是個(gè)未解之謎。AI的快速進(jìn)步帶來技術(shù)顛覆的同時(shí)也可能導(dǎo)致災(zāi)難性后果,因?yàn)锳I系統(tǒng)可能戰(zhàn)略性地追求危險(xiǎn)的目標(biāo),或者在高風(fēng)險(xiǎn)情境中犯下更多無心之過。
早在去年3月,Anthropic官網(wǎng)就發(fā)布了《AI安全的核心觀點(diǎn)》一文,系統(tǒng)闡述了Anthropic面向未來的AI安全策略。文中審慎地提到:
“我們想明確表示,我們不認(rèn)為當(dāng)今可用的系統(tǒng)會(huì)造成迫在眉睫的問題。然而,如果開發(fā)出更強(qiáng)大的系統(tǒng),現(xiàn)在就做基礎(chǔ)工作以幫助降低高級(jí)AI帶來的風(fēng)險(xiǎn)是明智的。事實(shí)可能證明,創(chuàng)建安全的AI系統(tǒng)很容易,但我們認(rèn)為為不太樂觀的情況做好準(zhǔn)備至關(guān)重要?!?/p>
參考鏈接:
??https://zhuanlan.zhihu.com/p/626097959??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:諾亞
