多忽悠幾次AI全招了!Anthropic警告:長(zhǎng)上下文成越獄突破口,GPT羊駝Claude無一幸免
大模型廠商在上下文長(zhǎng)度上卷的不可開交之際,一項(xiàng)最新研究潑來了一盆冷水——
Claude背后廠商Anthropic發(fā)現(xiàn),隨著窗口長(zhǎng)度的不斷增加,大模型的“越獄”現(xiàn)象開始死灰復(fù)燃。
無論是閉源的GPT-4和Claude 2,還是開源的Llama2和Mistral,都未能幸免。
圖片
研究人員設(shè)計(jì)了一種名為多次樣本越獄(Many-shot Jailbreaking,MSJ)的攻擊方法,通過向大模型灌輸大量包含不良行為的文本樣本實(shí)現(xiàn)。
通過這種方法,他們測(cè)試了包括Claude 2.0、GPT-4等在內(nèi)的多個(gè)知名大模型。
結(jié)果,只要忽悠的次數(shù)足夠多,這種方法就能在各種類型的不良信息上成功攻破大模型的防線。
目前,針對(duì)這一漏洞,尚未發(fā)現(xiàn)完美的解決方案,Anthropic表示,發(fā)布這一信息正是為了問題能盡快得到解決,并已提前向其他廠商和學(xué)術(shù)界通報(bào)了這一情況。
圖片
那么,這項(xiàng)研究具體都有哪些發(fā)現(xiàn)呢?
知名模型無一幸免
首先,研究人員用去除了安全措施的模型生成了大量的有害字符串。
這些內(nèi)容涵蓋濫用或欺詐內(nèi)容(Abusive or fraudulent)、虛假或誤導(dǎo)性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威脅內(nèi)容四個(gè)方面,每個(gè)方面各生成了2500條樣本,研究人員從每種類型中各挑選了200個(gè)用于測(cè)試。
然后,研究人員把這些內(nèi)容打亂順序,并改編成用戶與模型的“聊天記錄”,并將目標(biāo)問題一起輸入被測(cè)模型。
圖片
然后,研究人員用一個(gè)拒絕分類器(refusal classifier)來對(duì)攻擊效果進(jìn)行了評(píng)估,這個(gè)分類器會(huì)根據(jù)模型的響應(yīng)來判斷其是否“拒絕”了不適當(dāng)?shù)恼?qǐng)求。
結(jié)果發(fā)現(xiàn),閉源模型中最強(qiáng)的GPT-4和Claude,以及開源模型中最知名的Llama和Mistral,在面對(duì)不同類型的攻擊信息時(shí),無一例外全部淪陷。
而且隨著樣本數(shù)量的不斷增多,這種攻擊方法在四種類型的有害內(nèi)容上的攻擊成功率都呈現(xiàn)出了大幅上升,最多的已經(jīng)超過了70%。
而且成功的概率與樣本數(shù)量之間呈現(xiàn)出了指數(shù)分布,樣本數(shù)量在8時(shí)以下幾乎無法成功,而到了2^5(32)的位置出現(xiàn)了明顯拐點(diǎn),再到2^8(256)時(shí)已經(jīng)擁有極高的成功率。
而從模型的維度看,除了Llama2-70B由于窗口長(zhǎng)度限制沒有樣本較多時(shí)的數(shù)據(jù)之外,GPT、Claude等模型的負(fù)對(duì)數(shù)似然(NLL,越低代表攻擊越成功)值也呈現(xiàn)出了這樣的分布規(guī)律。
圖片
同時(shí)研究人員還發(fā)現(xiàn),目標(biāo)問題與給出信息的匹配程度、模型大小和信息的格式,也都會(huì)影響攻擊的成功率。
當(dāng)目標(biāo)問題與攻擊信息不匹配時(shí),如果攻擊信息涵蓋的類型足夠多樣化,攻擊成功率幾乎沒有受到任何影響,但當(dāng)其涉及范圍較窄時(shí),攻擊則幾乎失效。
規(guī)模方面,越大的模型,被攻擊的概率也越大;而通過交換身份、翻譯等方式修改攻擊內(nèi)容的格式,也會(huì)提高成功概率。
圖片
此外,這種攻擊方式還可以與其他越獄技術(shù)結(jié)合,例如與黑盒攻擊一同使用時(shí),成功率最多可以提高將近20個(gè)百分點(diǎn)。
圖片
總的來說,這樣的攻擊方式,從原理上看似乎很簡(jiǎn)單,但為什么窗口長(zhǎng)度變長(zhǎng)之后,成功率就增加了呢?
或許你已經(jīng)注意到,研究人員發(fā)現(xiàn)“越獄”的成功率和樣本數(shù)量遵循冪律分布,也就是隨著樣本越來越多,成功率不僅更高,增長(zhǎng)得也更快。
而且研究發(fā)現(xiàn),較大的模型在長(zhǎng)上下文中學(xué)習(xí)的速度也更快,更容易受到上下文內(nèi)容的影響。
而窗口長(zhǎng)度的增加,也就意味著為有害信息提供了更多的土壤,可以加入的樣本數(shù)量變多了,模型能看到學(xué)到的也就更多了,“越獄”概率自然隨之大幅上升。
此外還有模型的長(zhǎng)期依賴性的影響——較長(zhǎng)的上下文允許模型學(xué)習(xí)并模仿更長(zhǎng)序列的行為模式,這也可能導(dǎo)致模型在面對(duì)攻擊時(shí)表現(xiàn)出不期望的行為。
那么,有沒有什么辦法能解決這個(gè)問題呢?有,但都還不完善。
解決方案仍待探索
針對(duì)這一問題,研究人員也提出了一些可能的解決方案,不過都還存在瑕疵。
最簡(jiǎn)單粗暴的,就是限制窗口長(zhǎng)度,這種方法直接“釜底抽薪”,理論上是有效的,但難免有些因噎廢食。
第二個(gè)思路,則是通過監(jiān)督學(xué)習(xí)(SL)和強(qiáng)化學(xué)習(xí)(RL)來進(jìn)行對(duì)齊微調(diào),從而減少有害內(nèi)容的生成。
可以看出,隨著對(duì)齊強(qiáng)度的增大,成功攻擊所需的樣本數(shù)量確實(shí)有所增大,但并未改變指數(shù)型的增長(zhǎng)趨勢(shì)。
圖片
于是研究人員又改用具有針對(duì)性的SL和RL,結(jié)果是外甥打燈籠——照舊(舅)。
隨著RL步數(shù)的增加,攻擊難度同樣是越來越大,但是整體趨勢(shì)依舊無法扭轉(zhuǎn)。
圖片
另外一種方式就是從提示詞下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——
ICD在提示前添加拒絕有害問題的示例,而CWD則在提示前后添加警告文本,意圖預(yù)防或減輕這種攻擊帶來的影響。
結(jié)果發(fā)現(xiàn),作者提出的CWD方法效果出奇的好,在樣本數(shù)不超過128時(shí),攻擊幾乎無法取得成功,繼續(xù)增加樣本量時(shí),61%的成功率也降到了2%。
圖片
但這種方法同樣存在局限性,一是攻擊策略在不斷變化、新的有害內(nèi)容類型也隨時(shí)可能出現(xiàn),CWD可能需要頻繁更新和維護(hù)才能保持有效,無疑會(huì)增加運(yùn)營(yíng)成本。
另外,過多的警告性文本可能會(huì)干擾模型的正常運(yùn)作,例如減慢響應(yīng)時(shí)間或影響生成內(nèi)容的自然流暢性,導(dǎo)致用戶體驗(yàn)下降。
總之,目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發(fā)布通告將這項(xiàng)研究公之于眾,也是為了讓整個(gè)業(yè)界都能關(guān)注這個(gè)問題,從而更快找到解決方案。
而這背后也體現(xiàn)出了人們對(duì)大模型認(rèn)識(shí)的不足,就像這位Anthropic員工所說,人們?cè)谡J(rèn)識(shí)上下文窗口這件事情上,還有很長(zhǎng)的路要走……
圖片
參考鏈接(含論文):https://www.anthropic.com/research/many-shot-jailbreaking