自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

20步內(nèi)越獄任意大模型！更多“奶奶漏洞”全自動(dòng)發(fā)現(xiàn)

作者：西風(fēng) 2023-11-05 15:25:56

人工智能新聞

一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統(tǒng)投毒只要……這樣那樣。關(guān)鍵這只是賓夕法尼亞大學(xué)研究團(tuán)隊(duì)曬出的一小波漏洞，而用上他們最新開發(fā)的算法，AI可以自動(dòng)生成各種攻擊提示。

1分鐘不到、20步以內(nèi)“越獄”任意大模型，繞過安全限制！

而且不必知道模型內(nèi)部細(xì)節(jié)——

只需要兩個(gè)黑盒模型互動(dòng)，就能讓AI全自動(dòng)攻陷AI，說出危險(xiǎn)內(nèi)容。

聽說曾經(jīng)紅極一時(shí)的“奶奶漏洞”已經(jīng)被修復(fù)了:

那么現(xiàn)在搬出“偵探漏洞”、“冒險(xiǎn)家漏洞”、“作家漏洞”，AI又該如何應(yīng)對(duì)？

一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統(tǒng)投毒只要……這樣那樣。

關(guān)鍵這只是賓夕法尼亞大學(xué)研究團(tuán)隊(duì)曬出的一小波漏洞，而用上他們最新開發(fā)的算法，AI可以自動(dòng)生成各種攻擊提示。

研究人員表示，這種方法相比于現(xiàn)有的GCG等基于token的攻擊方法，效率提高了5個(gè)量級(jí)。而且生成的攻擊可解釋性強(qiáng)，誰(shuí)都能看懂，還能遷移到其它模型。

無論是開源模型還是閉源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2變種）、PaLM-2等，一個(gè)都跑不掉。

成功率可達(dá)60-100%，拿下新SOTA。

話說，這種對(duì)話模式好像有些似曾相識(shí)。多年前的初代AI，20個(gè)問題之內(nèi)就能破解人類腦中想的是什么對(duì)象。

如今輪到AI來破解AI了。

讓大模型集體越獄

目前主流越獄攻擊方法有兩類，一種是提示級(jí)攻擊，一般需要人工策劃，而且不可擴(kuò)展；

另一種是基于token的攻擊，有的需要超十萬次對(duì)話，且需要訪問模型內(nèi)部，還包含“亂碼”不可解釋。

△左提示攻擊，右token攻擊

賓夕法尼亞大學(xué)研究團(tuán)隊(duì)提出了一種叫PAIR（Prompt Automatic Iterative Refinement）的算法，不需要任何人工參與，是一種全自動(dòng)提示攻擊方法。

PAIR涉及四個(gè)主要步驟：攻擊生成、目標(biāo)響應(yīng)、越獄評(píng)分和迭代細(xì)化；主要用到兩個(gè)黑盒模型：攻擊模型、目標(biāo)模型。

具體來說，攻擊模型需要自動(dòng)生成語(yǔ)義級(jí)別的提示，來攻破目標(biāo)模型的安全防線，迫使其生成有害內(nèi)容。

核心思路是讓兩個(gè)模型相互對(duì)抗、你來我往地交流。

攻擊模型會(huì)自動(dòng)生成一個(gè)候選提示，然后輸入到目標(biāo)模型中，得到目標(biāo)模型的回復(fù)。

如果這次回復(fù)沒有成功攻破目標(biāo)模型，那么攻擊模型會(huì)分析這次失敗的原因，改進(jìn)并生成一個(gè)新的提示，再輸入到目標(biāo)模型中。

這樣持續(xù)交流多輪，攻擊模型每次根據(jù)上一次的結(jié)果來迭代優(yōu)化提示，直到生成一個(gè)成功的提示將目標(biāo)模型攻破。

此外，迭代過程還可以并行，也就是可以同時(shí)運(yùn)行多個(gè)對(duì)話，從而產(chǎn)生多個(gè)候選越獄提示，進(jìn)一步提高了效率。

研究人員表示，由于兩個(gè)模型都是黑盒模型，所以攻擊者和目標(biāo)對(duì)象可以用各種語(yǔ)言模型自由組合。

PAIR不需要知道它們內(nèi)部的具體結(jié)構(gòu)和參數(shù)，只需要API即可，因此適用范圍非常廣。

GPT-4也沒能逃過

實(shí)驗(yàn)階段，研究人員在有害行為數(shù)據(jù)集AdvBench中選出了一個(gè)具有代表性的、包含50個(gè)不同類型任務(wù)的測(cè)試集，在多種開源和閉源大語(yǔ)言模型上測(cè)試了PAIR算法。

結(jié)果PAIR算法讓Vicuna越獄成功率達(dá)到了100%，平均不到12步就能攻破。

閉源模型中，GPT-3.5和GPT-4越獄成功率在60%左右，平均用了不到20步。在PaLM-2上成功率達(dá)到72%，步數(shù)約為15步。

但是PAIR在Llama-2和Claude上的效果較差，研究人員認(rèn)為這可能是因?yàn)檫@些模型在安全防御上做了更為嚴(yán)格的微調(diào)。

他們還比較了不同目標(biāo)模型的可轉(zhuǎn)移性。結(jié)果顯示，PAIR的GPT-4提示在Vicuna和PaLM-2上轉(zhuǎn)移效果較好。

研究人員認(rèn)為，PAIR生成的語(yǔ)義攻擊更能暴露語(yǔ)言模型固有的安全缺陷，而現(xiàn)有的安全措施更側(cè)重防御基于token的攻擊。

就比如開發(fā)出GCG算法的團(tuán)隊(duì)，將研究結(jié)果分享給OpenAI、Anthropic和Google等大模型廠商后，相關(guān)模型修復(fù)了token級(jí)攻擊漏洞。

大模型針對(duì)語(yǔ)義攻擊的安全防御機(jī)制還有待完善。

論文鏈接：https://arxiv.org/abs/2310.08419

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="iveax"></cite>