攻破AI最強守衛(wèi),賞金2萬刀!Anthropic新方法可阻止95% Claude「越獄」行為
最近,Anthropic安全研究團隊「有點忙」。
本月4日,Anthropic在X上,邀請網友挑戰(zhàn)新的AI防護系統(tǒng)。兩天后,Anthropic稱:
目前,沒有人完全越獄新系統(tǒng),因此提高了賭注。
現在通過全部8關的第一名,我們獎勵1萬美元;而通過全部8關并具有通用越獄能力的第一名,我們獎勵2萬美元。
大語言模型(LLM)很容易受到通用越獄提示策略的影響,這種策略會系統(tǒng)地繞過模型保護措施,讓用戶能夠執(zhí)行有害過程,比如大規(guī)模制造非法物質。
為了抵御這些攻擊, Anthropic安全研究團隊引入了「憲法分類器」:在合成數據上訓練的保障措施,通過提示LLM自然語言規(guī)則,規(guī)定了允許和限制的內容。
這里的「憲法」是指自然語言規(guī)則,強調這些規(guī)則不可違背。
「天下沒有免費的午餐」,這自然會增加LLM的推理成本。
但Anthropic稱新方法可以可以阻止95%+的越獄,而代價也有限:
- 在為期2個月的實驗期間,共有183名活躍參與者投入了超過3000小時的測試時間。盡管如此,沒有發(fā)現通用越獄攻擊。
- 自動化評估中有10,000個越獄提示,許多當前大語言模型被「攻破」。在基準條件下,沒有防御性分類器時,Claude只成功阻止了14%的高級越獄嘗試;Claude用新方法防護后,阻止了超過95%的越獄嘗試。
- 效果很明顯,而且代價也不大:生產環(huán)境中的Claude.ai流量拒絕率增加了0.38%,推理開銷增加了23.7%。
先解釋一下,為什么說新方法「見效快」:
1 沒有完美的「防護系統(tǒng)」,矛盾之爭會不斷升級:新方法只有5%的「漏網之魚」。
2 雖然沒有新方法防護,Claude也能阻止14%的越獄嘗試,但新方法將安全性提高了80%+,推理開銷增加只23.7%,性價比高!
3 幾乎不會影響正常使用:生產環(huán)境中的Claude.ai流量拒絕率增加了0.38%。
論文鏈接:https://arxiv.org/abs/2501.18837
博客鏈接:https://www.anthropic.com/research/constitutional-classifiers
為什么研究「模型越獄」?
為了評估新方法的穩(wěn)健性,對基于Claude 3.5 Sonnet微調的原型分類器,進行了廣泛的人類紅隊測試。
在HackerOne邀請了405名參與者,其中包括經驗豐富的紅隊成員,參加了漏洞獎勵計劃,并為發(fā)現通用性破解方法提供了獎金。
比賽鏈接:https://hackerone.com/constitutional-classifiers?type=team
要求紅隊員回答十個有害的CBRN(化學、生物、放射性、核)查詢,而報酬與他們的成功率掛鉤。
Jan Leike, Anthropic的Alignment Science團隊聯合負責人,在研究公布之后,詳細解釋了為什么要研究「模型越獄」的穩(wěn)健性。
更強大的大語言模型(LLMs)可能被濫用,帶來更大的危害。
例如,假設恐怖分子借助大語言模型的逐步指導,制造大規(guī)模殺傷性武器,那該怎么辦?
明確一點:目前的大語言模型并不擅長這一點。但一旦它們具備了這樣的能力,我們希望能夠防止它們被如此惡意濫用。
構建有效的安全防護措施需要時間,并且有時需要解決一些開放的研究問題。
我們的團隊集中精力,花費了一年才構建了最新系統(tǒng)。
我一次又一次地親眼目睹:一旦新模型訓練完成,通常沒有足夠的時間來構建強有力的安全防護。
如果不想因為安全防護而阻止未來模型的部署(或者接受其帶來的風險),我們就需要提前解決這些安全問題!
這正是我們在這里努力做的:我們正在構建一個比當前模型所需的防護更為強大的系統(tǒng)。
AI行業(yè)發(fā)展迅速,我預計它將繼續(xù)加速。
我們希望盡可能做好準備,以便在需要時能夠應對。
在加入Anthropic之前,他共同領導了OpenAI的Superalignment團隊,參與了InstructGPT、ChatGPT的開發(fā),以及GPT-4的對齊工作;制定了OpenAI的對齊研究方法,并共同編寫了研究路線圖。
新系統(tǒng)發(fā)布后,約48小時之內,他及時公布了結果:沒有人能通過第4關,但更多的人通過了第3關。同日隨后不久,Anthropic在X上宣布了提高「賞金」。到本月8號,他公布了「戰(zhàn)況」:只有一個人通過第5級防護。
在9日,終于有人拿走了首次「通關」的1萬美元獎金。
在~300,000條消息和估計大約3,700個總工時之后,有人突破了全部8關。
然而,尚未找到通用的越獄方法......
算法原理
新系統(tǒng)引入了「憲法分類器」,利用明確的「憲法規(guī)則」來訓練分類器的「保鏢」—— 防護系統(tǒng)(見下圖1a)。
新方法以「憲法」為核心,劃定了可允許和受限內容的類別(見下圖1b),并指導合成訓練樣本的生成(見下圖1c)。
通過更新憲法,可以快速適應新的威脅模型,包括與模型不對齊相關的威脅。
為了提升性能,還廣泛采用了數據增強,并利用了無害數據池。
至關重要的是,新的輸出分類器支持流式預測:評估完整模型輸出的潛在有害性,每個token生成時都不需要等待完整的輸出??梢詫崟r干預模型——如果在任何階段檢測到有害內容,可以立即停止生成內容,從而同時保證安全性和用戶體驗。
圖1:憲法分類器
(a) 為了防御大語言模型(LLM)免受通用越獄攻擊,使用分類器保護機制來監(jiān)控輸入和輸出。
(b) 為了訓練這些保護機制,使用一組自然語言規(guī)則(文中叫做一部憲法),定義有害和無害內容的類別,從而能夠快速適應新的威脅模型。
(c) 這部憲法被用于生成合成數據,再將這些數據用于訓練。還使用無害輸入和輸出池,并結合數據增強技術,以提高性能。
圖1a中的分類器是經過微調的大型語言模型(LLMs),與提示式分類器相比,具有幾個優(yōu)勢:微調不僅可以系統(tǒng)地解決漏洞,而且將大型語言模型專門化為分類任務,還可以顯著減少計算開銷。
分類器訓練數據
數據合成
階段 I:基于規(guī)則的合成數據生成
在給定規(guī)則的情況下,使用僅幫助模型(helpful-only model)生成涵蓋「憲法類別」的查詢。
接著,使用該模型為每個合成生成的輸入,生成有害和無害的輸出。
最后,使用提示式語言模型(prompted language model)過濾掉任何無意的拒絕,確保生成的輸入和輸出都符合要求。
階段 II:數據增強
為了提高合成數據的多樣性和覆蓋范圍,應用了廣泛的數據增強技術。
這些「變換」在保持語義內容的同時,擴展了輸入和輸出的多樣性,涵蓋了多個語言學維度,包含了如語言間翻譯、大型語言模型(LLM)基礎的改寫、系統(tǒng)提示變化、不同的越獄技術,以及這些技術的組合等方法。
自動化紅隊測試(ART)
為了生成額外的訓練數據,作者采用了下列論文中的自動化紅隊測試(ART)。
論文鏈接:https://arxiv.org/pdf/2202.03286
通過描述已知的越獄技術,來提示一個僅限于有益的語言模型,并要求該模型生成新的攻擊方法。并將上文提到的合成數據作為模型,用于紅隊測試的禁用查詢來源。
此外,允許ART方法生成長上下文和多輪攻擊,通過提示模型生成攻擊模板,并通過額外的語言模型調用來填充該模板
訓練方法
輸入分類器
作者將輸入分類任務框架化為一個下一個token預測問題,并微調語言模型以執(zhí)行此任務。
具體來說,使用模板將整個輸入進行包裝,該模板描述了任務。
兩個分類器使用的完整提示模板,參見下圖。
訓練分類器以阻止那些試圖建立編碼通信或以其他方式模糊輸出的輸入,這樣輸出就無法在沒有輸入的情況下理解。
此外訓練還包括了無害查詢的池集,以幫助最小化對合法輸入的誤報率。
輸出分類器
為了保持輸出流的能力,輸出分類器的一個關鍵要求是連續(xù)的token流(見圖 2)。
這對于延遲敏感型應用(例如聊天或編程助手)尤為重要。
為此,微調一個語言模型,并添加一個線性值頭,該頭根據前綴token序列預測完整序列的有害性(見圖 2)。
如果分類器對給定 token 的預測得分超過設定的閾值,將阻止輸出并停止流式輸出。
這種方法能夠在采樣和token級預測過程中緩存中間激活,因此它是流式分類的特別高效方法。
圖 2:輸出分類器預測示例
與輸入分類器不同,在每個token位置,輸出分類器會對整個輸出序列的有害性做出預測。
這個預測用于評估是否應在給定的token位置停止輸出流。在圖2中,數字表示的是基于單詞級別的預測,而非基于token級別的預測。
損失函數
假設token序列為t_{1:T},以及一個標簽y,表示該完整序列是否有害。
我們的目標是訓練一個概率模型p(y=1|t_{1:T}),通過序列前綴序列來預測完整序列的標簽y。
為此,需要最小化以下損失函數:
其中,右式第一個函數是標準的下一個token預測損失,λ是正則化超參數;右式第二個函數是二元交叉熵損失。
從直觀上看,上述損失函數鼓勵token級預測與完整序列標簽y匹配,并使用序列t_{1:T}上的下一個token預測損失進行正則化。
具體結果
紅隊成員采用了多樣的攻擊策略,但沒有紅隊報告取得全面成功。
在提交的113份越獄報告中,沒有任何一份成功回答了所有十個問題,并且其模型輸出所提供的細節(jié)至少與「僅幫助型」模型的輸出詳細度相當。
雖然有九份報告在50%的細節(jié)閾值下為超過六個問題提供了實質性的回答,但當采用更嚴格的標準,即要求回答提供與「僅幫助型」模型相匹配的詳細信息時,沒有任何報告成功回答超過五個問題。
盡管參與者在根據評分標準反饋后有一次重新提交的機會,以改善他們的越獄策略,但最終沒有出現一個能夠持續(xù)提取出與「僅幫助型」模型相當詳細信息的通用越獄。
匯總報告顯示,最成功的紅隊員也只取得了有限的成果。
具體統(tǒng)計結果如下圖所示:
圖 4:憲法分類器在 3,000 小時人類紅隊測試中抵御通用型越獄攻擊
- (A) 越獄報告成功率的分布,通過評估每份報告成功回答的目標問題數量(共10個問題)。成功的評估有兩個標準:一是回答內容達到「幫助型模型輸出」的一半細節(jié)(橙色);二是與幫助型模型輸出的細節(jié)相似(紅色)。在任何報告中,沒有一份成功回答所有問題,且未達到兩個標準中的任何一個。
- (B) 紅隊員成功率的分布,統(tǒng)計每個參與者在所有提交報告中的最佳表現。即便結合了多個嘗試的結果,也沒有紅隊員能夠在較為嚴格的標準下成功回答超過6個問題。
- (C) 每個問題的漏洞分析??梢钥吹?,在10個目標問題中,越獄成功率有顯著的差異。對于最難攻破的問題,成功報告僅有4份,而最容易攻破的問題在半細節(jié)標準下成功報告超過30份。排除了28份不適用的報告。
這展示了憲法分類器系統(tǒng)在應對通用型越獄攻擊時的表現,表明盡管越獄攻擊仍然存在,但系統(tǒng)在多次紅隊測試中保持了高度的抗攻擊能力。
文中也討論了新方法的局限等內容。
AI模型真的安全嗎?
Anthropic新方法的相關推文,至少引來了100萬的瀏覽。
難道Anthropic真的「天下無敵」了嗎?
有網友表示,并非新方法太好,而是Anthropic落后于時代。
此外,俗話說:「重賞之下,必有勇夫」。
但網友表示1萬美元還是太少了,另一家AI公司的「賞金」可是100萬美元!
作者介紹
共同一作Jesse Mu是Anthropic的技術人員。他于2023年在斯坦福大學獲得計算機科學博士學位。博士期間,曾在MIT LINGO實驗室、FAIR 和 DeepMind 工作過。此前,在劍橋大學獲得高級計算機科學碩士學位,并獲得波士頓學院學士學位。
共同一作Jerry Wei是Anthropic的人工智能研究員。他曾是谷歌DeepMind的研究工程師和谷歌大腦的學生研究員。