將越獄問題轉(zhuǎn)換為求解邏輯推理題:「濫用」推理能力讓LLM實(shí)現(xiàn)自我越獄
應(yīng)宗浩,現(xiàn)為北航復(fù)雜關(guān)鍵軟件環(huán)境全國(guó)重點(diǎn)實(shí)驗(yàn)室博士生,由劉艾杉教授、劉祥龍教授與陶大程教授共同指導(dǎo),目前研究興趣為大模型越獄攻防。他所在的智能安全團(tuán)隊(duì)由劉祥龍教授負(fù)責(zé),近期在大模型安全評(píng)測(cè)體系方面進(jìn)行了系列研究工作,包括對(duì)抗攻擊、后門投毒、越獄攻擊、偏見調(diào)控等,發(fā)表 TPAMI、IJCV、ICML 等頂會(huì)頂刊論文 100 余篇。
大語(yǔ)言模型(LLMs)在當(dāng)今的自然語(yǔ)言處理領(lǐng)域扮演著越來(lái)越重要的角色,但其安全性問題也引發(fā)了廣泛關(guān)注。
近期,來(lái)自北京航空航天大學(xué)、360 AI 安全實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架,旨在通過推理增強(qiáng)的對(duì)話方式,突破大語(yǔ)言模型的安全對(duì)齊機(jī)制。這一研究引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
- 論文標(biāo)題:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
- 論文鏈接:https://arxiv.org/pdf/2502.11054
- GitHub 鏈接:https://github.com/NY1024/RACE
RACE 框架的核心思想
推理增強(qiáng)對(duì)話,解鎖大語(yǔ)言模型的「越獄」新路徑
大語(yǔ)言模型(LLMs)在推理和邏輯任務(wù)中表現(xiàn)出色,但這種強(qiáng)大的推理能力卻可能被惡意利用。
RACE 框架的核心思想正是利用這些模型的推理能力,將有害意圖偽裝成看似無(wú)害的復(fù)雜推理任務(wù),從而在不知不覺中引導(dǎo)模型生成有害內(nèi)容,突破其安全對(duì)齊機(jī)制。
為何選擇推理增強(qiáng)攻擊?
大語(yǔ)言模型在邏輯推理、常識(shí)推理和數(shù)學(xué)解題等任務(wù)中表現(xiàn)出色,但這種強(qiáng)大的推理能力卻可能被惡意利用。
傳統(tǒng)的攻擊方法通常直接發(fā)送有害查詢,很容易被模型的安全機(jī)制識(shí)別并拒絕。然而,推理任務(wù)通常被視為「良性」問題,模型會(huì)積極嘗試解答。RACE 框架正是抓住了這一點(diǎn),將有害意圖巧妙地轉(zhuǎn)化為推理任務(wù),讓模型在解答過程中不知不覺地生成有害內(nèi)容。
RACE 的設(shè)計(jì)原則:推理任務(wù)的「雙面性」
RACE 框架的核心設(shè)計(jì)基于推理任務(wù)的「雙面性」:一方面,推理任務(wù)本身是無(wú)害的,模型會(huì)積極嘗試解答;另一方面,這些任務(wù)的設(shè)計(jì)卻暗藏玄機(jī),其解答過程會(huì)逐步引導(dǎo)模型生成有害內(nèi)容。
具體來(lái)說,RACE 框架將攻擊分為兩個(gè)角色:受害者模型和影子模型。
- 受害者模型:專注于解決推理任務(wù),看似在進(jìn)行合法的推理。
- 影子模型:負(fù)責(zé)生成和優(yōu)化查詢,但并不直接識(shí)別背后的有害意圖。
獨(dú)立來(lái)看,每個(gè)角色似乎都在進(jìn)行合法的推理活動(dòng)。然而,當(dāng)兩者結(jié)合時(shí),這種互動(dòng)卻最終導(dǎo)致了攻擊的成功。這種設(shè)計(jì)巧妙地利用了大語(yǔ)言模型的推理能力,使其在不知不覺中「自我越獄」。
如何實(shí)現(xiàn)推理驅(qū)動(dòng)的攻擊?
為了實(shí)現(xiàn)這種推理驅(qū)動(dòng)的攻擊,RACE 框架引入了以下關(guān)鍵機(jī)制:
- 攻擊狀態(tài)機(jī)(ASM)框架:將攻擊過程建模為一系列推理狀態(tài)和狀態(tài)轉(zhuǎn)換,確保每一步都符合邏輯推理的規(guī)則,同時(shí)逐步推進(jìn)攻擊目標(biāo)。這種結(jié)構(gòu)化的攻擊方式不僅提高了攻擊的成功率,還使得攻擊過程更加難以被檢測(cè)。
- 動(dòng)態(tài)優(yōu)化與恢復(fù)機(jī)制:通過增益引導(dǎo)探索(Gain-guided Exploration)、自我博弈(Self-play)和拒絕反饋(Rejection Feedback)三個(gè)模塊,動(dòng)態(tài)優(yōu)化攻擊過程。
三大核心模塊
- 增益引導(dǎo)探索(Gain-guided Exploration):該模塊通過信息增益(Information Gain)來(lái)衡量查詢?cè)诠暨^程中的有效性,選擇與目標(biāo)語(yǔ)義一致且能提取有用信息的查詢,確保攻擊的穩(wěn)步進(jìn)展。
- 自我博弈(Self-play):自我對(duì)抗模塊通過模擬受害者模型的拒絕響應(yīng),提前優(yōu)化查詢結(jié)構(gòu),提高攻擊效率。這一模塊利用影子模型和受害者模型之間的相似性,通過 “自我博弈” 來(lái)優(yōu)化查詢。
- 拒絕反饋(Rejection Feedback):當(dāng)攻擊嘗試失敗時(shí),拒絕反饋模塊會(huì)分析失敗的原因,并將失敗的查詢重構(gòu)為替代的推理任務(wù),從而快速恢復(fù)并維持攻擊的穩(wěn)定性。
實(shí)驗(yàn)結(jié)果
攻擊成功率大幅提升
研究團(tuán)隊(duì)在多種大語(yǔ)言模型上進(jìn)行了廣泛的實(shí)驗(yàn),包括開源模型(如 Gemma、Qwen、GLM)和閉源模型(如 GPT-4、OpenAI o1、DeepSeek R1 等)。
實(shí)驗(yàn)結(jié)果表明,RACE 在復(fù)雜對(duì)話場(chǎng)景中表現(xiàn)出色,攻擊成功率(ASR)最高可達(dá) 96%。尤其是在針對(duì)領(lǐng)先的商業(yè)推理模型 OpenAI o1 和 DeepSeek R1 時(shí),RACE 的攻擊成功率分別達(dá)到了 82% 和 92%,這一結(jié)果凸顯了推理驅(qū)動(dòng)攻擊的潛在威脅。
防御機(jī)制
盡管 RACE 在攻擊效率上表現(xiàn)出色,但研究團(tuán)隊(duì)也對(duì)其防御機(jī)制進(jìn)行了評(píng)估。結(jié)果顯示,現(xiàn)有的防御方法(如 SmoothLLM、Self Reminder、ICD 和 JailGuard)對(duì) RACE 的緩解效果非常有限,攻擊成功率僅降低了 1% 到 17.6%。這表明,推理驅(qū)動(dòng)的攻擊方法對(duì)現(xiàn)有防御機(jī)制具有很強(qiáng)的魯棒性。
研究意義與展望
RACE 框架的提出不僅揭示了大語(yǔ)言模型在推理能力上可能存在的安全漏洞,也為開發(fā)更強(qiáng)大的安全機(jī)制提供了新的思路。研究團(tuán)隊(duì)強(qiáng)調(diào),他們的目標(biāo)是通過系統(tǒng)性地評(píng)估大語(yǔ)言模型的安全性,推動(dòng)更安全的對(duì)齊技術(shù)的發(fā)展,而不是鼓勵(lì)惡意使用這些研究成果。
隨著大語(yǔ)言模型在各個(gè)領(lǐng)域的廣泛應(yīng)用,其安全性問題將成為研究和開發(fā)的重點(diǎn)。RACE 框架的提出,無(wú)疑為理解和防范大語(yǔ)言模型的安全威脅提供了重要的參考。未來(lái),如何開發(fā)出能夠有效抵御推理驅(qū)動(dòng)攻擊的安全機(jī)制,將是學(xué)術(shù)界和工業(yè)界需要共同面對(duì)的挑戰(zhàn)。