自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

將越獄問題轉(zhuǎn)換為求解邏輯推理題:「濫用」推理能力讓LLM實(shí)現(xiàn)自我越獄

人工智能 新聞
近期,來(lái)自北京航空航天大學(xué)、360 AI 安全實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架。

應(yīng)宗浩,現(xiàn)為北航復(fù)雜關(guān)鍵軟件環(huán)境全國(guó)重點(diǎn)實(shí)驗(yàn)室博士生,由劉艾杉教授、劉祥龍教授與陶大程教授共同指導(dǎo),目前研究興趣為大模型越獄攻防。他所在的智能安全團(tuán)隊(duì)由劉祥龍教授負(fù)責(zé),近期在大模型安全評(píng)測(cè)體系方面進(jìn)行了系列研究工作,包括對(duì)抗攻擊、后門投毒、越獄攻擊、偏見調(diào)控等,發(fā)表 TPAMI、IJCV、ICML 等頂會(huì)頂刊論文 100 余篇。

大語(yǔ)言模型(LLMs)在當(dāng)今的自然語(yǔ)言處理領(lǐng)域扮演著越來(lái)越重要的角色,但其安全性問題也引發(fā)了廣泛關(guān)注。

近期,來(lái)自北京航空航天大學(xué)、360 AI 安全實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)提出了一種名為「Reasoning-Augmented Conversation(RACE)」 的新型多輪攻擊框架,旨在通過推理增強(qiáng)的對(duì)話方式,突破大語(yǔ)言模型的安全對(duì)齊機(jī)制。這一研究引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

  • 論文標(biāo)題:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
  • 論文鏈接:https://arxiv.org/pdf/2502.11054
  • GitHub 鏈接:https://github.com/NY1024/RACE

RACE 框架的核心思想

推理增強(qiáng)對(duì)話,解鎖大語(yǔ)言模型的「越獄」新路徑

大語(yǔ)言模型(LLMs)在推理和邏輯任務(wù)中表現(xiàn)出色,但這種強(qiáng)大的推理能力卻可能被惡意利用。

RACE 框架的核心思想正是利用這些模型的推理能力,將有害意圖偽裝成看似無(wú)害的復(fù)雜推理任務(wù),從而在不知不覺中引導(dǎo)模型生成有害內(nèi)容,突破其安全對(duì)齊機(jī)制。

為何選擇推理增強(qiáng)攻擊?

大語(yǔ)言模型在邏輯推理、常識(shí)推理和數(shù)學(xué)解題等任務(wù)中表現(xiàn)出色,但這種強(qiáng)大的推理能力卻可能被惡意利用。

傳統(tǒng)的攻擊方法通常直接發(fā)送有害查詢,很容易被模型的安全機(jī)制識(shí)別并拒絕。然而,推理任務(wù)通常被視為「良性」問題,模型會(huì)積極嘗試解答。RACE 框架正是抓住了這一點(diǎn),將有害意圖巧妙地轉(zhuǎn)化為推理任務(wù),讓模型在解答過程中不知不覺地生成有害內(nèi)容。

 RACE 的設(shè)計(jì)原則:推理任務(wù)的「雙面性」

RACE 框架的核心設(shè)計(jì)基于推理任務(wù)的「雙面性」:一方面,推理任務(wù)本身是無(wú)害的,模型會(huì)積極嘗試解答;另一方面,這些任務(wù)的設(shè)計(jì)卻暗藏玄機(jī),其解答過程會(huì)逐步引導(dǎo)模型生成有害內(nèi)容。

具體來(lái)說,RACE 框架將攻擊分為兩個(gè)角色:受害者模型影子模型。

  • 受害者模型:專注于解決推理任務(wù),看似在進(jìn)行合法的推理。
  • 影子模型:負(fù)責(zé)生成和優(yōu)化查詢,但并不直接識(shí)別背后的有害意圖。

獨(dú)立來(lái)看,每個(gè)角色似乎都在進(jìn)行合法的推理活動(dòng)。然而,當(dāng)兩者結(jié)合時(shí),這種互動(dòng)卻最終導(dǎo)致了攻擊的成功。這種設(shè)計(jì)巧妙地利用了大語(yǔ)言模型的推理能力,使其在不知不覺中「自我越獄」。

如何實(shí)現(xiàn)推理驅(qū)動(dòng)的攻擊?

為了實(shí)現(xiàn)這種推理驅(qū)動(dòng)的攻擊,RACE 框架引入了以下關(guān)鍵機(jī)制:

  • 攻擊狀態(tài)機(jī)(ASM)框架:將攻擊過程建模為一系列推理狀態(tài)和狀態(tài)轉(zhuǎn)換,確保每一步都符合邏輯推理的規(guī)則,同時(shí)逐步推進(jìn)攻擊目標(biāo)。這種結(jié)構(gòu)化的攻擊方式不僅提高了攻擊的成功率,還使得攻擊過程更加難以被檢測(cè)。
  • 動(dòng)態(tài)優(yōu)化與恢復(fù)機(jī)制:通過增益引導(dǎo)探索(Gain-guided Exploration)、自我博弈(Self-play)和拒絕反饋(Rejection Feedback)三個(gè)模塊,動(dòng)態(tài)優(yōu)化攻擊過程。

三大核心模塊

  • 增益引導(dǎo)探索(Gain-guided Exploration):該模塊通過信息增益(Information Gain)來(lái)衡量查詢?cè)诠暨^程中的有效性,選擇與目標(biāo)語(yǔ)義一致且能提取有用信息的查詢,確保攻擊的穩(wěn)步進(jìn)展。

  • 自我博弈(Self-play):自我對(duì)抗模塊通過模擬受害者模型的拒絕響應(yīng),提前優(yōu)化查詢結(jié)構(gòu),提高攻擊效率。這一模塊利用影子模型和受害者模型之間的相似性,通過 “自我博弈” 來(lái)優(yōu)化查詢。

  • 拒絕反饋(Rejection Feedback):當(dāng)攻擊嘗試失敗時(shí),拒絕反饋模塊會(huì)分析失敗的原因,并將失敗的查詢重構(gòu)為替代的推理任務(wù),從而快速恢復(fù)并維持攻擊的穩(wěn)定性。

實(shí)驗(yàn)結(jié)果

攻擊成功率大幅提升

研究團(tuán)隊(duì)在多種大語(yǔ)言模型上進(jìn)行了廣泛的實(shí)驗(yàn),包括開源模型(如 Gemma、Qwen、GLM)和閉源模型(如 GPT-4、OpenAI o1、DeepSeek R1 等)。

實(shí)驗(yàn)結(jié)果表明,RACE 在復(fù)雜對(duì)話場(chǎng)景中表現(xiàn)出色,攻擊成功率(ASR)最高可達(dá) 96%。尤其是在針對(duì)領(lǐng)先的商業(yè)推理模型 OpenAI o1 和 DeepSeek R1 時(shí),RACE 的攻擊成功率分別達(dá)到了 82% 和 92%,這一結(jié)果凸顯了推理驅(qū)動(dòng)攻擊的潛在威脅。

防御機(jī)制

盡管 RACE 在攻擊效率上表現(xiàn)出色,但研究團(tuán)隊(duì)也對(duì)其防御機(jī)制進(jìn)行了評(píng)估。結(jié)果顯示,現(xiàn)有的防御方法(如 SmoothLLM、Self Reminder、ICD 和 JailGuard)對(duì) RACE 的緩解效果非常有限,攻擊成功率僅降低了 1% 到 17.6%。這表明,推理驅(qū)動(dòng)的攻擊方法對(duì)現(xiàn)有防御機(jī)制具有很強(qiáng)的魯棒性。

 研究意義與展望

RACE 框架的提出不僅揭示了大語(yǔ)言模型在推理能力上可能存在的安全漏洞,也為開發(fā)更強(qiáng)大的安全機(jī)制提供了新的思路。研究團(tuán)隊(duì)強(qiáng)調(diào),他們的目標(biāo)是通過系統(tǒng)性地評(píng)估大語(yǔ)言模型的安全性,推動(dòng)更安全的對(duì)齊技術(shù)的發(fā)展,而不是鼓勵(lì)惡意使用這些研究成果。

隨著大語(yǔ)言模型在各個(gè)領(lǐng)域的廣泛應(yīng)用,其安全性問題將成為研究和開發(fā)的重點(diǎn)。RACE 框架的提出,無(wú)疑為理解和防范大語(yǔ)言模型的安全威脅提供了重要的參考。未來(lái),如何開發(fā)出能夠有效抵御推理驅(qū)動(dòng)攻擊的安全機(jī)制,將是學(xué)術(shù)界和工業(yè)界需要共同面對(duì)的挑戰(zhàn)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-06-11 08:55:00

2022-09-16 07:23:24

人工智能自然語(yǔ)言系統(tǒng)

2015-09-21 09:52:57

邏輯推理

2025-03-07 09:34:14

2025-04-24 10:26:40

2024-07-05 15:06:00

2023-11-03 13:07:00

AI模型

2024-02-26 07:43:10

大語(yǔ)言模型LLM推理框架

2024-07-08 06:30:00

2024-02-26 13:48:00

模型數(shù)據(jù)

2025-03-03 09:00:00

2024-12-23 07:20:00

LLM逆向思維語(yǔ)言模型

2023-05-15 15:38:59

AI模型

2013-12-17 10:02:30

越獄iOS7

2025-02-10 13:00:00

模型訓(xùn)練AI

2024-05-11 08:24:16

OpenAIAI語(yǔ)音助手人工智能

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2025-03-11 13:07:58

2011-09-19 13:03:02

2019-09-05 14:00:56

AI考試高分
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)