自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="8pmnw"></sub>

<cite id="8pmnw"><rp id="8pmnw"><form id="8pmnw"></form></rp></cite>

<var id="8pmnw"><button id="8pmnw"><center id="8pmnw"></center></button></var>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

將越獄問題轉(zhuǎn)換為求解邏輯推理題：「濫用」推理能力讓LLM實(shí)現(xiàn)自我越獄

作者：機(jī)器之心 2025-03-03 09:40:00

人工智能新聞

近期，來(lái)自北京航空航天大學(xué)、360 AI 安全實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)提出了一種名為「Reasoning-Augmented Conversation（RACE）」的新型多輪攻擊框架。

應(yīng)宗浩，現(xiàn)為北航復(fù)雜關(guān)鍵軟件環(huán)境全國(guó)重點(diǎn)實(shí)驗(yàn)室博士生，由劉艾杉教授、劉祥龍教授與陶大程教授共同指導(dǎo)，目前研究興趣為大模型越獄攻防。他所在的智能安全團(tuán)隊(duì)由劉祥龍教授負(fù)責(zé)，近期在大模型安全評(píng)測(cè)體系方面進(jìn)行了系列研究工作，包括對(duì)抗攻擊、后門投毒、越獄攻擊、偏見調(diào)控等，發(fā)表 TPAMI、IJCV、ICML 等頂會(huì)頂刊論文 100 余篇。

大語(yǔ)言模型（LLMs）在當(dāng)今的自然語(yǔ)言處理領(lǐng)域扮演著越來(lái)越重要的角色，但其安全性問題也引發(fā)了廣泛關(guān)注。

近期，來(lái)自北京航空航天大學(xué)、360 AI 安全實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)提出了一種名為「Reasoning-Augmented Conversation（RACE）」的新型多輪攻擊框架，旨在通過推理增強(qiáng)的對(duì)話方式，突破大語(yǔ)言模型的安全對(duì)齊機(jī)制。這一研究引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

論文標(biāo)題：Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
論文鏈接：https://arxiv.org/pdf/2502.11054
GitHub 鏈接:https://github.com/NY1024/RACE

RACE 框架的核心思想

推理增強(qiáng)對(duì)話，解鎖大語(yǔ)言模型的「越獄」新路徑

大語(yǔ)言模型（LLMs）在推理和邏輯任務(wù)中表現(xiàn)出色，但這種強(qiáng)大的推理能力卻可能被惡意利用。

RACE 框架的核心思想正是利用這些模型的推理能力，將有害意圖偽裝成看似無(wú)害的復(fù)雜推理任務(wù)，從而在不知不覺中引導(dǎo)模型生成有害內(nèi)容，突破其安全對(duì)齊機(jī)制。

為何選擇推理增強(qiáng)攻擊？

大語(yǔ)言模型在邏輯推理、常識(shí)推理和數(shù)學(xué)解題等任務(wù)中表現(xiàn)出色，但這種強(qiáng)大的推理能力卻可能被惡意利用。

傳統(tǒng)的攻擊方法通常直接發(fā)送有害查詢，很容易被模型的安全機(jī)制識(shí)別并拒絕。然而，推理任務(wù)通常被視為「良性」問題，模型會(huì)積極嘗試解答。RACE 框架正是抓住了這一點(diǎn)，將有害意圖巧妙地轉(zhuǎn)化為推理任務(wù)，讓模型在解答過程中不知不覺地生成有害內(nèi)容。

RACE 的設(shè)計(jì)原則：推理任務(wù)的「雙面性」

RACE 框架的核心設(shè)計(jì)基于推理任務(wù)的「雙面性」：一方面，推理任務(wù)本身是無(wú)害的，模型會(huì)積極嘗試解答；另一方面，這些任務(wù)的設(shè)計(jì)卻暗藏玄機(jī)，其解答過程會(huì)逐步引導(dǎo)模型生成有害內(nèi)容。

具體來(lái)說，RACE 框架將攻擊分為兩個(gè)角色：受害者模型和影子模型。

受害者模型：專注于解決推理任務(wù)，看似在進(jìn)行合法的推理。
影子模型：負(fù)責(zé)生成和優(yōu)化查詢，但并不直接識(shí)別背后的有害意圖。

獨(dú)立來(lái)看，每個(gè)角色似乎都在進(jìn)行合法的推理活動(dòng)。然而，當(dāng)兩者結(jié)合時(shí)，這種互動(dòng)卻最終導(dǎo)致了攻擊的成功。這種設(shè)計(jì)巧妙地利用了大語(yǔ)言模型的推理能力，使其在不知不覺中「自我越獄」。

如何實(shí)現(xiàn)推理驅(qū)動(dòng)的攻擊？

為了實(shí)現(xiàn)這種推理驅(qū)動(dòng)的攻擊，RACE 框架引入了以下關(guān)鍵機(jī)制：

攻擊狀態(tài)機(jī)（ASM）框架：將攻擊過程建模為一系列推理狀態(tài)和狀態(tài)轉(zhuǎn)換，確保每一步都符合邏輯推理的規(guī)則，同時(shí)逐步推進(jìn)攻擊目標(biāo)。這種結(jié)構(gòu)化的攻擊方式不僅提高了攻擊的成功率，還使得攻擊過程更加難以被檢測(cè)。
動(dòng)態(tài)優(yōu)化與恢復(fù)機(jī)制：通過增益引導(dǎo)探索（Gain-guided Exploration）、自我博弈（Self-play）和拒絕反饋（Rejection Feedback）三個(gè)模塊，動(dòng)態(tài)優(yōu)化攻擊過程。

三大核心模塊

增益引導(dǎo)探索（Gain-guided Exploration）：該模塊通過信息增益（Information Gain）來(lái)衡量查詢?cè)诠暨^程中的有效性，選擇與目標(biāo)語(yǔ)義一致且能提取有用信息的查詢，確保攻擊的穩(wěn)步進(jìn)展。

自我博弈（Self-play）：自我對(duì)抗模塊通過模擬受害者模型的拒絕響應(yīng)，提前優(yōu)化查詢結(jié)構(gòu)，提高攻擊效率。這一模塊利用影子模型和受害者模型之間的相似性，通過 “自我博弈” 來(lái)優(yōu)化查詢。

拒絕反饋（Rejection Feedback）：當(dāng)攻擊嘗試失敗時(shí)，拒絕反饋模塊會(huì)分析失敗的原因，并將失敗的查詢重構(gòu)為替代的推理任務(wù)，從而快速恢復(fù)并維持攻擊的穩(wěn)定性。

實(shí)驗(yàn)結(jié)果

攻擊成功率大幅提升

研究團(tuán)隊(duì)在多種大語(yǔ)言模型上進(jìn)行了廣泛的實(shí)驗(yàn)，包括開源模型（如 Gemma、Qwen、GLM）和閉源模型（如 GPT-4、OpenAI o1、DeepSeek R1 等）。

實(shí)驗(yàn)結(jié)果表明，RACE 在復(fù)雜對(duì)話場(chǎng)景中表現(xiàn)出色，攻擊成功率（ASR）最高可達(dá) 96%。尤其是在針對(duì)領(lǐng)先的商業(yè)推理模型 OpenAI o1 和 DeepSeek R1 時(shí)，RACE 的攻擊成功率分別達(dá)到了 82% 和 92%，這一結(jié)果凸顯了推理驅(qū)動(dòng)攻擊的潛在威脅。

防御機(jī)制

盡管 RACE 在攻擊效率上表現(xiàn)出色，但研究團(tuán)隊(duì)也對(duì)其防御機(jī)制進(jìn)行了評(píng)估。結(jié)果顯示，現(xiàn)有的防御方法（如 SmoothLLM、Self Reminder、ICD 和 JailGuard）對(duì) RACE 的緩解效果非常有限，攻擊成功率僅降低了 1% 到 17.6%。這表明，推理驅(qū)動(dòng)的攻擊方法對(duì)現(xiàn)有防御機(jī)制具有很強(qiáng)的魯棒性。

研究意義與展望

RACE 框架的提出不僅揭示了大語(yǔ)言模型在推理能力上可能存在的安全漏洞，也為開發(fā)更強(qiáng)大的安全機(jī)制提供了新的思路。研究團(tuán)隊(duì)強(qiáng)調(diào)，他們的目標(biāo)是通過系統(tǒng)性地評(píng)估大語(yǔ)言模型的安全性，推動(dòng)更安全的對(duì)齊技術(shù)的發(fā)展，而不是鼓勵(lì)惡意使用這些研究成果。

隨著大語(yǔ)言模型在各個(gè)領(lǐng)域的廣泛應(yīng)用，其安全性問題將成為研究和開發(fā)的重點(diǎn)。RACE 框架的提出，無(wú)疑為理解和防范大語(yǔ)言模型的安全威脅提供了重要的參考。未來(lái)，如何開發(fā)出能夠有效抵御推理驅(qū)動(dòng)攻擊的安全機(jī)制，將是學(xué)術(shù)界和工業(yè)界需要共同面對(duì)的挑戰(zhàn)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 模型框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="idlrj"></sub>