自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek“防彈衣”來了,模型內(nèi)生安全加固方案,拒絕殺敵一千自損八百|上海AI Lab

人工智能 新聞
上海交大與上海AI Lab聯(lián)合推出安全防御方案——X-Boundary,試圖破解兩難局面。

最新研究顯示,以超強推理爆紅的DeepSeek-R1模型竟藏隱形危險——

即便最終拒絕回答,其思考過程仍可能泄露有害內(nèi)容?,F(xiàn)有防御技術深陷兩難:要么防不住攻擊,要么讓模型變成”驚弓之鳥”,連正常問題都拒絕回答。

上海交大與上海AI Lab聯(lián)合推出安全防御方案——X-Boundary,試圖破解兩難局面。

X-Boundary通過分離安全和有害表征,并針對有害表征進行定向消除,在不損害模型通用性能且避免過度安全問題的前提下,實現(xiàn)精準高效的安全加固,使模型能夠同時防御多種單輪和多輪攻擊。

X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表現(xiàn)如下圖所示:

圖片

案例分析:當黑客發(fā)動惡意提問時,原始模型的”思維鏈條”會泄露危險信息(左圖),而經(jīng)過X-Boundary安全加固的模型如同被植入”認知凈化芯片”——通過精準切除有害特征,徹底封堵信息泄漏通道(右圖)。

結合基于規(guī)則的檢測器,一旦發(fā)現(xiàn)安全風險過高導致的異常輸出則終止模型思考,同步觸發(fā)安全代答響應,從而實現(xiàn)高效和安全的兼顧。

圖片

四大防御方法首度遷移評測:安全與智能的失衡困局

主流防御方法(SFT/DPO/GA/CB)應用在推理模型上,一個尖銳的矛盾浮出水面:模型的安全防線每加固一分,其智能水平就衰退一程。

現(xiàn)有的防御方法要么不奏效,要么會對推理能力造成很大的損失。實驗數(shù)據(jù)顯示,SFT將攻擊成功率(ASR)壓低的同時,也導致了DeepSeek-R1-Distill-Llama-8B的數(shù)學能力在AIME-2024基準上驟降10%,在XSTest和PHTest上還出現(xiàn)了系統(tǒng)性誤判——超過50%的安全提問遭遇無理由拒絕(表3)。這暴露出當前防御策略的致命缺陷:它們并非真正識別出危險,而是通過”寧可錯殺一千”的粗暴策略壓低風險指標。

團隊進一步將這些防御技術引入多輪攻防場景,測評后發(fā)現(xiàn),多輪防御訓練本身就像一把雙刃劍。在Qwen2.5-7B-Chat模型中加入多輪防御數(shù)據(jù)后,安全問答的誤傷率在OR-Bench和PHTest測試集上飆升30%,證明防御強度的提升與可用性損耗存在強相關性。

這種困境的根源,在特征空間的可視化分析中顯露無遺——現(xiàn)有方法構建的安全防線模糊不清,大量邊界案例(如詢問毒品危害的合理問題)的表征與真正有害的表征的分布高度重合,就像安檢儀無法分辨外形相似的礦泉水與易燃液體,最終導致這些安全表征被錯誤地分類,邊界問題也被拒絕回答,模型陷入了“過度安全”的怪圈。

圖片

為大模型精準打造“內(nèi)生安全系統(tǒng)”

面對現(xiàn)有防御技術”傷敵一千自損八百”的困境,團隊提出X-Boundary防御框架——如同為AI建立智能安檢通道,實現(xiàn)危險內(nèi)容精準攔截與安全信息無感通行。

三步建立動態(tài)防護網(wǎng)

  1. 邊界繪制:通過設計顯式的表征分離優(yōu)化目標,讓危險請求的表征向量與安全表征向量形成90°垂直角,從根源切斷兩者混淆的可能,在表征空間強行劃出“安全禁區(qū)”。
  2. 威脅瓦解:對危險表征施加不可逆的擾動,使其無法保持原始有害形態(tài)(類似文件粉碎機的不可逆擦除)。
  3. 智能保鮮:采用表征維持技術,確保絕大多數(shù)安全問題的表征不受訓練影響,維持模型原生智能。

圖片

理論突破 × 實踐驗證

基于最優(yōu)傳輸理論的數(shù)學證明,X-Boundary有助于使安全表征更聚集,從而加快大模型訓練時的收斂速度。實驗顯示,在Llama-3-8B和Qwen2.5-7B模型上,訓練收斂速度分別提升27%18%(圖4),實現(xiàn)安全防御與訓練效率的雙重進化。

圖片

安全與智能的平衡

“火眼金睛”區(qū)分安全和有害表征

如圖5所示,X-Boundary成功在模型內(nèi)部構建出明暗分界的安全防線——使大模型內(nèi)部的有害表征和安全表征得到清晰的區(qū)分,徹底終結了傳統(tǒng)方法”敵我不分”的混沌局面。

圖片

魯棒的多輪防御與高可用性兼得

有了清晰的表征區(qū)分邊界,X-Boundary能在安全性和可用性之間取得平衡(表1):

  • 多輪攻擊防御成功率(ASR)追平現(xiàn)有最優(yōu)方案
  • 誤傷率(Over-refusal)降至最低水平降至最低水平
  • 模型通用能力保持99%以上原生性能

圖片

圖 6 直觀地展示了防御成功率與誤傷率之間的權衡。X-Boundary 位于圖的左下角,表明 X-Boundary 相比其他方法在兩個指標之間取得了更好的平衡。

圖片

跨模型規(guī)模的穩(wěn)健打擊

當擴展到140億參數(shù)的Qwen2.5-14B-Chat時(表2):

  • 對復雜多輪攻擊的防御強度再提升65%
  • 誤傷率增幅嚴格鎖死在5%以內(nèi)
  • 模型智商損耗不足0.6%

這意味著即使面對更大規(guī)模、更復雜的AI系統(tǒng),X-Boundary依然能實現(xiàn)零感知防御。

圖片

作者簡介

本文由上海AI Lab、上交大和電子科大聯(lián)合完成。

主要作者包括上海AI Lab和上交大聯(lián)培博士生盧曉雅、上海AI Lab青年研究員劉東瑞(共同一作)等。

通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。

論文地址:https://arxiv.org/abs/2502.09990
項目主頁:https://github.com/AI45Lab/X-Boundary

責任編輯:張燕妮 來源: 量子位
相關推薦

2014-09-01 14:27:47

初志科技云存儲

2016-09-13 09:55:37

特權訪問管理PAM

2016-09-27 17:43:02

網(wǎng)絡安全技術周刊

2015-04-21 17:29:36

2024-09-23 15:40:00

2025-04-10 09:38:37

2012-07-13 10:29:03

2024-06-17 18:04:38

2025-02-17 09:33:00

AI算法模型

2024-10-25 14:30:00

模型AI

2024-07-22 15:34:21

2011-01-19 11:20:17

職場

2012-09-11 10:02:00

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2025-02-12 07:08:33

2025-03-13 09:47:29

2024-11-05 13:40:00

2023-12-03 21:52:20

2022-09-30 15:15:41

模型框架
點贊
收藏

51CTO技術棧公眾號