自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

研究人員發(fā)現(xiàn)新方法防御 AI 模型的通用越獄攻擊

安全 人工智能
這種創(chuàng)新方法被稱為“憲法分類器”,已在數(shù)千小時(shí)的人類紅隊(duì)測(cè)試和合成評(píng)估中表現(xiàn)出了顯著的抗攻擊能力。

來(lái)自Anthropic保障研究團(tuán)隊(duì)的研究人員開(kāi)發(fā)了一種新方法,用于保護(hù)人工智能模型免受通用越獄攻擊。這種創(chuàng)新方法被稱為“憲法分類器”,已在數(shù)千小時(shí)的人類紅隊(duì)測(cè)試和合成評(píng)估中表現(xiàn)出了顯著的抗攻擊能力。

通用越獄攻擊是指攻擊者通過(guò)精心設(shè)計(jì)的輸入,繞過(guò)人工智能模型的安全防護(hù),迫使模型產(chǎn)生違反其安全準(zhǔn)則的有害回應(yīng)。這些攻擊可能涉及用長(zhǎng)提示信息淹沒(méi)模型,或者使用不尋常的大寫方式改變輸入風(fēng)格,盡管經(jīng)過(guò)廣泛的安全訓(xùn)練,大型語(yǔ)言模型仍然容易受到此類漏洞利用的攻擊。

憲法分類器的工作原理

憲法分類器是基于合成數(shù)據(jù)訓(xùn)練的輸入和輸出分類器。它們能夠過(guò)濾掉大多數(shù)越獄嘗試,同時(shí)將過(guò)度拒絕率降至最低,并保持適度的計(jì)算開(kāi)銷。該系統(tǒng)基于“憲法”——一份定義允許和禁止內(nèi)容類別的原則清單。

憲法分類器的訓(xùn)練和實(shí)施(來(lái)源:Anthropic)

以下是其工作原理:

  • 憲法制定:制定一部憲法,明確無(wú)害和有害的類別。
  • 合成數(shù)據(jù)生成:根據(jù)憲法,生成大量涵蓋所有內(nèi)容類別的合成提示和模型完成內(nèi)容。這些數(shù)據(jù)通過(guò)翻譯成不同語(yǔ)言以及模仿已知越獄風(fēng)格進(jìn)行增強(qiáng)。
  • 分類器訓(xùn)練:使用合成數(shù)據(jù)訓(xùn)練輸入和輸出分類器,以檢測(cè)和阻止有害內(nèi)容。
  • 部署:將這些分類器作為保護(hù) AI 模型的安全措施實(shí)施。

實(shí)際測(cè)試結(jié)果

在一個(gè)漏洞賞金計(jì)劃中,183名活躍參與者花費(fèi)超過(guò)3000小時(shí),試圖對(duì)保護(hù)Claude 3.5 Sonnet的原型系統(tǒng)進(jìn)行越獄。盡管獎(jiǎng)金豐厚,但并未發(fā)現(xiàn)任何通用越獄漏洞。不過(guò),該原型系統(tǒng)的過(guò)度拒絕率和計(jì)算成本較高。

自動(dòng)化評(píng)估結(jié)果(來(lái)源:Anthropic)

憲法分類器的更新版本在Claude 3.5 Sonnet上進(jìn)行了測(cè)試,使用了1萬(wàn)個(gè)合成越獄提示。越獄成功率從86%降至4.4%,拒絕率僅略有上升(0.38%),額外計(jì)算成本適度增加(23.7%)。

雖然憲法分類器為AI模型提供了顯著的保護(hù),但要注意的是,它們并非萬(wàn)無(wú)一失。研究人員建議使用補(bǔ)充防御措施,并根據(jù)新出現(xiàn)的越獄技術(shù)不斷調(diào)整“憲法”。

不過(guò)這一突破確實(shí)為未來(lái)安全部署更強(qiáng)大的 AI 模型帶來(lái)了希望,減輕了越獄相關(guān)的風(fēng)險(xiǎn),并確保AI系統(tǒng)符合安全原則。

2025年2月3日至2月10日,憲法分類器系統(tǒng)的實(shí)時(shí)演示將開(kāi)放供紅隊(duì)測(cè)試。此次演示專注于與化學(xué)武器相關(guān)的查詢,并邀請(qǐng)用戶嘗試越獄,以提供對(duì)系統(tǒng)改進(jìn)的寶貴反饋。

參考來(lái)源:https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette

責(zé)任編輯:趙寧寧 來(lái)源: FreeBuf
相關(guān)推薦

2015-07-20 11:49:56

Wi-Fi

2013-03-28 10:34:29

2017-12-05 17:06:11

機(jī)器人

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-03-21 06:00:00

惡意軟件越獄技術(shù)漏洞

2010-04-21 09:15:21

2021-02-02 09:32:06

黑客攻擊l安全

2023-12-07 12:05:39

2024-03-28 08:00:00

人工智能多模態(tài)語(yǔ)言模型

2023-08-07 16:45:28

2021-07-30 15:32:41

網(wǎng)絡(luò)攻擊黑客網(wǎng)絡(luò)安全

2021-07-30 23:17:12

網(wǎng)絡(luò)安全黑客伊朗

2015-03-10 11:12:42

2015-10-15 15:31:50

2021-06-29 09:25:59

攻擊黑客漏洞

2015-01-04 13:28:03

2014-12-25 09:51:32

2025-02-25 10:21:12

2023-06-14 15:53:53

人工智能深度學(xué)習(xí)醫(yī)療健康

2021-04-04 22:55:51

谷歌網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)