自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強(qiáng)化學(xué)習(xí)成幫兇,對抗攻擊LLM有了新方法

人工智能 新聞
近日,威斯康星大學(xué)麥迪遜分校的一個研究團(tuán)隊(duì)發(fā)現(xiàn),可以通過強(qiáng)化學(xué)習(xí)對模型實(shí)施有效的黑盒逃避攻擊(Black-Box Evasion Attacks)。

事物都有多面性,正如水,既能載舟,亦能覆舟,還能煮粥。強(qiáng)化學(xué)習(xí)也是如此。它既能幫助 AlphaGo 擊敗頂級圍棋棋手,還能幫助 DeepSeek-R1 獲得強(qiáng)大的推理能力,但它也可能被惡意使用,成為攻擊 AI 模型的得力武器。

近日,威斯康星大學(xué)麥迪遜分校的一個研究團(tuán)隊(duì)發(fā)現(xiàn),可以通過強(qiáng)化學(xué)習(xí)對模型實(shí)施有效的黑盒逃避攻擊(Black-Box Evasion Attacks)。研究團(tuán)隊(duì)表示:「從安全角度來看,這項(xiàng)工作展示了一種強(qiáng)大的新攻擊媒介,即使用強(qiáng)化學(xué)習(xí)來有效且大規(guī)模地攻擊機(jī)器學(xué)習(xí)模型。」

圖片

  • 論文標(biāo)題:Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2503.01734

下面我們就來簡單看看這項(xiàng)研究。

首先,為什么要研究如何攻擊模型?答案自然是為了安全。

現(xiàn)在 AI 發(fā)展迅猛,各種應(yīng)用層出不窮,并且已經(jīng)給許多領(lǐng)域帶來了巨大變革。而隨著應(yīng)用的普及,攻擊這些模型也漸漸開始變得有利可圖,其中一類攻擊方式是:生成能夠欺騙 AI 模型的輸入,從而繞過安全過濾器。這個領(lǐng)域被稱為對抗機(jī)器學(xué)習(xí)(AML),研究的是能針對目標(biāo)模型生成對抗樣本的算法。

現(xiàn)有的 AML 通常使用優(yōu)化算法來最小化施加到輸入的變化(稱為擾動),使得受害者機(jī)器學(xué)習(xí)模型對帶有擾動的輸入進(jìn)行分類時會犯錯。不過,技術(shù)社區(qū)對模型防御和對抗能力的理解依然有限。

對抗樣本生成算法依賴基于梯度的優(yōu)化,該優(yōu)化與任何其他信息無關(guān)。這些方法無法利用從以前的攻擊中獲得的信息來改進(jìn)對其他數(shù)據(jù)的后續(xù)攻擊。

這是 AML 研究中的一個空白,即研究對抗樣本是否可以學(xué)習(xí) —— 攻擊的有效性和效率是否會隨著經(jīng)驗(yàn)的積累而提高。那么,對受害者模型訪問權(quán)限有限(稱為黑盒訪問)的對手能夠大規(guī)模生成對抗樣本(例如分布式拒絕服務(wù)攻擊)嗎?

將強(qiáng)化學(xué)習(xí)引入對抗攻擊

考慮到最近強(qiáng)化學(xué)習(xí)的成功,該團(tuán)隊(duì)猜想能否將 AML 對手建模為強(qiáng)化學(xué)習(xí)智能體 —— 這樣一來,或許能讓攻擊策略隨著時間而變得越來越高效和有效。

他們按照這個思路進(jìn)行了研究,提出了基于強(qiáng)化學(xué)習(xí)生成對抗樣本的攻擊方法并對其進(jìn)行了評估。

他們發(fā)現(xiàn),當(dāng)把對手建模成強(qiáng)化學(xué)習(xí)智能體時,其就能學(xué)習(xí)到哪些擾動最能欺騙模型。一旦學(xué)會了策略,對手就會使用該策略生成對抗樣本。因此,對抗性智能體無需昂貴的梯度優(yōu)化即可完成對模型的攻擊。

具體來說,該團(tuán)隊(duì)將對抗樣本生成過程建模成了馬爾可夫決策過程(MDP)。如此一來,便可以輕松地使用強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)對攻擊的底層語義的封裝:輸入樣本和受害者模型輸出為狀態(tài),擾動為動作,對抗性目標(biāo)的差異為獎勵。

該團(tuán)隊(duì)提出了兩種強(qiáng)化學(xué)習(xí)攻擊方法:RL Max Loss 和 RL Min Norm。它們對應(yīng)于兩類傳統(tǒng)的 AML 算法。

圖片

其攻擊流程是這樣的:首先使用一個強(qiáng)化學(xué)習(xí)算法來訓(xùn)練智能體,然后在策略評估設(shè)置中使用攻擊來生成對抗樣本。

圖片

實(shí)驗(yàn)評估

為了驗(yàn)證強(qiáng)化學(xué)習(xí)攻擊方法的有效性,該團(tuán)隊(duì)在 CIFAR-10 圖像分類任務(wù)上,使用一個 ResNet50 受害者模型進(jìn)行了評估,使用的算法是近端策略優(yōu)化(PPO)。該團(tuán)隊(duì)在此框架下進(jìn)行多步驟評估,評估內(nèi)容包括 (a) 學(xué)習(xí)、(b) 微調(diào)和 (c) 相對于已知方法的準(zhǔn)確度。

圖片

首先,他們評估了強(qiáng)化學(xué)習(xí)智能體能否學(xué)習(xí)對抗樣本。換句話說,強(qiáng)化學(xué)習(xí)能否在訓(xùn)練過程中提高對抗樣本的有效性和效率?

結(jié)果發(fā)現(xiàn),RL Max Loss 和 RL Min Norm 攻擊都會增加訓(xùn)練過程中的平均回報(bào),從而驗(yàn)證了強(qiáng)化學(xué)習(xí)技術(shù)學(xué)習(xí)任務(wù)的能力。

圖片

圖片

在整個訓(xùn)練過程中,對抗樣本的產(chǎn)生速度平均提升了 19.4%,而與受害者模型的交互量平均減少了 53.2%。

這些結(jié)果表明,通過高效地生成更多對抗樣本,智能體可在訓(xùn)練過程中變得更加強(qiáng)大。

接下來,他們還分析了 RL Max Loss 和 RL Min Norm 中的獎勵和轉(zhuǎn)換超參數(shù)會如何影響對抗樣本。

ε 參數(shù)控制的是 RL Max Loss 智能體在給定輸入上允許的失真量。c 參數(shù)控制的是 RL Min Norm 智能體因降低受害者模型置信度而不是最小化失真而獲得獎勵的程度。

雖然訓(xùn)練智能體可以提高這兩種攻擊的性能,但他們的研究表明這也取決于 ε 和 c 的選擇。具體實(shí)驗(yàn)中,他們根據(jù)平衡對抗性目標(biāo)的敏感性分析選擇了 ε = 0.5 和 c = 1.0。當(dāng)對手使用這些攻擊時,為了達(dá)到預(yù)期目標(biāo),必須在攻擊之前考慮它們。

圖片

最后,該團(tuán)隊(duì)還評估了經(jīng)過訓(xùn)練的智能體如何將對抗樣本泛化到未見過的數(shù)據(jù),以及它相對于廣泛使用的基于優(yōu)化的 SquareAttack 算法的表現(xiàn)如何。

在訓(xùn)練外的未見過的數(shù)據(jù)集上,訓(xùn)練后的智能體的錯誤分類率、中位數(shù)查詢和對抗樣本的平均失真都落在訓(xùn)練對抗樣本的分布中。

圖片

在與 SquareAttack 的黑盒比較中,他們將 5000 episode 的強(qiáng)化學(xué)習(xí)攻擊與其它 SOTA 技術(shù)進(jìn)行了比較,結(jié)果表明學(xué)習(xí)對抗樣本讓強(qiáng)化學(xué)習(xí)攻擊能夠生成多 13.1% 的對抗樣本。

圖片

這些結(jié)果表明,如果對手通過強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)對抗樣本,會比現(xiàn)有方法更有效。

你怎么看待這項(xiàng)研究,我們又該怎么防御對手的強(qiáng)化學(xué)習(xí)攻擊呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2025-04-25 09:12:00

2014-05-19 09:25:33

2018-11-16 10:10:09

2021-10-11 17:15:30

AI 數(shù)據(jù)人工智能

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-04-27 09:12:00

AI模型技術(shù)

2023-11-15 14:55:00

2023-12-06 13:20:00

AI模型

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2021-01-15 23:08:01

區(qū)塊鏈食品安全供應(yīng)鏈

2022-12-01 08:00:00

2010-04-01 09:30:57

2015-08-21 09:14:40

大數(shù)據(jù)

2015-10-15 15:31:50

2022-03-10 12:16:14

側(cè)信道內(nèi)存攻擊網(wǎng)絡(luò)攻擊

2025-02-06 07:26:35

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號