自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺語言模型易受攻擊?西安交大等提出基于擴(kuò)散模型的對(duì)抗樣本生成新方法

人工智能
大型視覺語言模型(VLMs)在圖像生成文本和文本生成圖像等任務(wù)中表現(xiàn)出色,廣泛應(yīng)用于自動(dòng)駕駛、視覺輔助和內(nèi)容審核等領(lǐng)域。然而,VLMs 對(duì)對(duì)抗攻擊高度敏感,可能引發(fā)安全隱患。因此,評(píng)估其對(duì)抗魯棒性至關(guān)重要。

本文作者來自西安交通大學(xué)、南洋理工大學(xué)、新加坡科技管理局前沿研究中心。作者列表:郭淇,龐善民,加小俊,Liu Yang 和郭青。其中,第一作者郭淇是西安交通大學(xué)博士生。通訊作者西安交通大學(xué)龐善民副教授(主頁:https://gr.xjtu.edu.cn/web/pangsm)和南洋理工大學(xué)的加小俊博士后研究員(主頁:https://jiaxiaojunqaq.github.io)。論文已被計(jì)算機(jī)網(wǎng)絡(luò)信息安全領(lǐng)域頂級(jí)期刊IEEE TIFS錄用。

對(duì)抗攻擊,特別是基于遷移的有目標(biāo)攻擊,可以用于評(píng)估大型視覺語言模型(VLMs)的對(duì)抗魯棒性,從而在部署前更全面地檢查潛在的安全漏洞。然而,現(xiàn)有的基于遷移的對(duì)抗攻擊由于需要大量迭代和復(fù)雜的方法結(jié)構(gòu),導(dǎo)致成本較高。此外,由于對(duì)抗語義的不自然性,生成的對(duì)抗樣本的遷移性較低。這些問題限制了現(xiàn)有方法在魯棒性評(píng)估中的實(shí)用性。

為了解決這些問題,作者提出了 AdvDiffVLM,一種利用擴(kuò)散模型通過得分匹配生成自然、無約束且具有針對(duì)性對(duì)抗樣本的方法。具體而言,AdvDiffVLM 使用自適應(yīng)集成梯度估計(jì)(Adaptive Ensemble Gradient Estimation, AEGE),在擴(kuò)散模型的反向生成過程中調(diào)整得分,確保生成的對(duì)抗樣本具備自然的針對(duì)性對(duì)抗語義,從而提升遷移性。

同時(shí),為了提高對(duì)抗樣本的質(zhì)量,他們引入 GradCAM 引導(dǎo)的掩模生成(GradCAM-guided Mask Generation, GCMG),將對(duì)抗語義分散到整個(gè)圖像中,而不是集中在單一區(qū)域。最后,AdvDiffVLM 通過多次迭代,將更多目標(biāo)語義嵌入到對(duì)抗樣本中。實(shí)驗(yàn)結(jié)果表明,與最新的基于遷移的對(duì)抗攻擊方法相比,該方法生成對(duì)抗樣本的速度提高了 5 到 10 倍,同時(shí)保持了更高質(zhì)量的對(duì)抗樣本。

此外,與之前的基于遷移的對(duì)抗攻擊方法相比,該方法生成的對(duì)抗樣本具有更好的遷移性。值得注意的是,AdvDiffVLM 能夠在黑箱環(huán)境中成功攻擊多種商用視覺語言模型,包括 GPT-4V。

圖片

  • 論文題目:Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models
  • 論文鏈接:https://arxiv.org/abs/2404.10335
  • 代碼鏈接:https://github.com/gq-max/AdvDiffVLM

研究背景

大型視覺語言模型(VLMs)在圖像生成文本和文本生成圖像等任務(wù)中表現(xiàn)出色,廣泛應(yīng)用于自動(dòng)駕駛、視覺輔助和內(nèi)容審核等領(lǐng)域。然而,VLMs 對(duì)對(duì)抗攻擊高度敏感,可能引發(fā)安全隱患。因此,評(píng)估其對(duì)抗魯棒性至關(guān)重要。

早期研究主要集中于白盒和非針對(duì)性攻擊,但黑盒和針對(duì)性攻擊對(duì)模型構(gòu)成更大威脅,因而更具研究價(jià)值?,F(xiàn)有方法如 AttackVLM 在黑盒和針對(duì)性場景中具有開創(chuàng)性,但由于其高查詢次數(shù)和復(fù)雜結(jié)構(gòu),效率較低,難以滿足全面評(píng)估的需求。此外,基于遷移的攻擊方法盡管適用于黑盒場景,但其生成對(duì)抗樣本速度緩慢,且對(duì)抗語義不自然,限制了遷移性。無限制對(duì)抗樣本的出現(xiàn)為解決這些問題提供了新思路,通過融入自然的對(duì)抗語義,提升了對(duì)抗樣本的質(zhì)量和遷移性。然而,這些方法在針對(duì) VLMs 時(shí)仍存在高成本和適用性問題。

本文提出了 AdvDiffVLM,一個(gè)高效框架,通過擴(kuò)散模型和得分匹配生成自然、無約束且具有針對(duì)性的對(duì)抗樣本。得分匹配最初由 Hyvarinen 等人提出,用于概率密度估計(jì),并由 Song 等人引入圖像生成領(lǐng)域,證明了其通過修改得分函數(shù)指導(dǎo)生成目標(biāo)語義圖像的能力?;谶@些進(jìn)展,Song 等人將得分匹配與擴(kuò)散模型結(jié)合,大幅提升了圖像質(zhì)量。

受此啟發(fā),本文研究了得分匹配在 VLM 攻擊中的應(yīng)用,旨在嵌入比現(xiàn)有方法(如 AdvDiffuser)更豐富的對(duì)抗目標(biāo)語義。

本文提出了專門針對(duì) VLM 攻擊的得分生成理論,并在此基礎(chǔ)上開發(fā)了自適應(yīng)集成梯度估計(jì)(AEGE)。為提高生成結(jié)果的自然性,作者設(shè)計(jì)了 GradCAM 引導(dǎo)的掩模生成模塊(GMGC),有效分散對(duì)抗目標(biāo)語義,避免對(duì)抗特征集中在圖像特定區(qū)域,從而提升整體圖像質(zhì)量。此外,通過多次迭代進(jìn)一步嵌入目標(biāo)語義,優(yōu)化對(duì)抗樣本的視覺質(zhì)量。與傳統(tǒng)方法的對(duì)比如圖 1 所示。

圖片

圖 1:不同基于遷移的攻擊方法與本文方法在 VLM 上的對(duì)比:(a) 攻擊性能對(duì)比。(b) 圖像質(zhì)量對(duì)比。

動(dòng)機(jī)與理論分析

隨著視覺語言模型(VLMs)在自動(dòng)駕駛和內(nèi)容審核等關(guān)鍵應(yīng)用中的廣泛部署,確保其在對(duì)抗攻擊下的魯棒性已成為維護(hù)系統(tǒng)安全性和可靠性的必要條件。盡管現(xiàn)有方法在評(píng)估 VLM 魯棒性方面取得了一定進(jìn)展,但在效率和效果上仍面臨基本局限性。高計(jì)算成本和有限的遷移性限制了對(duì)多樣化 VLM 的全面魯棒性評(píng)估能力。這一挑戰(zhàn)激發(fā)了本文的研究,旨在開發(fā)一種高效、高質(zhì)量且具有良好遷移性的方法來生成對(duì)抗樣本,從而更有效地評(píng)估 VLM 的魯棒性。作者通過借助擴(kuò)散模型和得分匹配技術(shù)的洞見,實(shí)現(xiàn)了這一目標(biāo)。

作者希望在反向生成過程中獲得滿足以下條件的分布,即對(duì)抗樣本具有目標(biāo)語義信息:

圖片

接下來,他們從 score matching 的角度出發(fā),考慮該分布的 score。根據(jù)貝葉斯定理:

圖片

其中第一項(xiàng)和第二項(xiàng)分別表示添加目標(biāo)文本語義的噪聲過程和不含目標(biāo)語義的噪聲過程。從直觀的角度看,無論是否存在目標(biāo)文本,前向噪聲添加過程都遵循高斯分布,并且添加的噪聲保持一致,這表明梯度僅依賴于 x_t。由于在生成對(duì)抗樣本時(shí)會(huì)施加約束以確保對(duì)抗樣本與原始圖像的變化最小,故無目標(biāo)文本的 x_t 與包含目標(biāo)文本的 x_t 之間的差異很小。因此最終的 score 為:

圖片

因?yàn)?score matching 和去噪是等價(jià)過程,因此最終的 score 為:

圖片

方法

圖片

圖 2:自適應(yīng)集成梯度估計(jì)(AEGC)的框架

作者使用替代模型(CLIP)去估計(jì)梯度,進(jìn)而去估計(jì) score。由于單個(gè)替代模型估計(jì)的 score 并不準(zhǔn)確,因此他們使用了集成的方法去估計(jì) score:

圖片

由于不同的圖像對(duì)于不同的替代模型的敏感程度不同,他們使用了自適應(yīng)的方式減少具有快速變化損失的替代模型的權(quán)重,以確保不同替代模型的梯度估計(jì)同時(shí)更新:

圖片

基于上述方式,作者提出了自適應(yīng)集成梯度估計(jì)方法(AEGE),如圖 2 所示,但觀察到僅僅依賴它在特定區(qū)域產(chǎn)生明顯的對(duì)抗特征,導(dǎo)致較差的視覺效果。為了平衡視覺質(zhì)量和攻擊能力,他們進(jìn)一步提出了 GradCAM 引導(dǎo)的掩碼生成(GCMG),它使用一個(gè)掩模將前向噪聲圖像和生成的圖像結(jié)合起來。這種組合將對(duì)抗性語義分布到整個(gè)圖像中,提高了對(duì)抗性示例的自然視覺質(zhì)量。

圖片

圖 3:AdvDiffVLM 的主要框架

最后他們使用 AEGE 和 GCMG 來生成對(duì)抗樣本,如圖 3 所示。

實(shí)驗(yàn)效果

開源 VLM 上的結(jié)果

圖片

表 1:在開源 VLM 上幾種方法生成的對(duì)抗樣本的有效性比較。

表 1 展示了不同方法在開源 VLM 上攻擊的結(jié)果。顯然,本文的方法在攻擊能力,遷移能力以及生成速度方面都優(yōu)于 baselines。作者也進(jìn)一步展示了可視化結(jié)果,如圖 4 所示,可以看出本文的方法能夠成功誘導(dǎo) VLM 輸出目標(biāo)響應(yīng)。

圖片

圖 4:開源 VLM 攻擊的可視化結(jié)果

商業(yè)大模型上的結(jié)果

圖片

表 2:在商業(yè)大模型上幾種方法生成的對(duì)抗樣本的有效性比較。

作者也在商業(yè)大模型上進(jìn)行了評(píng)估,如表 2 所示,他們的方法與 baseline 相比,誘導(dǎo)商業(yè)大模型輸出目標(biāo)響應(yīng)的可能性更高。作者進(jìn)一步可視化了商業(yè)大模型的輸出結(jié)果,如圖 5 所示,可以看出商業(yè)大模型輸出了他們想要的目標(biāo)語義。

圖片

圖 5:商業(yè)大模型上攻擊的可視化結(jié)果

防御能力比較

圖片

表 3:防御實(shí)驗(yàn)的比較結(jié)果。

防御方法可以大致分為對(duì)抗訓(xùn)練和數(shù)據(jù)預(yù)處理。由于對(duì)抗性訓(xùn)練的高時(shí)間、資源成本和不穩(wěn)定性,尚未應(yīng)用于 VLM 防御。相比之下,數(shù)據(jù)預(yù)處理是獨(dú)立于模型和高度適應(yīng)性的,使其成為跨各種模型的流行防御策略。

為了證明本文的方法在抵抗數(shù)據(jù)預(yù)處理攻擊方面的有效性,作者對(duì)位縮減、STL、JPEG 壓縮、DISCO、DISCO+JPEG 和 DiffPure 進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表 3 所示,本文的方法在所有的防御實(shí)驗(yàn)中都優(yōu)于 baseline。

圖像質(zhì)量比較

圖片

表 4:圖像質(zhì)量的比較結(jié)果

圖片

圖 6:圖像質(zhì)量比較。

對(duì)抗樣本的圖像質(zhì)量同樣至關(guān)重要,質(zhì)量較差的對(duì)抗樣本容易被檢測(cè)到。作者使用四個(gè)評(píng)估指標(biāo)來進(jìn)一步評(píng)估生成對(duì)抗樣本的圖像質(zhì)量:SSIM、FID、LPIPS 和 BRISQUE。

正如表 4 所示,與 baseline 相比,本文方法生成的對(duì)抗樣本具有更高的圖像質(zhì)量。具體來說,在 SSIM、LPIPS 和 FID 評(píng)估指標(biāo)上,本文的方法顯著優(yōu)于基準(zhǔn)方法。而在 BRISQUE 指標(biāo)上,AdvDiffuser 的表現(xiàn)優(yōu)于本文的方法。這是因?yàn)?BRISQUE 是一種無需參考的圖像質(zhì)量評(píng)估算法,對(duì)模糊、噪聲、色彩變化等非常敏感。正如圖 6 所示,AdvDiffuser 生成的對(duì)抗樣本在這些元素上缺乏明顯異常,因此其結(jié)果略優(yōu)于本文的方法。然而,從圖 6 可以看出,本文方法引入的擾動(dòng)是語義性的,而 AdvDiffuser 顯著改變了非顯著區(qū)域,導(dǎo)致較差的視覺效果。這表明 AdvDiffuser 生成的對(duì)抗樣本不適用于更復(fù)雜的場景,例如攻擊 VLMs。此外,基于遷移的方法生成的對(duì)抗樣本中存在顯著噪聲,這進(jìn)一步表明本文的方法在圖像質(zhì)量方面具有明顯優(yōu)勢(shì)。

結(jié)語

在本研究中,作者提出了 AdvDiffVLM,一種針對(duì)視覺語言模型(VLMs)的無約束且具有針對(duì)性的對(duì)抗樣本生成方法。他們基于 score matching 的思想設(shè)計(jì)了 自適應(yīng)集成梯度估計(jì)模塊(AEGE),將目標(biāo)語義嵌入到對(duì)抗樣本中,從而能夠更高效地生成具有增強(qiáng)遷移性的針對(duì)性對(duì)抗樣本。為平衡對(duì)抗樣本的質(zhì)量與攻擊效果,作者提出了 GradCAM 引導(dǎo)的掩碼生成模塊(GCMG)。此外,通過多次迭代,他們進(jìn)一步加強(qiáng)了目標(biāo)語義在對(duì)抗樣本中的嵌入效果。大量實(shí)驗(yàn)表明,與基準(zhǔn)方法相比,他們的方法生成針對(duì)性對(duì)抗樣本的速度提高了 5 至 10 倍,同時(shí)實(shí)現(xiàn)了更優(yōu)的遷移性。

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2025-01-23 10:45:52

2023-04-27 13:06:46

AI手機(jī)模型

2023-08-10 08:46:52

2024-09-29 10:40:00

數(shù)據(jù)模型

2022-12-08 13:00:10

AI性別偏見

2025-02-06 07:26:35

2024-08-28 14:00:00

AI數(shù)據(jù)

2025-02-07 10:10:05

MusicMagus擴(kuò)散模型音樂編輯

2024-02-21 12:10:00

模型數(shù)據(jù)

2025-03-07 09:24:00

2019-04-26 12:36:03

2023-12-29 13:18:23

模型NeRFTICD

2024-09-03 14:10:00

模型測(cè)試

2014-05-19 09:25:33

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡(luò)AI算法

2023-09-25 10:04:37

模型AI

2021-08-19 15:48:05

增量攻擊網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2025-02-25 10:04:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)