自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華團隊攻破GPT-4V、谷歌Bard等模型,商用多模態(tài)大模型也脆弱?

人工智能 新聞
為了更好地理解商用 MLLMs 的漏洞,清華朱軍教授領銜的人工智能基礎理論創(chuàng)新團隊圍繞商用 MLLM 的對抗魯棒性展開了研究。

GPT-4 近日開放了視覺模態(tài)(GPT-4V)。以 GPT-4V、谷歌 Bard 為代表的多模態(tài)大語言模型 (Multimodal Large Language Models, MLLMs) 將文本和視覺等模態(tài)相結(jié)合,在圖像描述、視覺推理等各種多模態(tài)任務中展現(xiàn)出了優(yōu)異的性能。然而,視覺模型長久以來存在對抗魯棒性差的問題,而引入視覺模態(tài)的 MLLMs 在實際應用中仍然存在這一安全風險。最近一些針對開源 MLLMs 的研究已經(jīng)證明了該漏洞的存在,但更具挑戰(zhàn)性的非開源商用 MLLMs 的對抗魯棒性還少有人探索。

為了更好地理解商用 MLLMs 的漏洞,清華朱軍教授領銜的人工智能基礎理論創(chuàng)新團隊圍繞商用 MLLM 的對抗魯棒性展開了研究。盡管 GPT-4V、谷歌 Bard 等模型開放了多模態(tài)接口,但其內(nèi)部模型結(jié)構(gòu)和訓練數(shù)據(jù)集仍然未知,且配備了復雜的防御機制。盡管如此,研究發(fā)現(xiàn),通過攻擊白盒圖像編碼器或 MLLMs,生成的對抗樣本可以誘導黑盒的商用 MLLMs 輸出錯誤的圖像描述,針對 GPT-4V 的攻擊成功率達到 45%,Bard 的攻擊成功率達到 22%,Bing Chat 的攻擊成功率達到 26%。同時,團隊還發(fā)現(xiàn),通過對抗攻擊可以成功繞過 Bard 等模型對于人臉檢測和圖像毒性檢測等防御機制,導致模型出現(xiàn)安全風險。

圖片

  • 論文鏈接:https://arxiv.org/abs/2309.11751
  • 代碼鏈接:https://github.com/thu-ml/ares/tree/attack_bard

圖片

圖 1:對抗攻擊多模態(tài)大模型示例,可以使模型產(chǎn)生錯誤預測或者繞過安全性檢測模塊

下圖展示了針對 Bard 的攻擊測試。當輸入自然樣本圖片時,Bard 可以正確描述出圖片中的主體(“a panda’s face(一個熊貓的臉)”);當輸入對抗樣本時,Bard 會將該圖片的主體錯分類為 “a woman’s face(一個女人的臉)”。

圖片

對抗攻擊方法

MLLMs 通常使用視覺編碼器提取圖像特征,然后將圖像特征通過對齊后輸入大語言模型生成相應的文本描述。因此該研究團隊提出了兩種對抗攻擊 MLLMs 的方法:圖像特征攻擊、文本描述攻擊。圖像特征攻擊使對抗樣本的特征偏離原始圖像的特征,因為如果對抗樣本可以成功破壞圖像的特征表示,則生成的文本將不可避免地受到影響。另一方面,文本描述攻擊直接針對整個流程進行攻擊,使生成的描述與正確的描述不同。

圖像特征攻擊:令 圖片 表示自然樣本,圖片 表示替代圖像編碼器的集合,則圖像特征攻擊的目標函數(shù)可以表示為:

圖片

其中,通過最大化對抗樣本 x 和自然樣本 圖片 的圖像特征之間的距離進行優(yōu)化,同時還確保 x 和 圖片 之間的 圖片 距離小于擾動規(guī)模圖片。

文本描述攻擊:令 圖片 表示替代 MLLMs 的集合,其中 圖片 可以在給定圖片 x ,文本提示 p 以及之前預測的詞 圖片 時,預測出下一個詞圖片的概率分布,表示為 圖片。因此,文本描述攻擊可以表述為最大化預測目標句子 圖片的對數(shù)似然:

圖片

值得注意的是文本描述攻擊是針對給定目標句子的有目標攻擊,而不是最小化真實描述的對數(shù)似然的無目標攻擊,這是因為存在對圖像的多個正確描述。

攻擊方法:為了解決上述對抗樣本的優(yōu)化問題,該研究團隊采用了自研的目前遷移性最好的對抗攻擊方法 Common Weakness Attack (CWA)[1]。

數(shù)據(jù)集:在 NIPS17 數(shù)據(jù)集 [2] 中隨機選取 100 張圖片作為自然樣本。

替代模型:對于圖像特征攻擊選用的替代模型為 ViT-B/16、CLIP 和 BLIP-2 的圖像編碼器;對于文本描述攻擊選用 BLIP-2、InstructBLIP 和 MiniGPT-4。

評價指標:測量攻擊成功率來評估的魯棒性。認為只有當圖像中的主體被錯誤地預測時,攻擊才成功,其他錯誤的細節(jié),如幻覺,物體計數(shù),顏色或背景,被認為是不成功的攻擊。

下圖分別展示了針對 GPT-4V、Bard、Bing Chat 上對抗樣本攻擊成功的示例。

圖 2:攻擊 GPT-4V 示例,將羚羊描述為手。

圖片

圖 3:攻擊 Bard 示例,將大熊貓描述為女人的臉

圖片

圖 4:攻擊 Bing Chat 示例,將白頭雕識別為貓和狗

圖片

圖 5:攻擊文心一言示例,將咖啡識別為手表

下表中展示了上述方法針對不同商用模型的攻擊成功率??梢钥吹?,Bing Chat 存在很大的幾率拒絕回答帶有噪聲的圖像。整體上谷歌 Bard 的魯棒性最好。

圖片

表 1:針對商用多模態(tài)大模型的攻擊效果

針對 Bard 防御機制的攻擊

在該研究團隊對 Bard 的評估中,發(fā)現(xiàn) Bard 部署了(至少)兩種防御機制,包括人臉檢測和毒性檢測。Bard 將直接拒絕包含人臉或有毒內(nèi)容的圖像(例如,暴力、血腥或色情圖像)。這些防御機制被部署以保護人類隱私并避免濫用。然而,對抗攻擊下的防御魯棒性是未知的。因此,該研究團隊針對這兩種防御機制進行了評估。

人臉檢測器攻擊:為了使 Bard 的人臉檢測器無法識別到對抗樣本中的人臉并輸出帶有人臉信息的預測,研究者針對白盒人臉檢測器進行攻擊,降低模型對人臉圖像的識別置信度。攻擊方法仍然采用 CWA 方法,在 LFW 和 FFHQ 等數(shù)據(jù)集上進行實驗。

下圖為人臉對抗樣本在 Bard 上攻擊成功的示例??傮w上對 Bard 人臉檢測模塊的對抗攻擊成功率達到了 38%,即有 38% 的人臉圖片無法被 Bard 檢測到,并輸出對應的描述。

圖片

圖 6:攻擊 Bard 的人臉檢測模型

毒性檢測器攻擊:為了防止提供對有毒圖像的描述,Bard 采用毒性檢測器來過濾掉此類圖像。為了攻擊它,需要選擇某些白盒毒性檢測器作為替代模型。該研究團隊發(fā)現(xiàn)一些現(xiàn)有的毒性檢測器是預訓練視覺模型 CLIP 上進行微調(diào)得到的。針對這些替代模型的攻擊,只需要擾動這些預訓練模型的特征即可。因此,可以采用與圖像特征攻擊完全相同的目標函數(shù)。并使用相同的攻擊方法 CWA。

該研究團隊手動收集了一組 100 張含有暴力、血腥或色情內(nèi)容的有毒圖像,對 Bard 的毒性探測器的攻擊成功率達到 36%。如下圖所示,毒性檢測器不能識別具有對抗性噪聲的毒性圖像。因此,Bard 為這些圖像提供了不適當?shù)拿枋?。該實驗強調(diào)了惡意攻擊者利用 Bard 生成有害內(nèi)容的不合適描述的可能性。

圖片

圖 7:攻擊 Bard 的毒性檢測模型

討論與總結(jié)

上述研究表明,通過使用最先進的基于遷移的攻擊來優(yōu)化圖像特征或文本描述的目標,目前主流的商用多模態(tài)大模型也會被成功的欺騙誤導。作為大型基礎模型(例如,ChatGPT、Bard)已經(jīng)越來越多地被人類用于各種任務,它們的安全問題成為公眾關注的一個大問題。對抗攻擊技術還可以破壞 LLM 的安全與對齊,帶來更加嚴重的安全性問題。

此外,為保證大模型的安全性,需要針對性進行防御。經(jīng)典的對抗訓練方法由于計算成本較高,應用于大規(guī)模預訓練模型較為困難。而基于圖像預處理的防御更適合于大模型,可以通過即插即用的方式使用。一些最近的工作利用了先進的生成模型(例如,擴散模型)以凈化對抗擾動(例如,似然最大化 [3]),這可以作為防御對抗樣本的有效策略,但是總體來說如何提升大模型的魯棒性和抗干擾能力,仍然是一個開放的問題,尚有很大的探索和提升空間。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-12 13:05:00

谷歌AI

2024-01-03 12:56:39

2024-02-02 21:53:58

AI訓練

2024-04-14 19:53:44

2023-10-12 09:28:17

2024-06-04 14:11:00

2024-06-27 13:10:21

2023-10-10 13:42:56

訓練數(shù)據(jù)

2023-08-30 13:23:00

模型訓練

2025-01-08 08:21:16

2024-06-11 08:16:00

2024-05-11 07:00:00

GPT4VGemini大模型

2023-04-28 15:27:06

微軟模型

2023-09-19 13:48:31

AI數(shù)據(jù)

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2023-09-20 08:55:00

模型工具

2024-06-12 11:50:23

2023-05-19 13:01:10

ChatGPT模型

2023-10-08 13:43:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號