谷歌DeepMind最新研究:對抗性攻擊對人類也有效,人類和AI都會把花瓶認(rèn)成貓!
人類的神經(jīng)網(wǎng)絡(luò)(大腦)和人工神經(jīng)網(wǎng)絡(luò)(ANN)的關(guān)系是什么?
有位老師曾經(jīng)這樣比喻:就像是老鼠和米老鼠的關(guān)系。
現(xiàn)實(shí)中的神經(jīng)網(wǎng)絡(luò)功能強(qiáng)大,但與人類的感知、學(xué)習(xí)和理解方式完全不同。
比如ANN表現(xiàn)出人類感知中通常沒有的脆弱性,它們?nèi)菀资艿綄剐詳_動的影響。
一個圖像,可能只需修改幾個像素點(diǎn)的值,或者添加一些噪聲數(shù)據(jù),
從人類的角度,觀察不到區(qū)別,而對于圖像分類網(wǎng)絡(luò),就會識別成完全無關(guān)的類別。
不過,谷歌DeepMind的最新研究表明,我們之前的這種看法可能是錯誤的!
即使是數(shù)字圖像的細(xì)微變化也會影響人類的感知。
換句話說,人類的判斷也會受到這種對抗性擾動的影響。
論文地址:https://www.nature.com/articles/s41467-023-40499-0
谷歌DeepMind的這篇文章發(fā)表在《自然通訊》(Nature Communications)。
論文探索了人類是否也可能在受控測試條件下,表現(xiàn)出對相同擾動的敏感性。
通過一系列實(shí)驗,研究人員證明了這一點(diǎn)。
同時,這也顯示了人類和機(jī)器視覺之間的相似性。
對抗性圖像
對抗性圖像是指對圖像進(jìn)行微妙的更改,從而導(dǎo)致AI模型對圖像內(nèi)容進(jìn)行錯誤分類,——這種故意欺騙被稱為對抗性打擊。
例如,攻擊可以有針對性地使AI模型將花瓶歸類為貓,或者是除花瓶之外的任何東西。
上圖展示了對抗性攻擊的過程(為了便于人類觀察,中間的隨機(jī)擾動做了一些夸張)。
在數(shù)字圖像中,RGB圖像中的每個像素的取值在0-255之間(8位深度時),數(shù)值表示單個像素的強(qiáng)度。
而對于對抗攻擊來說,對于像素值的改變在很小的范圍內(nèi),就可能達(dá)到攻擊效果。
在現(xiàn)實(shí)世界中,對物理對象的對抗性攻擊也可能成功,例如導(dǎo)致停車標(biāo)志被誤識別為限速標(biāo)志。
所以,出于安全考慮,研究人員已經(jīng)在研究抵御對抗性攻擊和降低其風(fēng)險的方法。
對抗性影響人類感知
先前的研究表明,人們可能對提供清晰形狀線索的大幅度圖像擾動很敏感。
然而,更細(xì)致的對抗性攻擊對人類有何影響?人們是否將圖像中的擾動視為無害的隨機(jī)圖像噪聲,它會影響人類的感知嗎?
為了找到答案,研究人員進(jìn)行了受控行為實(shí)驗。
首先拍攝一系列原始圖像,并對每張圖像進(jìn)行了兩次對抗性攻擊,以產(chǎn)生多對擾動圖像。
在下面的動畫示例中,原始圖像被模型歸類為「花瓶」。
而由于對抗性攻擊,模型以高置信度將受到干擾的兩幅圖像進(jìn)行錯誤分類,分別為「貓」和「卡車」。
接下來,向人類參與者展示這兩張圖片,并提出了一個有針對性的問題:哪張圖片更像貓?
雖然這兩張照片看起來都不像貓,但他們不得不做出選擇。
通常,受試者認(rèn)為自己隨意做出了選擇,但事實(shí)果真如此嗎?
如果大腦對微妙的對抗性攻擊不敏感,則受試者選擇每張圖片的概率為50%。
然而實(shí)驗發(fā)現(xiàn),選擇率(即人的感知偏差)要實(shí)實(shí)在在的高于偶然性(50%),而且實(shí)際上圖片像素的調(diào)整是很少的。
從參與者的角度來看,感覺就像他們被要求區(qū)分兩個幾乎相同的圖像。然而,之前的研究表明,人們在做出選擇時會利用微弱的感知信號,——盡管這些信號太弱而無法表達(dá)信心或意識。
在這個的例子中,我們可能會看到一個花瓶,但大腦中的一些活動告訴我們,它有貓的影子。
上圖展示了成對的對抗圖像。最上面的一對圖像受到微妙的擾動,最大幅度為2個像素,導(dǎo)致神經(jīng)網(wǎng)絡(luò)將它們分別錯誤地分類為「卡車」和「貓」。(志愿者被問到「哪個更像貓?」)
下邊的一對圖像擾動更明顯,最大幅度為16像素,被神經(jīng)網(wǎng)絡(luò)錯誤地歸類為「椅子」和「羊」。(這次的問題是「哪個更像綿羊?」)
在每個實(shí)驗中,參與者在一半以上的時間里可靠地選擇了與目標(biāo)問題相對應(yīng)的對抗圖像。雖然人類視覺不像機(jī)器視覺那樣容易受到對抗性擾動的影響,但這些擾動仍然會使人類偏向于機(jī)器做出的決定。
如果人類的感知可能會受到對抗性圖像的影響,那么這將是一個全新的但很關(guān)鍵的安全問題。
這需要我們深入研究探索人工智能視覺系統(tǒng)行為和人類感知的異同,并構(gòu)建更安全的人工智能系統(tǒng)。
論文細(xì)節(jié)
生成對抗性擾動的標(biāo)準(zhǔn)程序從預(yù)訓(xùn)練的ANN分類器開始,該分類器將RGB圖像映射到一組固定類上的概率分布。
對圖像的任何更改(例如增加特定像素的紅色強(qiáng)度)都會對輸出概率分布產(chǎn)生輕微變化。
對抗性圖像通過搜索(梯度下降)來獲得原始圖像的擾動,該擾動導(dǎo)致 ANN 降低分配給正確類別的概率(非針對性攻擊)或?qū)⒏吒怕史峙浣o某些指定的替代類別(針對性攻擊)。
為了確保擾動不會偏離原始圖像太遠(yuǎn),在對抗性機(jī)器學(xué)習(xí)文獻(xiàn)中經(jīng)常應(yīng)用L (∞) 范數(shù)約束,指定任何像素都不能偏離其原始值超過±ε,ε通常遠(yuǎn)小于 [0–255] 像素強(qiáng)度范圍。
該約束適用于每個RGB顏色平面中的像素。雖然這種限制并不能阻止個體檢測到圖像的變化,但通過適當(dāng)選擇ε,在受擾動的圖像中指示原始圖像類別的主要信號大多完好無損。
實(shí)驗
在最初的實(shí)驗中,作者研究了人類對短暫、遮蔽的對抗性圖像的分類反應(yīng)。
通過限制暴露時間來增加分類錯誤,該實(shí)驗旨在提高個體對刺激物某些方面的敏感度,否則這些刺激物可能不會影響分類決策。
對真實(shí)類別T的圖像進(jìn)行了對抗性擾動,通過對擾動進(jìn)行優(yōu)化,使ANN傾向于將圖像錯誤分類為A。參與者被要求在T和A之間做出強(qiáng)制選擇。
研究人員還在對照圖像上對參與者進(jìn)行了測試,對照圖像是通過自上而下翻轉(zhuǎn)在A條件下獲得的對抗性擾動圖像形成的。
這種簡單的轉(zhuǎn)換打破了對抗性擾動與圖像之間像素到像素的對應(yīng)關(guān)系,在很大程度上消除了對抗性擾動對ANN的影響,同時保留了擾動的規(guī)范和其他統(tǒng)計數(shù)據(jù)。
結(jié)果表明,與對照組圖像相比,參與者更有可能將擾動圖像判斷為A類別。
上面的實(shí)驗1使用了簡短的遮蔽演示,以限制原始圖像類別(主要信號)對反應(yīng)的影響,從而揭示對對抗性擾動(從屬信號)的敏感性。
研究人員還設(shè)計了另外三個具有相同目標(biāo)的實(shí)驗,但避免了大范圍擾動和有限曝光觀看的需要。
在這些實(shí)驗中,圖像中的主要信號不能系統(tǒng)地引導(dǎo)反應(yīng)選擇,從而使從屬信號的影響得以顯現(xiàn)。
在每個實(shí)驗中,都會出現(xiàn)一對幾乎相同的未遮蔽刺激物,并且在選擇反應(yīng)之前一直保持可見。這對刺激物具有相同的主導(dǎo)信號,它們都是對同一底層圖像的調(diào)制,但具有不同的從屬信號。參與者需要選擇更像目標(biāo)類別實(shí)例的圖像。
在實(shí)驗2中,兩個刺激物都是屬于T類的圖像,其中一個經(jīng)過擾動,ANN預(yù)測它更像T類,另一個經(jīng)過擾動,被預(yù)測為更不像T類。
在實(shí)驗3中,刺激物是一幅屬于真實(shí)類別T的圖像,其中一幅被擾動以改變ANN的分類,使其向目標(biāo)對抗類別A靠攏,另一幅則使用相同的擾動,但左右翻轉(zhuǎn)作為對照條件。
這種對照的作用是保留擾動的規(guī)范和其他統(tǒng)計量,但比實(shí)驗1中的對照更為保守,因為圖像的左右兩邊可能比圖像的上下部分具有更相似的統(tǒng)計量。
實(shí)驗4中的一對圖像也是對真實(shí)類別T的調(diào)制,一個被擾動得更像A類,一個更像第三類。試驗交替要求參與者選擇更像A的圖像,或者更像第三類的圖像。
在實(shí)驗2-4中,每張圖像的人類感知偏差與ANN的偏差顯著正相關(guān)。擾動幅度從2到16不等,小于以前對人類參與者研究的擾動,并且與對抗性機(jī)器學(xué)習(xí)研究中使用的擾動相似。
令人驚訝的是,即使是2個像素強(qiáng)度水平的擾動也足以可靠地影響人類感知。
實(shí)驗2的優(yōu)勢在于要求參與者做出直覺判斷(例如,兩張被擾動的貓圖像中哪一個更像貓);
然而,實(shí)驗2允許對抗性擾動僅通過銳化或模糊圖像,即可使圖像或多或少像貓一樣。
實(shí)驗3的優(yōu)勢在于,匹配了所比較的擾動的所有統(tǒng)計數(shù)據(jù),而不僅僅是擾動的最大幅度。
但是,匹配擾動統(tǒng)計并不能確保擾動在添加到圖像中時同樣可感知,因此,參與者可能根據(jù)圖像失真進(jìn)行選擇。
實(shí)驗4的優(yōu)勢在于,它證明了參與者對被問的問題很敏感,因為相同的圖像對會根據(jù)提出的問題產(chǎn)生系統(tǒng)性不同的回答。
然而,實(shí)驗4要求參與者回答一個看似荒謬的問題(例如,兩個煎蛋卷圖像中的哪一個看起來更像貓?),導(dǎo)致問題解釋方式的可變性。
綜上所述,實(shí)驗2-4提供了趨于一致的證據(jù),表明即使擾動幅度非常小,且觀看時間不受限制,對人工智能網(wǎng)絡(luò)產(chǎn)生強(qiáng)烈影響的從屬對抗信號,也會在相同方向上影響人類的感知和判斷。
此外,延長觀察時間(自然感知的環(huán)境),是對抗性擾動產(chǎn)生實(shí)際后果的關(guān)鍵。