自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

避免自動駕駛事故,CV領(lǐng)域如何檢測物理攻擊?

人工智能 無人駕駛 智能汽車
對抗性攻擊的概念首先由 Goodfellow 等人提出 [6],近年來,這一問題引起了越來越多研究人員的關(guān)注,對抗性攻擊的方法也逐漸從算法領(lǐng)域進入到物理世界,出現(xiàn)了物理對抗性攻擊。

 

對抗性攻擊的概念首先由 Goodfellow 等人提出 [6],近年來,這一問題引起了越來越多研究人員的關(guān)注,對抗性攻擊的方法也逐漸從算法領(lǐng)域進入到物理世界,出現(xiàn)了物理對抗性攻擊。文獻[1] 中首次提出了利用掩模方法將對抗性擾動集中到一個小區(qū)域,并對帶有涂鴉的真實交通標志實施物理攻擊。與基于噪聲的對抗性攻擊相比,物理攻擊降低了攻擊難度,進一步損害了深度學習技術(shù)的實用性和可靠性。

我們都知道,深度學習系統(tǒng)在計算機視覺、語音等多媒體任務(wù)上都取得了非常好的效果,在一些應(yīng)用場景中甚至獲得了可以與人類相媲美的性能?;谶@些成功的研究基礎(chǔ),越來越多的深度學習系統(tǒng)被應(yīng)用于汽車、無人機和機器人等物理系統(tǒng)的控制。但是,隨著物理攻擊方法的出現(xiàn),這些對視覺、語音等多媒體信息輸入進行的篡改會導(dǎo)致系統(tǒng)出現(xiàn)錯誤行為,進而造成嚴重的后果。本文重點關(guān)注的就是針對多媒體領(lǐng)域的深度學習系統(tǒng)的物理攻擊問題。

以 [1] 中給出的針對視覺領(lǐng)域的攻擊為例,通過向輸入數(shù)據(jù)注入特定的擾動,對抗性攻擊可以誤導(dǎo)深度學習系統(tǒng)的識別結(jié)果。通過物理攻擊性方法,對抗性擾動可以集中到一個小區(qū)域并附著在真實物體上,這很容易威脅到物理世界中的深度學習識別系統(tǒng)。圖 1 給出一個應(yīng)對物理攻擊的實際案例。圖 1 中左圖顯示了一個關(guān)于交通標志檢測的物理對抗樣本。當在原始停車標志上附加一個對抗補丁時,交通標志檢測系統(tǒng)將被誤導(dǎo)輸出限速標志的錯誤識別結(jié)果。圖 1 右圖展示了交通標志對抗性攻擊的自我驗證過程。對于每張輸入圖像,經(jīng)過一次 CNN 推理后,驗證階段將定位重要的激活源(綠圈),并根據(jù)預(yù)測結(jié)果計算出輸入語義與預(yù)期語義模式的不一致性(右圈)。一旦不一致性超過預(yù)定的閾值,CNN 將進行數(shù)據(jù)恢復(fù)過程以恢復(fù)輸入圖像。關(guān)于這一過程,我們會在后面詳細解釋。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 1. 交通標志的物理對抗性攻擊[2]

圖 2 給出一個典型的音頻識別過程和相應(yīng)的物理對抗性攻擊。首先,提取音頻波形的梅爾倒譜系數(shù) MeI-Freguency CeptraI Coefficients (MFCC) 特征。然后利用 CNN 來實現(xiàn)聲學特征識別,從而獲得候選音素。最后,應(yīng)用詞庫和語言模型得到識別結(jié)果 "open"。將對抗性噪聲注入到原始輸入波形中時,最終的識別結(jié)果會被誤導(dǎo)為 "close"。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 2. 音頻識別和物理對抗性攻擊過程

我們在這篇文章中結(jié)合三篇最新的論文具體討論計算機視覺領(lǐng)域中的物理攻擊及檢測方法,包括視覺領(lǐng)域和音頻領(lǐng)域。首先,我們介紹 Kevin Eykholt 等在 CVPR 2018 上發(fā)表的關(guān)于生成魯棒物理攻擊的工作,其主要目的是生成對觀察攝像機的距離和角度的巨大變化具有很強的適應(yīng)性的物理擾動攻擊。然后,第二篇論文提出了一個針對圖像和音頻識別應(yīng)用的物理對抗性攻擊的 CNN 防御方法。最后,第三篇文章聚焦于圖像的局部物理攻擊問題,即將對手區(qū)域限制在圖像的一小部分,例如 “對手補丁” 攻擊:

  • Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018
  • LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,ASP-DAC 2020
  • Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. PrePrint 2020. https://arxiv.org/abs/1812.00292

1、針對深度學習視覺分類任務(wù)的魯棒物理攻擊[1]

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

這篇文章重點關(guān)注的是如何對計算機視覺任務(wù)的深度學習方法進行魯棒的物理攻擊,是從攻擊角度進行的分析。作者具體選擇了道路標志分類作為目標研究領(lǐng)域。

生成魯棒的物理攻擊所面臨的的主要挑戰(zhàn)是環(huán)境變異性。對于本文選擇的應(yīng)用領(lǐng)域,動態(tài)環(huán)境變化具體是指觀察攝像機的距離和角度。此外,生成物理攻擊還存在其他實用性的挑戰(zhàn):(1) 數(shù)字世界的擾動幅度可能非常小,由于傳感器的不完善,相機很可能無法感知它們。(2)構(gòu)建能夠修改背景的魯棒性攻擊是非常困難的,因為真實的物體取決于視角的不同可以有不同的背景。(3)具體制造攻擊的過程(如擾動的打?。┦遣煌晟频?。在上述挑戰(zhàn)的啟發(fā)下,本文提出了 Robust Physical Perturbations(RP2)--- 一種可以產(chǎn)生對觀察攝像機的廣泛變化的距離和角度魯棒的擾動方法。本文目標是從攻擊角度進行研究,探討是否能夠針對現(xiàn)實世界中的物體創(chuàng)建強大的物理擾動,使得即使是在一系列不同的物理條件下拍攝的圖像,也會誤導(dǎo)分類器做出錯誤的預(yù)測。

1.1 物理世界的挑戰(zhàn)

對物體的物理攻擊必須能夠在不斷變化的條件下存在,并能有效地欺騙分類器。本文具體圍繞所選擇的道路標志分類的例子來討論這些條件。本文的研究內(nèi)容可以應(yīng)用于自動駕駛汽車和其他安全敏感領(lǐng)域,而本文分析的這些條件的子集也可以適用于其他類型的物理學習系統(tǒng),例如無人機和機器人。

為了成功地對深度學習分類器進行物理攻擊,攻擊者應(yīng)該考慮到下述幾類可能會降低擾動效果的物理世界變化。

環(huán)境條件。自主車輛上的攝像頭與路標的距離和角度不斷變化。獲取到的被送入分類器的圖像是在不同的距離和角度拍攝的。因此,攻擊者在路標上添加的任何擾動都必須能夠抵抗圖像的這些轉(zhuǎn)換。除角度和距離外,其他環(huán)境因素還包括照明 / 天氣條件的變化以及相機上或路標上存在的碎片。

空間限制。目前專注于數(shù)字圖像的算法會將對抗性擾動添加到圖像的所有部分,包括背景圖像。然而,對于實體路牌,攻擊者并不能操縱背景圖像。此外,攻擊者也不能指望有一個固定的背景圖像,因為背景圖像會根據(jù)觀看攝像機的距離和角度而變化。

不易察覺性的物理限制。目前對抗性深度學習算法的一個優(yōu)點是,它們對數(shù)字圖像的擾動往往非常小,以至于人類觀察者幾乎無法察覺。然而,當把這種微小的擾動遷移到現(xiàn)實世界時,我們必須確保攝像機能夠感知這些擾動。因此,對不可察覺的擾動是有物理限制的,并且取決于傳感硬件。

制造誤差。為了實際制造出計算得到的擾動,所有的擾動值都必須是可以在現(xiàn)實世界中復(fù)制實現(xiàn)的。此外,即使一個制造設(shè)備,如打印機,確實能夠產(chǎn)生某些顏色,但也會有一些復(fù)制誤差。

1.2 生成魯棒的物理擾動

作者首先分析不考慮其它物理條件的情況下生成單一圖像擾動的優(yōu)化方法,然后再考慮在出現(xiàn)上述物理世界挑戰(zhàn)的情況下如何改進算法以生成魯棒的物理擾動。

單一圖像優(yōu)化問題表述為:在輸入 x 中加入擾動δ,使擾動后的實例 x’=x+δ能夠被目標分類器 f_θ(·)錯誤分類:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,H 為選定的距離函數(shù),y * 為目標類別。為了有效解決上述約束性優(yōu)化問題,作者利用拉格朗日松弛形式重新表述上式:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,J(·,·)為損失函數(shù),其作用是衡量模型的預(yù)測和目標類別標簽 y * 之間的差異。λ為超參數(shù),用于控制失真的正則化水平。作者將距離函數(shù) H 表征為 ||δ||_p,即δ的 Lp 范數(shù)。

接下來,作者具體討論如何修改目標函數(shù)以考慮物理環(huán)境條件的影響。首先,對包含目標對象 o 的圖像在物理和數(shù)字變換下的分布進行建模 X^V 。我們從 X^V 中抽出不同的實例 x_i。一個物理擾動只能添加到 x_i 中的特定對象 o。具體到路標分類任務(wù)中,我們計劃控制的對象 o 是停車標志。

為了更好地捕捉變化的物理條件的影響,作者通過生成包含實際物理條件變化的實驗數(shù)據(jù)以及合成轉(zhuǎn)換,從 X^V 中對實例 x_i 進行采樣。圖 3 中給出了以道路標識為例的魯棒物理攻擊(Robust Physical Perturbations ,RP2)過程示例。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 3. RP2 示例。輸入一個目標停止標志。RP2 從一個模擬物理動態(tài)的分布中取樣(在本例中是不同的距離和角度),并使用一個掩模將計算出的擾動投射到一個類似于涂鴉的形狀上。攻擊者打印出所產(chǎn)生的擾動,并將其貼在目標停止標志上。

本文所討論的道路標志的物理條件涉及在各種條件下拍攝道路標志的圖像,如改變距離、角度和光照等。而對于合成轉(zhuǎn)換,作者隨機裁剪圖像中的物體,改變其亮度,并增加空間變換以模擬其他可能的條件。為了確保擾動只適用于目標對象的表面區(qū)域 o(考慮到空間限制和對不可知性的物理限制),作者引入了一個掩模。該掩模的作用是將計算出的擾動投射到物體表面的一個物理區(qū)域(如路標)。除了實現(xiàn)空間定位外,掩模還有助于生成對人類觀察者來說可見但不明顯的擾動。為了做到這一點,攻擊者可以將掩模塑造得像一個涂鴉—- 一種在大街上很常見的破壞行為。從形式上看,將擾動掩模表征為一個矩陣 M_x,其尺寸與路標分類器的輸入尺寸相同。M_x 在沒有添加擾動的區(qū)域為“0”,在優(yōu)化期間添加擾動的區(qū)域中為“1”。作者表示,在他們進行實驗的過程中發(fā)現(xiàn)掩模的位置對攻擊的有效性是有影響的。因此,作者假設(shè),從分類的角度來看物體的物理特征有強有弱,因此,可以將掩模定位在攻擊薄弱的地方。具體來說,作者使用下述方法來發(fā)現(xiàn)掩模位置。(1) 使用 L1 正則化計算擾動,并使用占據(jù)整個道路標志表面區(qū)域的掩模。L1 使優(yōu)化器傾向于稀疏的擾動向量,因此將擾動集中在最脆弱的區(qū)域。對所產(chǎn)生的擾動進行可視化處理,為掩模的放置位置提供指導(dǎo)。(2) 使用 L2 重新計算擾動,并將掩模定位在先前步驟中確定的脆弱區(qū)域上。

考慮到在實際應(yīng)用中會存在制造誤差,作者在目標函數(shù)中增加了一個額外的項,該項用來模擬打印機的顏色復(fù)制誤差。給定一組可打印的顏色(RGB 三元組)P 和一組在擾動中使用的、需要在物理世界中打印出來的(唯一的)RGB 三元組 R(δ),利用下式計算不可打印性得分 non-printability score (NPS):

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

基于上述討論,本文最終的魯棒空間約束擾動優(yōu)化為:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

這里我們用函數(shù) T_i( )來表示對齊函數(shù),它將物體上的變換映射到擾動的變換上。

最后,攻擊者打印出優(yōu)化結(jié)果,剪下擾動(M_x),并將其放到目標對象 o 上。

1.3 實驗分析

實驗構(gòu)建了兩個用于路標分類的分類器,執(zhí)行的是標準的裁剪 - 重新確定大小 - 分類的任務(wù)流程。第一個分類器 LISA-CNN 對應(yīng)的實驗訓(xùn)練圖像來自于 LISA,一個包含 47 個不同道路標志的美國交通標志數(shù)據(jù)集。不過,這個數(shù)據(jù)集并不平衡,導(dǎo)致不同標志的表述有很大差異。為了應(yīng)對這個問題,作者根據(jù)訓(xùn)練實例的數(shù)量,選擇了 17 個最常見的標志。實驗中使用的深度學習 LISA-CNN 的架構(gòu)由三個卷積層和一個 FC 層組成。它在測試集上的準確度為 91%。

第二個分類器是 GTSRB-CNN,它是在德國交通標志識別基準(GTSRB)上訓(xùn)練得到的。深度學習方法使用了一個公開的多尺度 CNN 架構(gòu),該架構(gòu)在路標識別方面表現(xiàn)良好。由于作者在實際實驗中無法獲得德國的停車標志,因此使用 LISA 中的美國停車標志圖像替換了 GTSRB 的訓(xùn)練、驗證和測試集中的德國停車標志。GTSRB-CNN 在測試集上準確度為 95.7%。當在作者自己構(gòu)建的 181 個停車標志圖像上評估 GTSRB-CNN 時,它的準確度為 99.4%。

作者表示,據(jù)他所知,目前還沒有評估物理對抗性擾動的標準化方法。在本實驗中,作者主要考慮角度和距離因素,因為它們是本文所選的用例中變化最快的元素??拷鼧酥镜能囕v上的相機以固定的時間間隔拍攝一系列圖像。這些圖像的拍攝角度和距離不同,因此可以改變?nèi)魏翁囟▓D像中的細節(jié)數(shù)量。任何成功的物理擾動必須能夠在一定的距離和角度范圍內(nèi)引起有針對性的錯誤分類,因為車輛在發(fā)出控制器動作之前,可能會對視頻中的一組幀(圖像)進行投票確定。在該實驗中沒有明確控制環(huán)境光線,從實驗數(shù)據(jù)可以看出,照明從室內(nèi)照明到室外照明都有變化。本文實驗設(shè)計借鑒物理科學的標準做法,將上述物理因素囊括在一個由受控的實驗室測試和現(xiàn)場測試組成的兩階段評估中。

靜態(tài)(實驗室)測試。主要涉及從靜止的、固定的位置對物體的圖像進行分類。

1. 獲得一組干凈的圖像 C 和一組在不同距離、不同角度的對抗性擾動圖像。使用 c^(d,g)表示從距離 d 和角度 g 拍攝的圖像。攝像機的垂直高度應(yīng)保持大致不變。當汽車轉(zhuǎn)彎、改變車道或沿著彎曲的道路行駛時,攝像機相對于標志的角度通常會發(fā)生變化。

2. 用以下公式計算物理擾動的攻擊成功率:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,d 和 g 表示圖像的相機距離和角度,y 是地面真值,y 是目標攻擊類別。

注意,只有當具有相同相機距離和角度的原始圖像 c 能夠正確分類時,引起錯誤分類的圖像 A(c)才被認為是成功的攻擊,這就確保了錯誤分類是由添加的擾動而不是其他因素引起的。

駕車(現(xiàn)場)測試。作者在一個移動的平臺上放置一個攝像頭,并在真實的駕駛速度下獲取數(shù)據(jù)。在本文實驗中,作者使用的是一個安裝在汽車上的智能手機攝像頭。

1. 在距離標志約 250 英尺處開始錄制視頻。實驗中的駕駛軌道是直的,沒有彎道。以正常的駕駛速度駛向標志,一旦車輛通過標志就停止記錄。實驗中,速度在 0 英里 / 小時和 20 英里 / 小時之間變化。這模擬了人類司機在大城市中接近標志的情況。

2. 對 "Clean" 標志和施加了擾動的標志按上述方法進行錄像,然后應(yīng)用公式計算攻擊成功率,這里的 C 代表采樣的幀。

由于性能限制,自主車輛可能不會對每一幀進行分類,而是對每 j 個幀進行分類,然后進行簡單的多數(shù)投票。因此,我們面臨的問題是確定幀(j)的選擇是否會影響攻擊的準確性。在本文實驗中使用 j = 10,此外,作者還嘗試了 j=15。作者表示,這兩種取值情況下沒有觀察到攻擊成功率的任何明顯變化。作者推斷,如果這兩種類型的測試都能產(chǎn)生較高的成功率,那么在汽車常見的物理條件下,該攻擊很可能是成功的。

1.3.1 LISA-CNN 的實驗結(jié)果

作者通過在 LISA-CNN 上生成三種類型的對抗性示例來評估算法的有效性(測試集上準確度為 91%)。表 1 給出了實驗中用到的靜止的攻擊圖像的樣本示例。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 1. 針對 LISA-CNN 和 GTSRB-CNN 的物理對抗性樣本示例

對象受限的海報打印攻擊(Object-Constrained Poster-Printing Attacks)。實驗室使用的是 Kurakin 等人提出的攻擊方法[4]。這兩種攻擊方法的關(guān)鍵區(qū)別在于,在本文攻擊中,擾動被限制在標志的表面區(qū)域,不包括背景,并且對大角度和距離的變化具有魯棒性。根據(jù)本文的評估方法,在實驗 100% 的圖像中停車標志都被錯誤地歸類為攻擊的目標類別(限速 45)。預(yù)測被操縱的標志為目標類別的平均置信度為 80.51%(表 2 的第二列)。

貼紙攻擊(Sticker Attacks),作者還展示了通過將修改限制在類似涂鴉或藝術(shù)效果的區(qū)域中,以貼紙的形式產(chǎn)生物理擾動的有效性。表 1 的第四列和第五列給出了這類圖像樣本,表 2(第四列和第六列)給出了實驗成功率與置信度。在靜止狀態(tài)下,涂鴉貼紙攻擊達到了 66.67% 的定向攻擊成功率,偽裝藝術(shù)效果貼紙攻擊則達到了 100% 的定向攻擊成功率。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 2. 在 LISA-CNN 上使用海報印刷的停車標志牌(微小攻擊)和真正的停車標志牌(偽裝的涂鴉攻擊,偽裝的藝術(shù)效果攻擊)的有針對性的物理擾動實驗結(jié)果。對于每幅圖像,都顯示了前兩個標簽和它們相關(guān)的置信度值。錯誤分類的目標是限速 45。圖例:SL45 = 限速 45,STP = 停車,YLD = 讓步,ADL = 增加車道,SA = 前方信號,LE = 車道盡頭

作者還對停車標志的擾動進行了駕車測試。在基線測試中,從一輛行駛中的車輛上記錄了兩段清潔停車標志的連續(xù)視頻,在 k = 10 時進行幀抓取,并裁剪標志。此時,所有幀中的停止標志都能夠正確分類。同樣用 k=10 來測試 LISA-CNN 的擾動。本文攻擊對海報攻擊實現(xiàn)了 100% 的目標攻擊成功率,而對偽裝抽象藝術(shù)效果攻擊的目標攻擊成功率為 84.8%。見表 3。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 3. LISA-CNN 的駕車測試總結(jié)。在基線測試中,所有的幀都被正確地分類為停車標志。在所有的攻擊案例中,擾動情況與表 2 相同。手動添加了黃色方框進行視覺提示。

1.3.2 GTSRB-CNN 的實驗結(jié)果

為了展示本文所提出的攻擊算法的多功能性,作者為 GTSRB-CNN 創(chuàng)建并測試了攻擊性能(測試集上準確度為 95.7%)。表 1 中最后一列為樣本圖像。表 4 給出了攻擊結(jié)果—在 80% 的靜止測試條件下,本文提出的攻擊使分類器相信停止標志是限速 80 的標志。根據(jù)本文評估方法,作者還進行了駕車測試(k=10,兩個連續(xù)的視頻記錄),最終攻擊在 87.5% 的時間里成功欺騙了分類器。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 4. 對 GTSRB-CNN 的偽裝藝術(shù)效果攻擊。有針對性的攻擊成功率為 80%(真實類別標簽:停止,目標:限速 80)

1.3.3 Inception v3 的實驗結(jié)果

最后,為了證明 RP2 的通用性,作者使用兩個不同的物體,一個微波爐和一個咖啡杯,計算了標準 Inception-v3 分類器的物理擾動情況。作者選擇了貼紙攻擊方法,因為使用海報攻擊方法為物體打印一個全新的表面很容易引起人的懷疑。由于杯子和微波爐的尺寸比路標小,作者減少了使用的距離范圍(例如,咖啡杯高度 - 11.2 厘米,微波爐高度 - 24 厘米,右轉(zhuǎn)標志高度 - 45 厘米,停止標志 - 76 厘米)。表 5 給出了對微波爐的攻擊結(jié)果,表 6 則給出了對咖啡杯的攻擊結(jié)果。對于微波爐,目標攻擊的成功率是 90%。對于咖啡杯,目標攻擊成功率為 71.4%,非目標成功率為 100%。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 5. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是微波,攻擊目標是電話

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 6. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是咖啡杯,攻擊目標是提款機

1.3.4 討論

黑盒攻擊??紤]到對目標分類器的網(wǎng)絡(luò)結(jié)構(gòu)和模型權(quán)重的訪問,RP2 可以產(chǎn)生各種強大的物理擾動來欺騙分類器。通過研究像 RP2 這樣的白盒攻擊,我們可以分析使用最強攻擊者模型的成功攻擊的要求,并更好地指導(dǎo)未來的防御措施。在黑盒環(huán)境下評估 RP2 是一個開放的問題。

圖像裁剪和攻擊性檢測器。在評估 RP2 時,作者每次在分類前都會手動控制每個圖像的裁剪。這樣做是為了使對抗性圖像與提供給 RP2 的清潔標志圖像相匹配。隨后,作者評估了使用偽隨機裁剪的偽裝藝術(shù)效果攻擊,以保證至少大部分標志在圖像中。針對 LISA-CNN,我們觀察到平均目標攻擊率為 70%,非目標攻擊率為 90%。針對 GTSRB-CNN,我們觀察到平均目標攻擊率為 60%,非目標攻擊率為 100%。作者在實驗中考慮非目標攻擊的成功率,是因為導(dǎo)致分類器不輸出正確的交通標志標簽仍然是一種安全風險。雖然圖像裁剪對目標攻擊的成功率有一定的影響,但作者在其它工作中的研究結(jié)果表明,RP2 的改進版可以成功地攻擊物體檢測器,在這種情況下就不需要再進行裁剪處理了[5]。

2、LanCe: 針對嵌入式多媒體應(yīng)用的物理對抗性攻擊的全面和輕量級 CNN 防御方法[2]

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

與關(guān)注 “攻擊” 的上一篇文章不同,這篇文章關(guān)注的是“防御”。本文提出了:LanCe—一種全面和輕量級的 CNN 防御方法,以應(yīng)對不同的物理對抗性攻擊。通過分析和論證 CNN 存在的漏洞,作者揭示了 CNN 的決策過程缺乏必要的 * 定性語義辨別能力 *(qualitative semantics distinguishing ability):輸入的非語義模式可以顯著激活 CNN 并壓倒輸入中的其它語義模式,其中,語義模式是指表示語句成分之間的語義關(guān)系的抽象格式,而非語義模式是指不包含任何語義關(guān)系信息的抽象格式。利用對抗性攻擊的特征不一致性,作者增加了一個自我驗證階段來改進 CNN 的識別過程?;仡檲D 1,對于每張輸入圖像,經(jīng)過一次 CNN 推理后,驗證階段將定位重要的激活源(綠圈),并根據(jù)預(yù)測結(jié)果計算出輸入語義與預(yù)期語義模式的不一致性(右圈)。一旦不一致性值超過預(yù)定的閾值,CNN 將進行數(shù)據(jù)恢復(fù)過程以恢復(fù)輸入圖像。我們的防御方法涉及最小的計算組件,可以擴展到基于 CNN 的圖像和音頻識別場景。

2.1 對抗性攻擊分析和防御的解釋

2.1.1 CNN 漏洞解讀

解釋和假設(shè)。在一個典型的圖像或音頻識別過程中,CNN 從原始輸入數(shù)據(jù)中提取特征并得出預(yù)測結(jié)果。然而,當向原始數(shù)據(jù)注入物理對抗性擾動時,CNN 將被誤導(dǎo)出一個錯誤的預(yù)測結(jié)果。為了更好地解釋這個漏洞,作者以一個典型的圖像物理對抗性攻擊—對抗性補丁攻擊為例進行分析。

在圖 1 中,通過與原始輸入的比較,我們發(fā)現(xiàn)一個對抗性補丁通常在顏色 / 形狀等方面沒有限制約束。這樣的補丁通常會犧牲語義結(jié)構(gòu),從而導(dǎo)致明顯的異常激活,并壓倒其他輸入模式的激活。因此,作者提出了一個假設(shè):CNN 缺乏定性的語義辨別能力,在 CNN 推理過程中可以被非語義的對抗性補丁激活。

假設(shè)驗證。根據(jù)上述假設(shè),輸入的非語義模式會導(dǎo)致異常的激活,而輸入的語義模式會產(chǎn)生正常的激活。作者提出通過調(diào)查 CNN 中每個神經(jīng)元的語義來評估這種差異,并引入一種可視化的 * CNN 語義分析方法—激活最大化可視化 *(Activation Maximization Visualization,AM)。AM 可以生成一個 pattern,將每個神經(jīng)元最活躍的語義輸入可視化。圖案 V((N_i)^l)的生成過程可以被看作是向 CNN 模型合成一個輸入圖像,使第 l 層中的第 i 個神經(jīng)元(N_i)^l 的激活度最大化。該過程可以表征為:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,(A_i)^l(X)為輸入圖像 X 的(N_i)^l 的激活,(A_i)^l 表征第 l 層的第 i 個神經(jīng)元對應(yīng)的激活,(N_i)^l 為第 l 層的第 i 個神經(jīng)元,η為梯度下降步長。

圖 4 展示了使用 AM 的可視化輸入的語義模式。由于原始的 AM 方法是為語義解釋而設(shè)計的,在生成可解釋的可視化模式時,涉及許多特征規(guī)定和手工設(shè)計的自然圖像參考。因此,我們可以得到圖 4(a)中平均激活幅度值為 3.5 的三個 AM 模式。這三種模式中的對象表明它們有明確的語義。然而,當我們在 AM 過程中去除這些語義規(guī)定時,我們得到了三種不同的可視化 patterns,如圖 4(b)所示。我們可以發(fā)現(xiàn),這三個 patterns 是非語義性的,但它們有明顯的異常激活,平均幅值為 110。這一現(xiàn)象可以證明作者的假設(shè),即 * CNN 神經(jīng)元缺乏語義辨別能力,可以被輸入的非語義模式顯著激活 *。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 4. 通過激活最大化可視化神經(jīng)元的輸入模式

2.1.2 輸入語義和預(yù)測激活的不一致性度量

不一致性識別。為了識別用于攻擊檢測的輸入的非語義模式,我們通過比較自然圖像識別和物理對抗性攻擊,檢查其在 CNN 推理過程中的影響。圖 5 展示了一個典型的基于對抗性補丁的物理攻擊。左邊圓圈中的圖案是來自輸入圖像的主要激活源,右邊的條形圖是最后一個卷積層中的神經(jīng)元的激活。從輸入模式中我們識別出原始圖像中的對抗性補丁和主要激活源之間的顯著差異,稱為輸入語義不一致(Input Semantic Inconsistency)。從預(yù)測激活量級方面,我們觀察到對抗性輸入和原始輸入之間的另一個區(qū)別,即預(yù)測激活不一致(Prediction Activation Inconsistency)。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 5. 圖像對抗性補丁攻擊

不一致性度量的表述。作者進一步定義兩個指標來表述上述兩個不一致的程度。

1)輸入語義不一致度量:該度量用于衡量非語義對抗性補丁與自然圖像的語義局部輸入模式之間的輸入語義不一致性。具體定義為:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,P_pra 和 P_ori 分別代表來自對抗性輸入和原始輸入的輸入模式(input patterns)。Φ:(A_i)^l(p)和Φ:(A_i)^l(o)分別表征由對抗性補丁和原始輸入產(chǎn)生的神經(jīng)元激活的集合。R 將神經(jīng)元的激活映射到主要的局部輸入模式。S 代表相似性指標。

2)預(yù)測激活不一致度量:第二個不一致度量指標是在激活層面上,它用于衡量最后一個卷積層中對抗性輸入和原始輸入之間的激活幅度分布的不一致性。我們也使用一個類似的指標來衡量,具體如下:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,f_pra 和 I_ori 分別代表最后一個卷積層中由對抗性輸入和原始輸入數(shù)據(jù)產(chǎn)生的激活的幅度分布。

對于上述兩個不一致度量中使用到的信息,我們可以很容易地得到 P_pra 和 f_pra,因為它們來自于輸入數(shù)據(jù)。然而,由于自然輸入數(shù)據(jù)的多樣性,P_ori 和 f_ori 并不容易得到。因此,我們需要合成能夠提供輸入的語義模式和激活量級分布的標準輸入數(shù)據(jù)??梢詮臉藴蕯?shù)據(jù)集中獲得每個預(yù)測類別的合成輸入數(shù)據(jù),以及,通過向 CNN 輸入一定數(shù)量的標準數(shù)據(jù)集,我們可以記錄最后一個卷積層的平均激活幅度分布。此外,我們可以定位每個預(yù)測類別的主要輸入的語義模式。

2.1.3 基于 CNN 自我驗證和數(shù)據(jù)恢復(fù)的物理對抗性攻擊防御

上述兩個不一致展示了物理對抗性攻擊和自然圖像識別之間的區(qū)別,即輸入模式和預(yù)測激活。通過利用不一致性指標,作者提出了一種防御方法,其中包括 CNN 決策過程中的自我驗證和數(shù)據(jù)恢復(fù)。具體來說,整個方法流程描述如下。

自我驗證。(1)首先將輸入項輸入到 CNN 推理中,獲得預(yù)測類別結(jié)果。(2) 接下來,CNN 可以從實際輸入中定位主要激活源,并在最后一個卷積層中獲得激活。(3)然后,CNN 利用所提出的指標來衡量實際輸入與預(yù)測類別的合成數(shù)據(jù)之間的兩個不一致指標。(4) 一旦任何一個不一致指標超過了給定的閾值,CNN 將認為該輸入是一個對抗性輸入。

數(shù)據(jù)恢復(fù)。(5) 在自我驗證階段檢測到物理對抗性攻擊后,進一步應(yīng)用數(shù)據(jù)恢復(fù)方法來恢復(fù)被攻擊的輸入數(shù)據(jù)。具體來說,作者利用圖像修復(fù)和激活去噪方法分別來恢復(fù)輸入的圖像和音頻。

2.2 對圖像物理對抗攻擊的防御

2.2.1 圖像場景中的防御過程

主要激活模式定位。對于圖像物理對抗性攻擊的防御,主要依賴于輸入模式層面的輸語義不一致。因此,作者采用 CNN 激活可視化方法—類別激活映射(Class Activation Mapping,CAM)來定位輸入圖像的主要激活源 [8]。令 A_k(x, y) 表示在空間位置 (x, y) 的最后一個卷積層的第 k 個激活值。我們可以計算出最后一個卷積層中空間位置 (x, y) 的所有激活的總和,即:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,K 是最后一個卷積層中激活的總數(shù)。A_T(x, y)的值越大,表明輸入圖像中相應(yīng)空間位置 (x, y) 的激活源對分類結(jié)果越重要。

不一致推導(dǎo)。根據(jù)初步分析,輸入的對抗性補丁比自然輸入的語義模式包含更多的高頻信息。因此,作者用一系列的變換來轉(zhuǎn)換這些 patterns,如圖 6 所示。經(jīng)過二維快速傅里葉變換(2D-FFT)和二進制轉(zhuǎn)換,我們可以觀察到對抗性輸入和語義合成輸入之間的顯著差異。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 6. 二維快速傅里葉變換后的結(jié)果

作者將 S(I_pra, I_ori)替換為 Jaccard 相似性系數(shù)(Jaccard Similarity Coefficient,JSC),并提出如下圖像不一致性指標:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,I_exp 是具有預(yù)測類別的合成語義模式,P_pra ∩ P_exp 為 P_pra 和 P_exp 的像素值都等于 1 的像素數(shù)?;谏鲜霾灰恢滦灾笜?,作者提出了具體的防御方法,包括自我驗證和圖像恢復(fù)兩個階段。整個過程在圖 7 中描述。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 7. 對抗性補丁攻擊防御

檢測的自我驗證。在自我驗證階段,應(yīng)用 CAM 來定位每個輸入圖像中最大模型激活的源頭位置。然后對圖像進行裁剪,以獲得具有最大激活度的 pattern。在語義測試期間,計算 I_pra 和 I_exp 之間的不一致性。如果該不一致性指標高于預(yù)定義的閾值,我們認為檢測到了一個對抗性輸入。

圖像的數(shù)據(jù)恢復(fù)。檢測到對抗性補丁后,通過直接從原始輸入數(shù)據(jù)中刪除補丁的方式來進行圖像數(shù)據(jù)恢復(fù)。在該案例中,為了確保輕量級的計算工作量,作者利用最近鄰插值 --- 一種簡單而有效的圖像插值技術(shù)來修復(fù)圖像并消除攻擊效果。具體來說,對于對抗性補丁中的每個像素,利用該像素周圍八個像素的平均值取代該像素。插值處理后,將恢復(fù)的圖像反饋給 CNN,再次進行預(yù)測。通過以上步驟,我們可以在 CNN 推理過程中保護圖像的物理對抗性攻擊。

2.3 對音頻物理對抗攻擊的防御

不一致推導(dǎo):作者利用預(yù)測激活的不一致性來檢測音頻中的物理對抗性攻擊,即,衡量預(yù)測類別相同的實際輸入和合成數(shù)據(jù)之間的激活幅度分布不一致性指標。作者利用皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)定義不一致度量如下:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

其中,I_pra 和 I_exp 分別代表最后一個卷積層對實際輸入和合成輸入的激活。μ_a 和μ_o 表示 f_pre 和 f_exp 的平均值,σ_pra 和σ_exp 是標準差,E 表示總體期望值。

自我驗證的檢測。進一步的,將自我驗證應(yīng)用于 CNN 的音頻物理對抗性攻擊。首先,通過用標準數(shù)據(jù)集測試 CNN,獲得最后一個卷積層中每個可能的輸入詞的激活值。然后,計算不一致度量指標 D(I_pra, I_exp)。如果模型受到對抗性攻擊,D(I_pra, I_exp)會大于預(yù)先定義的閾值。作者表示,根據(jù)他們用各種攻擊進行的初步實驗,對抗性輸入的 D(I_pra, I_exp)通常大于 0.18,而自然輸入的 D(I_pra, I_exp)通常小于 0.1。因此,存在一個很大的閾值范圍來區(qū)分自然和對抗性的輸入音頻,這可以有利于我們的準確檢測。

音頻數(shù)據(jù)恢復(fù)。在確定了對抗性的輸入音頻后,對這部分音頻進行數(shù)據(jù)恢復(fù)以滿足后續(xù)應(yīng)用的需要。作者提出了一個新的解決方案—"激活去噪" 作為音頻數(shù)據(jù)的防御方法,其目標是從激活層面消除對抗性影響。激活去噪利用了上述最后一層的激活模式,這些模式與確定的預(yù)測標簽有穩(wěn)定的關(guān)聯(lián)性。對抗性音頻數(shù)據(jù)恢復(fù)方法如圖 8 所示。基于檢測結(jié)果,我們可以識別錯誤的預(yù)測標簽,并在最后一層獲得錯誤類別的標準激活模式。然后我們可以找到具有相同索引的激活。這些激活最可能是由對抗性噪聲引起的,并取代了原始激活。因此,通過壓制這些激活就可以恢復(fù)原始激活。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 8. 音頻對抗性攻擊防御

2.4 實驗分析

2.4.1 圖像場景

在本文實驗中,作者使用 Inception-V3 作為基礎(chǔ)模型生成對抗性補丁,然后利用由此生成的高遷移性的補丁攻擊兩個 CNN 模型:VGG-16 和 ResNet-18。然后將本文提出的防御方法應(yīng)用于所有三個模型,并測試其檢測和恢復(fù)的成功率。實驗中的基準方法是 Patch Masking,這是一種最先進的防御方法[7]。不一致性的閾值設(shè)為 0.46。

表 7 給出了總體檢測和圖像恢復(fù)性能。在所有三個模型上,LanCe 的檢測成功率始終高于 Patch Masking。進一步,本文提出的圖像恢復(fù)方法可以幫助糾正預(yù)測,在不同的模型上獲得了 80.3%~82% 的準確度改進,而 Patch Masking 的改進僅為 78.2% ~79.5%。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 7. 圖像對抗性補丁攻擊防御評估

2.4.2 音頻場景

對于音頻場景,作者在谷歌語音命令數(shù)據(jù)集上使用命令分類模型(Command Classification Model)進行實驗。對抗性檢測的不一致性閾值是通過網(wǎng)格搜索得到的,在本實驗中設(shè)置為 0.11。作為比較,作者重新實現(xiàn)了另外兩種最先進的防御方法:Dependency Detection [8]和 Multiversion[9]。

LanCe 對所有的音頻物理對抗性攻擊都能達到 92% 以上的檢測成功率。相比之下,Dependency Detection 平均達到 89% 的檢測成功率,而 Multiversion 的平均檢測成功率只有 74%。然后,作者評估了 LanCe 的恢復(fù)性能。TOP-K 指數(shù)中的 K 值被設(shè)定為 6。由于 Multiversion[9]不能用于恢復(fù),作者重新實現(xiàn)了另一種方法 Noise Flooding[10]作為比較。作者使用沒有數(shù)據(jù)恢復(fù)的原始 CNN 模型作為基線方法。

表 8 給出了整體的音頻恢復(fù)性能評估。應(yīng)用本文提出的恢復(fù)方法 LanCe 后,預(yù)測準確率明顯提高,從平均 8% 提高到了平均 85.8%,即恢復(fù)準確率為 77.8%。Dependency Detection 和 Noise Flooding 的平均準確率都較低,分別為 74% 和 54%。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 8. 音頻對抗性攻擊數(shù)據(jù)恢復(fù)評估

3、SentiNet:針對深度學習系統(tǒng)的物理攻擊檢測[3]

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

這篇文章重點關(guān)注的是圖像處理領(lǐng)域的物理攻擊檢測問題,具體是指針對圖像的局部物理攻擊,即將對手區(qū)域限制在圖像的一小部分,生成 “對抗性補丁” 攻擊。這種局部限制有利于設(shè)計魯棒的且物理上可實現(xiàn)的攻擊,具體攻擊形式可以是放置在視覺場景中的對手對象或貼紙。反過來,這些類型的攻擊通常使用無界擾動來確保攻擊對角度、照明和其他物理條件的變化具有魯棒性。局部物理攻擊的一個缺點是,它們通常是肉眼可見和可檢測的,但在許多情況下,攻擊者仍然可以通過在自主環(huán)境中部署或偽裝這些方式來逃避檢測。

圖 9 給出一個深度學習系統(tǒng)示例,該系統(tǒng)為人臉識別系統(tǒng),其作用是解鎖移動設(shè)備或讓用戶進入建筑物。場景包括了用戶的臉和其他背景對象。傳感器可以是返回場景數(shù)字圖像的相機的 CCD 傳感器。圖像由預(yù)測用戶身份的人臉分類器處理。如果用戶身份有效,執(zhí)行器將解鎖設(shè)備或打開閘門。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 9. 部署在真實環(huán)境中的物理攻擊,使用物理模式和對象而不是修改數(shù)字圖像

3.1 SentiNet 介紹

本文提出了一種針對視覺領(lǐng)域物理攻擊檢測的方法:SentiNet。SentiNet 的目標是識別會劫持模型預(yù)測的對手輸入。具體而言,SentiNet 的設(shè)計目標是在無需事先了解攻擊內(nèi)容的情況下,保護網(wǎng)絡(luò)免受對抗性樣本、觸發(fā)特洛伊木馬和后門的攻擊。SentiNet 的核心思想是利用對手錯誤分類行為來檢測攻擊。首先,SentiNet 使用模型可解釋性和對象檢測技術(shù)從輸入場景中提取對模型預(yù)測結(jié)果影響最大的區(qū)域。然后,SentiNet 將這些提取的區(qū)域應(yīng)用于一組良性測試輸入,并觀察模型的行為。最后,SentiNet 使用模糊技術(shù)將這些合成行為與模型在良性輸入上的已知行為進行比較,以確定預(yù)測攻擊行為。SentiNet 完整結(jié)構(gòu)見圖 10。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 10. SentiNet 架構(gòu)概述。使用輸入的輸出和類別生成掩模,然后將掩模反饋到模型中以生成用于邊界分析和攻擊分類的值

3.1.1 對抗性目標定位

本文方法的第一步是在給定的輸入上定位可能包含惡意對象的區(qū)域,即識別輸入 x 中有助于模型預(yù)測 y 的部分。因為物理攻擊很小并且是局部的,在不包含攻擊部分的輸入上評估模型可能能夠恢復(fù) x 的真實類別。

分段類別建議。本文提出的攻擊檢測從識別一組可能由模型 f_m 預(yù)測的類別開始。第一類是實際預(yù)測,即 y=f_m(x)。通過對輸入 x 進行分段,然后對每個分段上的網(wǎng)絡(luò)進行評估來識別其他類別。Algorithm 1 給出了通過輸入分段判斷類別的算法??梢允褂貌煌姆椒ǚ指罱o定的輸入 x,包括滑動窗口和基于網(wǎng)絡(luò)的區(qū)域建議等。本文方法使用了選擇性搜索圖像分割算法:選擇性搜索根據(jù)在自然場景中發(fā)現(xiàn)的模式和邊緣生成區(qū)域列表,然后,對每個給出的分段建議進行評估,并返回前 k 個置信度預(yù)測,其中 k 是 SentiNet 的配置參數(shù)。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

掩模生成。針對模型預(yù)測的解釋和理解問題,在過去幾年中已經(jīng)提出了多種針對性的方法。其中一種方法是 “量化” 輸入的單個像素的相關(guān)性。這種方法聚焦于單個像素,因此可能會生成非連續(xù)像素的掩模。而稀疏掩模則可能會丟失惡意對象的元素,并且不適用于模型測試階段。另外一種替代方法不在單個像素上操作,而是嘗試恢復(fù)模型用于識別同類輸入的可分性圖像區(qū)域。但是,其中許多方法需要對基本模型進行修改和微調(diào),例如類別激活映射(Class Activation Mapping,CAM)[8],這些修改可能會改變模型的行為,甚至包括 SentiNet 執(zhí)行檢測并防止被利用的惡意行為。

作者表示,適合本文目標的方法是 Grad-CAM[9],這是一種模型解釋技術(shù),可以識別輸入的連續(xù)空間區(qū)域,而不需要對原始模型進行修改。Grad-CAM 使用網(wǎng)絡(luò)最后幾層計算得到的梯度來計算輸入?yún)^(qū)域的顯著性。對于類別 c,Grad-CAM 計算模型輸出 y^c 相對于模型最終匯聚層的 k 個特征圖 A^k 的梯度(模型對類別 c 的 logit 得分),以得到(δ y^c)/(δ A^k)。每個過濾圖的平均梯度值,或 "神經(jīng)元重要性權(quán)重" 記作:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

最后,按神經(jīng)元的重要性加權(quán)處理特征圖 A^k,并匯總以得到最終的 Grad-CAM 輸出:

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

Grad-CAM 的輸出是圖像正向重要性的一個粗略熱圖,由于模型的卷積層和池化層的下采樣處理,其分辨率通常比輸入圖像低。最后,通過對熱圖進行二值化處理,以最大強度的 15% 為閾值生成掩模。作者使用這個掩模來分割 salient 區(qū)域,以便進行下一步的工作。

精確的掩模生成。盡管 Grad-CAM 可以成功地識別與對抗性目標相對應(yīng)的鑒別性輸入?yún)^(qū)域,但它也可能識別良性的 salient 區(qū)域。圖 11 給出了一個說明性示例,Grad-CAM 為一個人臉識別網(wǎng)絡(luò)生成的熱圖既覆蓋了木馬的觸發(fā)補丁,也覆蓋了原始的人臉區(qū)域。為了提高掩模準確性,作者提出需要對輸入圖像的選定區(qū)域進行額外預(yù)測。然后,對于每個預(yù)測,使用 Grad-CAM 來提取一個與預(yù)測最相關(guān)的輸入?yún)^(qū)域的掩模。最后,結(jié)合這些額外的掩模來完善初始預(yù)測 y 的掩模。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 11. 上一行:使用漸變 CAM 生成掩模。左圖顯示了與目標 “0” 類別相關(guān)的 Grad-CAM 熱圖,右圖顯示了覆蓋了物理攻擊以外區(qū)域的提取掩模。下一行:左圖是相對于目標 “0” 類別的 Grad-CAM 熱圖,該行中間的圖是對應(yīng)于給定類別的 Grad-CAM

一旦得到了圖片中可能存在的類別列表,我們就會劃出與每個預(yù)測類別更相關(guān)的區(qū)域 x。為簡單起見,作者假設(shè)每個輸入只能包含一個惡意對象。Algorithm 2 給出了從 x 中提取輸入?yún)^(qū)域的過程。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

首先,使用 Grad-CAM 對輸入的 x 和預(yù)測的 y 提取掩模,同時還為每一個建議的類別 y_p 提取一個掩模。在其他的建議類別上執(zhí)行 Grad-CAM,可以讓我們在對抗性攻擊之外找到圖像的重要區(qū)域。此外,由于對抗性區(qū)域通常與非目標類別呈負相關(guān)性,熱圖主動避免突出圖像的對抗性區(qū)域。我們可以使用這些熱圖來生成二級掩模,通過減去掩模重疊的區(qū)域來改進原始掩模。這能夠保證掩模只突出局部攻擊,而不會突出圖像中的其他 salient 區(qū)域。由圖 11 我們可以看到使用這種方法生成了一個更精確的掩模,其中只包含了大部分對抗性區(qū)域。

3.1.2 攻擊檢測

攻擊檢測需要兩個步驟。首先,如上所述,SentiNet 提取可能包含對抗性補丁的輸入?yún)^(qū)域。然后,SentiNet 在一組良性圖像上測試這些區(qū)域,以區(qū)分對抗性區(qū)域和良性區(qū)域。

測試- 一旦定位了輸入?yún)^(qū)域,SentiNet 就會觀察該區(qū)域?qū)δP偷挠绊?,以確定該區(qū)域是對手的還是良性的。為此,SentiNet 將可疑區(qū)域疊加在一組良性測試圖像 X 上。將測試圖像反饋到網(wǎng)絡(luò)中,網(wǎng)絡(luò)計算被欺騙的樣本數(shù)量并用于對抗性圖像。直觀地說,可能欺騙模型的變異圖像數(shù)量越多,疑似區(qū)域就越有可能是對抗性攻擊。當恢復(fù)的掩模較小時,這種反饋技術(shù)能有效區(qū)分對抗性和良性輸入,因為小的良性物體通常不能影響到網(wǎng)絡(luò)的預(yù)測。然而,這種方法的一個問題是,一個覆蓋了輸入圖像較大區(qū)域的掩模在疊加到其他圖像上時,很可能會造成錯誤的分類。例如,考慮一個輸入圖像 x 的較大掩模,當疊加時,掩模內(nèi)的特征可能比外面的特征相關(guān)性更強,這就提高了將變異的測試輸入分類為 y 的可能性。為了解決這一問題,作者引入了惰性模式(inert patterns),其作用是抑制掩模內(nèi)部的特征,從而提高網(wǎng)絡(luò)對掩模外特征的反應(yīng)。

檢測的決策邊界- 有了這兩個指標(被欺騙的圖像數(shù)量和平均惰性模式置信值),我們可以確定在哪些條件下輸入的 x 是對抗性的。下一步,作者希望引入一種技術(shù),使我們能夠根據(jù)攻擊無關(guān)的指標,將未見過的對抗性輸入識別為攻擊。圖 12 給出一個示例,其中紅色的三角點代表的是在對抗性樣本中發(fā)現(xiàn)的指標,藍色的圓點是根據(jù)清潔樣本計算得到的。我們可以看到對抗性樣本大多聚集在圖中右上角的位置。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 12. 邊界檢測示例,左側(cè),對抗性和良性指標分別被繪制成紅色三角形和藍色圓圈;右側(cè),來自采樣點的曲線建議

作者提出,可以使用在清潔樣本上收集到的度量來近似一個曲線,其中位于曲線函數(shù)之外的點可以被歸類為對抗性攻擊。具體的,通過提取 x 間隔的最高 y 值的點來收集目標點,然后使用非線性最小二乘法函數(shù)來擬合生成目標曲線。然后,使用近似曲線計算曲線和點之間的距離(使用線性近似的約束優(yōu)化(the Constrained Optimization by Linear Approximation,COBYLA)方法)并確定該距離是否在由位于曲線之外的清潔樣本的距離所估計的閾值之內(nèi),來實現(xiàn)對攻擊的分類。具體的邊界決策過程如 Algorithm 4 所示。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

3.2 實驗分析

作者利用三個公共可用網(wǎng)絡(luò)評估 SentiNet,其中包括兩個受損網(wǎng)絡(luò)和一個未受損網(wǎng)絡(luò)。受損網(wǎng)絡(luò)包括一個用于閱讀標志檢測的后門 Faster-RCNN 網(wǎng)絡(luò) [11] 以及一個用于人臉識別的 VGG-16 trojaned 網(wǎng)絡(luò)[12]。未受損網(wǎng)絡(luò)是在 Imagenet 數(shù)據(jù)集上訓(xùn)練的 VGG-16 網(wǎng)絡(luò)[13]。此外,SentiNet 還需要一個良性測試圖像集 X 和一個惰性模式 s 來生成決策邊界。作者利用實驗中所選網(wǎng)絡(luò)的每個測試集 X 生成良性測試圖像集,以及使用隨機噪聲作為惰性模式。SentiNet 利用 Tensorflow 1.5 為未受損網(wǎng)絡(luò)、利用 BLVC Caffe 為 trojaned 網(wǎng)絡(luò)以及利用 Faster-RCNN Caffe 為污染網(wǎng)絡(luò)生成對抗補丁。為了能夠并行生成類別建議,SentiNet 利用了由 Fast RCNN Caffe 版本實現(xiàn)的 ROI 池化層。最后,作者通過收集每次攻擊的 TP/TN 和 FP/FN 比率從準確性和性能兩個方面衡量 SentiNet 的有效性和魯棒性。

首先,作者評估了 SentiNet 在保護選定的網(wǎng)絡(luò)免受三種攻擊的有效性,即后門、特洛伊木馬觸發(fā)器和對手補丁。在實驗中,分別考慮了引入和未引入掩模改進的效果。對于對抗性補丁攻擊,作者考慮了另一種變體,即攻擊者同時使用多個補丁。實驗整體評估結(jié)果見表 9 所示。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

表 9. SentiNet 對已知攻擊的有效性

接下來,作者考慮攻擊者已知 SentiNet 的存在及其工作機制情況下,可能避免 SentiNet 檢測的情況。作者具體考慮了 SentiNet 的三個組件的情況:熱圖建議、類別建議和攻擊分類。

1)攻擊區(qū)域建議(熱圖建議)

本文方法的關(guān)鍵是能夠使用 Grad-CAM 算法成功定位圖像中的對抗性區(qū)域。Grad-CAM 算法生成 salient 區(qū)域的熱圖進而生成分類結(jié)果。一旦攻擊破壞了 Grad-CAM 并影響區(qū)域的檢測和定位,那么框架的后續(xù)組件將會失效。Grad-CAM 使用網(wǎng)絡(luò)反向傳播來衡量區(qū)域的重要性。因此,理論上我們可以使用有針對性的梯度擾動來修改熱圖輸出。作者通過實驗表明,在作者給出的防御背景下,Grad-CAM 對對抗性攻擊是穩(wěn)健的,Grad-CAM 對區(qū)域的捕捉能力并不會輕易被操縱。

圖 13 左上為一張狗的圖像,上面覆蓋著一個對抗性補丁。右側(cè)為對目標類別 "toast" 的 Grad-CAM 熱圖。我們從隨機噪聲開始,其中沒有任何 "toast" 類別的突出區(qū)域,對損失函數(shù)進行優(yōu)化輸入。圖 13 證明了在收斂時生成的噪聲的熱圖輸出與原始熱圖在視覺上是一致的。這表明,Grad-CAM 的輸出是可以通過梯度優(yōu)化來精確操縱的。然而,為了發(fā)動這樣的有效攻擊,攻擊者需要在整個圖像上添加噪聲,這在實際上是不可行的。

攻擊者還有一種攻擊策略:生成一個誤導(dǎo)熱圖區(qū)域(heatmap region misdirection),在該圖中增加一個不覆蓋對手區(qū)域的區(qū)域,以擴大捕獲的區(qū)域或完全規(guī)避檢測。

攻擊者也有可能通過誤導(dǎo)熱圖區(qū)域,即熱圖提出一個不包括對抗區(qū)域的區(qū)域,以擴大定位的區(qū)域或完全避免檢測。但是這種操作在對手對整幅圖像添加擾動噪聲時會失效,所以作者在實驗中限定攻擊者不能在局部攻擊區(qū)域之外添加噪聲,Grad-CAM 擾動也必須限制在對手區(qū)域中。因此,我們要考慮的威脅是攻擊者可以在圖像的一個區(qū)域中增加噪聲,從而增加不相交區(qū)域中的 Grad-CAM 輸出值。由圖 13 給出的實驗結(jié)果,如果噪聲區(qū)域與我們想要修改的 Grad-CAM 位置重疊,我們就能夠成功修改熱圖。圖 13 還顯示,如果噪聲區(qū)域與目標 Grad-CAM 區(qū)域不相交,則 Grad-CAM 優(yōu)化無法實現(xiàn)視覺相似性或與之等效的最終收斂損失。這些實驗表明,局部噪聲只會影響相應(yīng)的 Grad-CAM 區(qū)域,同時表明不可能發(fā)生錯誤方向的攻擊。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 13. 計算每個輸入上標簽 “toaster” 的 Grad-CAM。第一行顯示疊加在狗圖像上的對抗性補丁的 Grad-CAM 輸出。第二行為使用梯度擾動再現(xiàn)的 Grad-CAM 輸出。第三行顯示,如果補丁位于目標熱圖附近,仍然可以生成類似的熱圖。第四行顯示,如果不能在目標 Grad-CAM 位置上附加干擾噪聲,則無法直接影響 Grad-CAM 輸出

2)類別建議

類別建議模塊是使用選擇性搜索(Selective search)和一個根據(jù)包含 ROI 池化層的原始網(wǎng)絡(luò)修改后得到的建議網(wǎng)絡(luò)。選擇性搜索是一種傳統(tǒng)的圖像處理算法,它使用基于圖形的方法根據(jù)顏色、形狀、紋理和大小分割圖像。與 Faster-RCNN 中的網(wǎng)絡(luò)生成建議機制不同,選擇性搜索中不存在會被攻擊者擾亂的梯度成分,也不存在會嚴重限制攻擊者攻擊機制的會污染的訓(xùn)練過程。本文的選擇性搜索算法還設(shè)計用于捕獲對手類別以外的類別建議,攻擊者將無法影響對手區(qū)域以外的選擇性搜索結(jié)果。此外,由于我們的建議網(wǎng)絡(luò)使用原始網(wǎng)絡(luò)權(quán)重,因此不會在原始網(wǎng)絡(luò)和建議網(wǎng)絡(luò)之間產(chǎn)生不同的行為。最后,攻擊者攻擊網(wǎng)絡(luò)類別建議過程的動機是有限的,因為成功的攻擊將破壞攻擊檢測的準確性,而不是破壞整個過程。由此,作者得出結(jié)論:類別建議機制是魯棒的,因為各個組件的屬性會共同抵抗擾動或污染攻擊。

3)攻擊分類

最后,通過分析攻擊分類的魯棒性,作者針對決策過程進行了實驗論證。本文的分類過程沒有使用梯度下降方法進行訓(xùn)練,這就避免了使用梯度擾動來誤導(dǎo)分類的可能性。本文使用的閾值是根據(jù)可信數(shù)據(jù)集 X、X 誤導(dǎo)概率和 X 平均置信度確定的二維數(shù)據(jù)點。其中,X 平均置信度利用模式 s 來計算。

如果對手能夠操縱模型對惰性模式做出反應(yīng),那么他們就可以繞過防御后在良性輸入和對手輸入之間生成類似的輸出。作者通過使用標準隨機噪聲模式和一個新的棋盤格模式(如圖 14 所示),證明了我們可以保證模式 s 的隱私性。由表 9,我們可以看到隨機噪聲模式和棋盤格模式的 TP 和 TN 率在 ≤0.25% 范圍內(nèi)。此外,防御方始終能夠通過使用梯度下降找到惰性模式,以最小化所有類別的響應(yīng)置信度。只要模式 s 是保密的,SentiNet 的這個組件就是安全的。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 14. 惰性模式:本文使用的惰性模式為左側(cè)顯示的隨機噪聲;可能使用的另一種模式是右側(cè)的棋盤格模式

如果攻擊者使用足夠大的補丁,X 上的平均置信度將降低,從而降低防御的有效性。由圖 15 可以看出,對于對抗性補丁,攻擊的 avgConf 隨著補丁大小的增加而下降。通過增加補丁的透明度,我們可以將攻擊降低到閾值以下,同時保持非常高的攻擊成功率。

避免自動駕駛事故,CV領(lǐng)域如何檢測物理<span><span><span><i style=攻擊?">

圖 15. 對抗性補丁大小分析

4、小結(jié)

我們在這篇文章中討論了多媒體領(lǐng)域的物理攻擊問題,包括圖像領(lǐng)域、音頻領(lǐng)域等。與算法攻擊相比,在圖像或音頻上施加物理攻擊的難度性低,進一步損害了深度學習技術(shù)的實用性和可靠性。我們選擇了三篇文章從攻擊和防御的角度分別進行了探討,同時包括了圖像領(lǐng)域和音頻領(lǐng)域的攻擊。由于物理攻擊對于人類來說是易于發(fā)現(xiàn)的,所以從文章給出的實驗結(jié)果來看,不同方法的防御效果都不錯。不過,幾篇文章中談到的防御都是限定攻擊類型的防御,如何對不可知的攻擊進行有效防御仍值得進一步研究和探討。

分析師介紹:Jiying,工學博士,畢業(yè)于北京交通大學,曾分別于香港中文大學和香港科技大學擔任助理研究員和研究助理,現(xiàn)從事電子政務(wù)領(lǐng)域信息化新技術(shù)研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2022-02-07 22:52:07

自動駕駛安全技術(shù)

2015-08-17 15:17:09

2009-10-28 14:40:01

2021-08-19 14:00:13

人工智能AI自動駕駛

2021-12-02 22:34:22

自動駕駛車燈技術(shù)

2021-11-18 22:43:56

自動駕駛技術(shù)安全

2021-05-11 12:08:39

大數(shù)據(jù)自動駕駛數(shù)據(jù)分析

2021-05-31 10:46:16

自動駕駛特斯拉數(shù)據(jù)

2022-10-27 10:18:25

自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2024-02-20 11:26:07

物聯(lián)網(wǎng)

2020-09-19 16:54:23

自動駕駛汽車事故物聯(lián)網(wǎng)

2022-07-12 09:42:10

自動駕駛技術(shù)

2018-08-08 17:32:22

自動駕駛

2022-07-05 11:21:12

自動駕駛汽車技術(shù)

2020-06-08 10:57:41

自動駕駛交通事故無人駕駛

2023-09-07 15:03:27

自動駕駛交通事故

2018-10-24 14:16:33

自動駕駛道路測試牌照

2020-04-29 10:10:45

網(wǎng)絡(luò)安全自動駕駛漏洞
點贊
收藏

51CTO技術(shù)棧公眾號