AI眼見(jiàn)為虛—— “升級(jí)版”對(duì)抗貼畫對(duì)AI智能系統(tǒng)的威脅
“升級(jí)版”的對(duì)抗貼畫能夠在真實(shí)物理場(chǎng)景下迷惑AI,攻擊自動(dòng)駕駛系統(tǒng)或智能監(jiān)控系統(tǒng)等依賴目標(biāo)檢測(cè)器作為感知的智能系統(tǒng)。中科院信工所信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室陳愷研究員團(tuán)體最新研究及發(fā)表文章成果顯示,針對(duì)目標(biāo)檢測(cè)系統(tǒng)的“升級(jí)版”的對(duì)抗貼畫能夠提高AI物理對(duì)抗攻擊的魯棒性,對(duì)依賴目標(biāo)檢測(cè)器作為感知的自動(dòng)駕駛系統(tǒng)以及智能監(jiān)控等智能系統(tǒng)形成真正的威脅[1],該成果發(fā)表于ACM CCS 2019 國(guó)際會(huì)議(CCF A類)。
“深度學(xué)習(xí)模型”容易受到對(duì)抗樣本的攻擊早已不是新鮮事,對(duì)圖像數(shù)據(jù)疊加人眼難以辨識(shí)的噪聲擾動(dòng),就可迷惑AI模型以使其給出錯(cuò)誤的識(shí)別結(jié)果,擾動(dòng)后的惡意圖像即為對(duì)抗樣本(Adversarial Example)。如攻擊者將對(duì)抗攻擊技術(shù)應(yīng)用于人臉識(shí)別、自動(dòng)駕駛以及智能監(jiān)控等領(lǐng)域中,將嚴(yán)重威脅AI時(shí)代智能應(yīng)用的落地與生態(tài)信任的建立。
傳統(tǒng)對(duì)抗攻擊主要集中在數(shù)字空間(Digital Space)的對(duì)抗樣本生成,然而該對(duì)抗樣本由于對(duì)圖片及其細(xì)微的控制要求(bit級(jí)),使之難以具備在真實(shí)物理場(chǎng)景(Physical world)下的攻擊能力,無(wú)法對(duì)智能系統(tǒng)構(gòu)成真正的威脅。現(xiàn)有研究中針對(duì)目標(biāo)檢測(cè)器的對(duì)抗攻擊方法,雖然可以實(shí)現(xiàn)物理攻擊,然而其對(duì)抗樣本受限于較短的攻擊距離(< 12m)、有限的角度(< 15°)等,依然難以對(duì)動(dòng)態(tài)環(huán)境下的AI應(yīng)用(對(duì)角度和距離的動(dòng)態(tài)變化有較高的魯棒性要求)造成威脅,比如自動(dòng)駕駛應(yīng)用中的行駛車輛等。因此對(duì)抗樣本的魯棒性物理攻擊可行性研究是當(dāng)前對(duì)抗攻擊的研究熱點(diǎn),陳愷研究員團(tuán)體提出的針對(duì)目標(biāo)檢測(cè)系統(tǒng)的魯棒性物理對(duì)抗攻擊技術(shù)旨在解決該問(wèn)題。
針對(duì)多種當(dāng)前流行的目標(biāo)檢測(cè)模型(YOLO V3, Faster RCNN, RFCN等),該文章提出了針對(duì)“消失攻擊”與“出現(xiàn)攻擊”兩種攻擊形式的魯棒性對(duì)抗樣本生成方法。消失攻擊即指使目標(biāo)消失,無(wú)法被AI識(shí)別,具體表現(xiàn)為在目標(biāo)表面粘貼對(duì)抗貼畫使目標(biāo)無(wú)法被目標(biāo)檢測(cè)器識(shí)別為消失攻擊;出現(xiàn)攻擊則是利用對(duì)抗樣本實(shí)現(xiàn)AI眼中的“無(wú)中生有”效果,具體是使對(duì)抗貼畫被目標(biāo)檢測(cè)器識(shí)別為指定類別目標(biāo)。如人工智能自動(dòng)駕駛系統(tǒng),車以每小時(shí)30公里時(shí)速行駛,即使在25米的長(zhǎng)距離以及120°大角度的變化范圍內(nèi),攻擊者可利用對(duì)抗樣本攻擊自動(dòng)駕駛的目標(biāo)識(shí)別系統(tǒng),讓自動(dòng)駕駛系統(tǒng)失效。
消失攻擊-FIR算法與ERG算法
基于物理環(huán)境下“消失攻擊”的魯棒性提升方法,文章提出了特征干擾增強(qiáng)算法(Feature Interference Reinforcement, FIR)技術(shù)與增強(qiáng)現(xiàn)實(shí)限制 (Enhanced realistic constraints generation, ERG)算法來(lái)提升對(duì)抗樣本魯棒性。
圖1 特征干擾增強(qiáng)算法(FIR)引入隱藏層響應(yīng)控制項(xiàng)
FIR算法在損失函數(shù)中引入了對(duì)深度學(xué)習(xí)模型隱藏層響應(yīng)的控制項(xiàng),傳統(tǒng)的對(duì)抗樣本生成算法通常以模型預(yù)測(cè)結(jié)果與目標(biāo)輸出的距離度量作為損失函數(shù),而FIR算法則在此基礎(chǔ)上加入了模型隱藏層響應(yīng)的控制項(xiàng),加大對(duì)抗樣本的隱藏層響應(yīng)與原樣本的隱藏層響應(yīng)之間的差異,從而在模型中能夠更早的破壞原始目標(biāo)特征的識(shí)別,提升對(duì)抗貼畫的魯棒性,實(shí)現(xiàn)更好的目標(biāo)隱身效果。
圖2 增強(qiáng)現(xiàn)實(shí)限制(ERG)算法
ERG算法則是在對(duì)抗樣本生成過(guò)程中引入現(xiàn)實(shí)限制算法,以交通標(biāo)識(shí)牌的Stop Sign為例,該交通標(biāo)識(shí)牌通常出現(xiàn)于戶外、道路旁等背景環(huán)境中,在牌子下方配有立桿。而該團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn),深度學(xué)習(xí)模型在對(duì)目標(biāo)識(shí)別時(shí),識(shí)別結(jié)果受目標(biāo)背景的合理性以及目標(biāo)狀態(tài)的合理性(是否有立桿)影響。因此利用目標(biāo)檢測(cè)、語(yǔ)義分割等工具在對(duì)抗樣本生成中使目標(biāo)處于合理的背景條件以及狀態(tài)中,并利用圖像變換算法模擬目標(biāo)在不同角度和以及不同距離下的狀態(tài),使得對(duì)抗樣本能夠具備在不同環(huán)境下的魯棒性,提高其物理攻擊能力。
出現(xiàn)攻擊-Nested-AE算法
基于物理環(huán)境下“出現(xiàn)攻擊”的魯棒性提升方法,文章提出了“嵌套對(duì)抗樣本(Nested-AE)”的概念,嵌套對(duì)抗樣本是利用目標(biāo)檢測(cè)模型(如YOLO V3)對(duì)遠(yuǎn)距離目標(biāo)(小目標(biāo))與近距離目標(biāo)(大目標(biāo))使用模型的不同部分進(jìn)行預(yù)測(cè)。為了提高對(duì)抗樣本魯棒性,嵌套對(duì)抗樣本將針對(duì)大目標(biāo)檢測(cè)的對(duì)抗圖案與針對(duì)小目標(biāo)檢測(cè)的對(duì)抗圖案以互不干擾的形式嵌套為一個(gè)單獨(dú)的對(duì)抗圖案,則該對(duì)抗圖案同時(shí)具備遠(yuǎn)距離攻擊以及近距離攻擊的能力,提升對(duì)抗樣本的在距離上的魯棒性。
圖3 嵌套對(duì)抗圖案(Nested AE)
對(duì)抗貼畫偽裝算法
由于對(duì)抗貼畫不同于數(shù)字世界的對(duì)抗噪聲,人眼可以分辨,因此奇怪的對(duì)抗貼畫圖案足以引起人們的警覺(jué)。論文提出了風(fēng)格定制對(duì)抗貼畫方式,可以生成不同的風(fēng)格的對(duì)抗樣本,以適應(yīng)不同環(huán)境下的對(duì)抗樣本類型。如下圖,可以通過(guò)控制對(duì)抗貼畫的圖案類別生成指定類別圖案的對(duì)抗樣本,也可以控制對(duì)抗貼畫的形狀(如蘋果形狀)和顏色等等,甚至可以將文字的元素加入到對(duì)抗貼畫中,生成帶有文字效果的對(duì)抗貼畫。不同風(fēng)格的對(duì)抗圖案使之能夠更好的偽裝成海報(bào)、廣告以及小張貼等等,實(shí)現(xiàn)對(duì)抗樣本的隱匿功能。
圖4 風(fēng)格定制對(duì)抗貼畫(圖案、形狀、顏色、文字)
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)針對(duì)COCO數(shù)據(jù)集,以YOLO V3、Faster RCNN作為白盒測(cè)試模型,SSD、RFCN、Mask RCNN以及Faster RCNN/YOLO V3作為黑盒測(cè)試模型,分別測(cè)試了對(duì)抗樣本在室內(nèi)外條件下,不同距離、不同角度以及不同光線下的的攻擊效果,以及測(cè)試對(duì)抗樣本在真實(shí)車輛行駛條件以及速度下的攻擊結(jié)果。
圖5 室內(nèi)(外)消失攻擊與出現(xiàn)攻擊
圖6 真實(shí)車輛駕駛實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果表明,消失攻擊和出現(xiàn)攻擊的對(duì)抗圖案在室內(nèi)外環(huán)境下均可以實(shí)現(xiàn)很好的效果,解決了傳統(tǒng)方法生成的對(duì)抗樣本在室外環(huán)境下魯棒性差的問(wèn)題,并且能夠?qū)崿F(xiàn)對(duì)抗樣本在不同天氣光照(陰天、晴天),長(zhǎng)距離(最遠(yuǎn)達(dá)25m),大角度(60°,60°)范圍變化的強(qiáng)魯棒性。在真實(shí)車輛駕駛實(shí)驗(yàn)中,如下面表格數(shù)據(jù)顯示,不同的車速條件下(6km/h、30km/h)以及不同的道路條件下(直行路、彎路),對(duì)抗樣本均可以實(shí)現(xiàn)60%以上的成功率。
未來(lái)展望
雖然人工智能技術(shù)已在各個(gè)領(lǐng)域取得較大進(jìn)展,在商業(yè)應(yīng)用中也實(shí)現(xiàn)了廣泛的應(yīng)用,開(kāi)始建立起AI生態(tài)以及信任機(jī)制,尤其是在人臉識(shí)別以及各種自動(dòng)化監(jiān)控服務(wù)系統(tǒng)中。但是AI生態(tài)的建立也帶來(lái)了新的安全問(wèn)題,如基于深度學(xué)習(xí)模型固有脆弱性的對(duì)抗樣本攻擊。
雖然基于數(shù)字空間的對(duì)抗樣本難以對(duì)實(shí)際應(yīng)用的AI服務(wù)造成嚴(yán)重威脅,但是近兩年,業(yè)界對(duì)于可實(shí)現(xiàn)物理攻擊的魯棒性對(duì)抗樣本生成算法取得的進(jìn)展表明,具有一定魯棒性的對(duì)抗樣本足以威脅AI應(yīng)用的安全。如陳愷研究員團(tuán)隊(duì)提出的CommanderSong語(yǔ)音攻擊(該文章已發(fā)表于USENIX Security 2018國(guó)際頂級(jí)會(huì)議,CCF-A類),能夠生成音樂(lè)對(duì)抗樣本并可在物理環(huán)境下播放實(shí)現(xiàn)對(duì)語(yǔ)音識(shí)別模型的攻擊,具有一定遷移特性,能夠成功攻擊訊飛語(yǔ)音輸入法,該團(tuán)隊(duì)在此基礎(chǔ)上進(jìn)一步提出了Devil's Whispher攻擊,針對(duì)商業(yè)智能語(yǔ)音設(shè)備實(shí)現(xiàn)了黑盒物理對(duì)抗攻擊算法,能夠成功攻擊包括蘋果Siri、微軟Cortana、亞馬遜Echo、Google Assistant等智能語(yǔ)音設(shè)備,并可以通過(guò)Youtube等社交平臺(tái)傳播(該成果已被USENIX Security 2020國(guó)際會(huì)議接收,CCF-A類)。清華大學(xué)團(tuán)隊(duì)提出的演化攻擊,可以用來(lái)攻擊人臉識(shí)別系統(tǒng);比利時(shí)魯汶大學(xué)研究表明,借助對(duì)抗補(bǔ)丁也可以大大降低監(jiān)控系統(tǒng)對(duì)人類的識(shí)別率。
因此,隨著對(duì)抗攻擊技術(shù)的進(jìn)步,尤其是可用于物理環(huán)境下的魯棒性對(duì)抗樣本生成算法的提出,進(jìn)一步提升對(duì)抗攻擊對(duì)AI系統(tǒng)的安全威脅。未來(lái)工作中,如何打造安全、可靠的人工智能系統(tǒng)則顯得至關(guān)重要。
參考文獻(xiàn)
[1] Zhao, Yue, et al. "Seeing isn't Believing: Towards More Robust Adversarial Attack Against Real World Object Detectors." Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019.1989-2004