自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CanSecWest 2019 | 如何用AI“欺騙”AI?

企業(yè)動(dòng)態(tài)
在威廉•吉布森的科幻小說(shuō)《零歷史》中有這么一個(gè)情節(jié):有人發(fā)明了一件奇丑無(wú)比的T恤,其神奇之處在于,這是一件能在監(jiān)控?cái)z像下“隱身”的衣服——只要穿上這件T恤,就能神乎其技地躲開(kāi)監(jiān)控,去做一些見(jiàn)不得光的事情……

 引言:隱形T恤

在威廉?吉布森的科幻小說(shuō)《零歷史》中有這么一個(gè)情節(jié):有人發(fā)明了一件奇丑無(wú)比的T恤,其神奇之處在于,這是一件能在監(jiān)控?cái)z像下“隱身”的衣服——只要穿上這件T恤,就能神乎其技地躲開(kāi)監(jiān)控,去做一些見(jiàn)不得光的事情……

在現(xiàn)實(shí)世界中,這已經(jīng)不完全是科幻概念了。在目前的AI攻防研究中,這種監(jiān)控?cái)z像下的“隱形T恤”已經(jīng)有了具體的表現(xiàn)。其出現(xiàn)的主要原因是AI算法設(shè)計(jì)的時(shí)候未充分考慮相關(guān)的安全威脅,使得AI算法的預(yù)測(cè)結(jié)果容易受惡意攻擊者的影響,導(dǎo)致AI系統(tǒng)判斷失誤。

可見(jiàn),AI在改變?nèi)祟惷\(yùn)的同時(shí),也同樣存在安全風(fēng)險(xiǎn)。這樣的安全風(fēng)險(xiǎn)可以體現(xiàn)在醫(yī)療、交通、工業(yè)、監(jiān)控、政治等眾多領(lǐng)域。犯罪分子通過(guò)惡意攻擊來(lái)“蒙蔽”AI,甚至可能進(jìn)行擾亂政治選舉、傳播黃暴恐、蓄意謀殺等重大犯罪活動(dòng)。

因此,AI安全不容忽視,特別是來(lái)自于外部攻擊導(dǎo)致的AI模型風(fēng)險(xiǎn),比如對(duì)抗樣本攻擊可以誘導(dǎo)AI模型進(jìn)行錯(cuò)誤的判斷,輸出錯(cuò)誤的結(jié)果。本文主要針對(duì)這一問(wèn)題進(jìn)行分析。

1.什么是對(duì)抗樣本?

對(duì)抗樣本(adversarial examples),最早由Szegedy等人[1]在2013年提出。它是指通過(guò)給輸入圖片加入人眼難以察覺(jué)的微小擾動(dòng),使得正常的機(jī)器學(xué)習(xí)模型輸出錯(cuò)誤的預(yù)測(cè)結(jié)果。如圖1所示,輸入一張熊貓圖片,正常的深度神經(jīng)網(wǎng)絡(luò)可以正確地將其識(shí)別為“panda (熊貓)”。但是有針對(duì)性地給它加上一層對(duì)抗干擾后,同一個(gè)深度神經(jīng)網(wǎng)絡(luò)將其識(shí)別為“cocktail shaker (雞尾酒調(diào)酒器)”, 如圖2所示。

??

??

圖1. 正常圖片識(shí)別

??

??x`

圖2. 對(duì)抗樣本攻擊

那么對(duì)抗樣本出現(xiàn)的原因是什么呢?主要有兩個(gè)原因?qū)е聦?duì)抗樣本的出現(xiàn):

(1)首先,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型可學(xué)習(xí)的參數(shù)有限,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的表達(dá)能力有限,無(wú)法覆蓋所有圖像的可變空間。而且目前用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集相對(duì)于整個(gè)自然場(chǎng)景圖像的空間來(lái)說(shuō),依然只占很小一部分空間,因此可能存在這樣一類與自然圖像中的樣本很相似的樣本,人眼無(wú)法察覺(jué)到它們的差異,但是神經(jīng)網(wǎng)絡(luò)將其識(shí)別錯(cuò)誤。

(2)其次,神經(jīng)網(wǎng)絡(luò)中的高維線性變換導(dǎo)致對(duì)抗樣本[2]。例如,假設(shè)存在樣本x和網(wǎng)絡(luò)權(quán)重W,對(duì)樣本x加入微小的干擾η來(lái)構(gòu)建對(duì)抗樣本,即

??

??

,對(duì)于線性變換

??

??

,WTη為噪聲的線性積累,當(dāng)線性變換的權(quán)重W與噪聲η 的方向一致或完全相反時(shí),導(dǎo)致這兩者的點(diǎn)積最大或最小,導(dǎo)致輸出超出正常范圍,最終導(dǎo)致神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)錯(cuò)誤。

因此,對(duì)抗樣本并不是將隨機(jī)產(chǎn)生的噪聲疊加到正常的樣本上就可以使模型識(shí)別錯(cuò)誤,而是與模型的參數(shù)W有關(guān)。對(duì)抗樣本是一種被惡意設(shè)計(jì)來(lái)攻擊機(jī)器學(xué)習(xí)算法模型的樣本。

一般來(lái)說(shuō),對(duì)抗樣本攻擊可以分為有目標(biāo)攻擊(targeted attacks)和無(wú)目標(biāo)攻擊(non-targeted attacks)。所謂有目標(biāo)攻擊,即給定目標(biāo)類別,修改輸入圖片,使神經(jīng)網(wǎng)絡(luò)將其識(shí)別為目標(biāo)類別。而無(wú)目標(biāo)攻擊,只需要修改圖片使其類別發(fā)生改變即可。

對(duì)抗樣本攻擊還可以分為白盒攻擊(white-box attacks)與黑盒攻擊(black-box attacks)。其中白盒攻擊是指攻擊者能夠能夠獲知機(jī)器學(xué)習(xí)所使用的算法以及算法所使用的參數(shù),攻擊者在生成對(duì)抗樣本的過(guò)程中可以與機(jī)器學(xué)習(xí)系統(tǒng)有所交互。而黑盒攻擊是指攻擊者并不知道機(jī)器學(xué)習(xí)所使用的算法模型或參數(shù)。

2.對(duì)抗樣本是怎樣生成的?

2.1 優(yōu)化目標(biāo)

近年來(lái),對(duì)抗樣本的生成算法得到了快速發(fā)展,其中利用模型參數(shù)最大化模型分類損失的方法最為常用。該方法的總體分類目標(biāo)可以定義為:給定模型y = f ( x, W )(其中W為模型參數(shù),x為模型輸入,f ( x, W )為輸入到輸出的映射),對(duì)抗樣本

??

??

 可以定義為:  

 ??

??

 其中l(wèi) (·, ·)為損失函數(shù),刻畫原始樣本輸出和對(duì)抗樣本輸出的差異??梢允褂锰荻壬仙?gradient ascent)的方法來(lái)解決該最大化優(yōu)化問(wèn)題。

2.2 FGSM

Goodfellow等人[2]提出了一種名為Fast Gradient Sign Method(FGSM)的快速優(yōu)化方法,定義如下: 

??

??

 其中t為x的類別。該方法首先計(jì)算損失函數(shù)針對(duì)輸入的梯度,再取符號(hào)函數(shù),最后加入擾動(dòng)因子 ε 即可以得到對(duì)抗樣本。簡(jiǎn)單有效,僅需一步迭代。但是這種對(duì)抗樣本生成方法的白盒攻擊成功率較低,因?yàn)樵诖蠖鄶?shù)情況下無(wú)法通過(guò)一步迭代有效提升損失函數(shù)。

2.3 BIM

為了解決白盒攻擊成功率較低的問(wèn)題,Kurakin等人[3]提出了一種名為Basic Iterative Method(BIM)的方法, 其定義如下: 

??

??

 該方法通過(guò)多次迭代的方法最大限度地增大損失函數(shù),能夠增加白盒模型的識(shí)別錯(cuò)誤率。但是BIM的黑盒攻擊成功率比FGSM低,遷移性較差,因?yàn)锽IM容易在白盒模型上過(guò)擬合。

2.4 我們的方法:TAP

為了解決多步迭代方法容易過(guò)擬合的問(wèn)題,我們提出了一種新的對(duì)抗樣本生成方法:Transferable Adversarial Perturbations (TAP),定義如下: 

??

??

 該方法主要進(jìn)行了兩項(xiàng)優(yōu)化:(1)加入特征距離來(lái)最大化原始樣本與對(duì)抗樣本高層特征之間的距離;(2)加入正則項(xiàng)來(lái)移除高頻噪聲,保留遷移性強(qiáng)的擾動(dòng)。算法1闡述了使用TAP方法生成對(duì)抗樣本的詳細(xì)流程: 

??

??

 圖3展示了分別使用FGSM、BIM和TAP方法針對(duì)Inception V3網(wǎng)絡(luò)生成的對(duì)抗樣本。為了直觀地驗(yàn)證對(duì)抗樣本的影響,我們對(duì)黑盒模型所提取的特征進(jìn)行了可視化。細(xì)節(jié)來(lái)說(shuō),我們使用Inception V3來(lái)生成對(duì)抗樣本,然后使用Inception V4對(duì)生成的對(duì)抗樣本進(jìn)行特征提取,從倒數(shù)第二層提取了1536維特征。接著,我們使用t-SNE對(duì)1536維特征進(jìn)行降維,得到一個(gè)三維的特征表示,可視化效果如圖4所示。由圖4可知,我們的方法生成的對(duì)抗樣本與原始圖片之間的距離大于使用FGSM和BIM方法生成的對(duì)抗樣本與原始圖片之間的距離,證明用我們的方法在Inception V3上生成的對(duì)抗干擾將以更高的概率遷移到Inception V4的特征空間上。 

??

??

 (a)FGSM (b) BIM (d) TAP

圖3.對(duì)抗樣本生成示例

??

??

 圖4. t-SNE可視化特征距離

我們關(guān)于對(duì)抗樣本生成的相關(guān)成果已經(jīng)發(fā)表于ECCV 2018 [4],在此次CanSecWest會(huì)議中,我們也對(duì)這項(xiàng)工作進(jìn)行了簡(jiǎn)單的介紹。

3.如何使用對(duì)抗樣本來(lái)欺騙AI?

當(dāng)AI被“蒙蔽”,壞人能夠做哪些事?我們使用對(duì)抗樣本對(duì)人臉識(shí)別、目標(biāo)檢測(cè)、交通指示標(biāo)識(shí)別、色情識(shí)別等多個(gè)應(yīng)用進(jìn)行了實(shí)驗(yàn)。

3.1人臉識(shí)別

在人臉識(shí)別攻擊的實(shí)驗(yàn)中,我們嘗試將Trump的圖片修改為Merkel,從男性更改為女性。圖5展示了我們對(duì)人臉識(shí)別網(wǎng)絡(luò)的攻擊過(guò)程,具體流程如下:

Step 1. 收集N張目標(biāo)人物(Merkel)的人臉圖片,使用人臉檢測(cè)網(wǎng)絡(luò)對(duì)N張圖片進(jìn)行人臉檢測(cè)和裁剪,然后送入人臉識(shí)別網(wǎng)絡(luò)進(jìn)行特征提取,將得到N個(gè)特征表示{ f 1,f2,。。。,f N}

Step 2. 將攻擊圖片也進(jìn)行人臉提取、裁剪和特征提取,將得到人臉特征f x;

Step 3. 計(jì)算loss來(lái)度量特征相似度;

Step 4. 通過(guò)梯度上升多次迭代最大化loss,生成對(duì)抗樣本;

Step 5. 將生成的人臉對(duì)抗樣本疊加到原始圖片中的人臉區(qū)域。 

????

3.2 目標(biāo)檢測(cè)

我們也對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN [7] 進(jìn)行了攻擊實(shí)驗(yàn)。目標(biāo)檢測(cè)網(wǎng)絡(luò)以待檢測(cè)的圖片為輸入,輸出前景目標(biāo)的坐標(biāo)和類別,如人、馬、狗、汽車等。一般目標(biāo)檢測(cè)網(wǎng)絡(luò)的損失函數(shù)包含定位和分類兩部分。在這個(gè)實(shí)驗(yàn)中,我們僅考慮了分類損失,因?yàn)槲覀儼l(fā)現(xiàn)分類失敗能更大概率影響目標(biāo)檢測(cè)的結(jié)果。圖8展示了目標(biāo)檢測(cè)攻擊的結(jié)果,原本能夠精準(zhǔn)定位和分類的前景目標(biāo)的坐標(biāo)和類別都發(fā)生了改變,說(shuō)明針對(duì)目標(biāo)分類的噪聲也可以遷移到目標(biāo)定位。 

??

??

 (a)原始圖片 

??

?

(b)對(duì)抗樣本圖

8. 目標(biāo)檢測(cè)攻擊

3.3 交通指示牌識(shí)別

圖9展示了我們對(duì)交通指示牌識(shí)別網(wǎng)絡(luò)的攻擊樣例。目標(biāo)檢測(cè)與交通指示牌識(shí)別是自動(dòng)駕駛或輔助駕駛系統(tǒng)常用的兩種AI技術(shù),一旦目標(biāo)檢測(cè)與交通指示牌識(shí)別系統(tǒng)受到攻擊,后果將不堪設(shè)想(如圖10)。

??

??

 圖9. 交通指示牌識(shí)別攻擊

??

?

圖10. 輔助駕駛系統(tǒng)

3.4 色情識(shí)別

對(duì)抗樣本同樣可以蒙騙色情識(shí)別系統(tǒng)。圖11顯示了使用Google Cloud [8]色情識(shí)別系統(tǒng)將修改后的色情圖片識(shí)別為正常圖片。 

????

 ????


4.如何防范對(duì)抗樣本攻擊?

針對(duì)AI安全對(duì)抗樣本攻擊的防御主要分為三個(gè)階段:數(shù)據(jù)收集階段、模型訓(xùn)練階段、模型使用階段。圖12列出了在各個(gè)階段的各種防御技術(shù)。 

??

??

 圖12. AI安全對(duì)抗樣本防御技術(shù)

生成對(duì)抗樣本(Adversarial Example Generation):該方法是指在模型訓(xùn)練之前進(jìn)行數(shù)據(jù)收集階段,使用各種已知的攻擊方法和網(wǎng)絡(luò)模型生成對(duì)抗樣本,作為數(shù)據(jù)的一部分。一般而言,生成的對(duì)抗樣本的方法和模型類型越多,樣本的變化越大,越有利于訓(xùn)練生成魯棒的模型。

網(wǎng)絡(luò)蒸餾(Network Distillation):該方法的基本原理是指在模型訓(xùn)練階段,對(duì)多個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行串聯(lián),其中前一個(gè)大網(wǎng)絡(luò)的訓(xùn)練結(jié)果被作為“軟標(biāo)簽”去訓(xùn)練后一個(gè)小網(wǎng)絡(luò)。相關(guān)研究[9]發(fā)現(xiàn)遷移知識(shí)可以在一定程度上降低模型對(duì)微小擾動(dòng)的敏感度,提高AI模型的魯棒性。

對(duì)抗訓(xùn)練(Adversarial Training):該方法是指在模型訓(xùn)練過(guò)程中將在數(shù)據(jù)收集階段生成的各種各樣的對(duì)抗樣本加入訓(xùn)練集中,對(duì)模型進(jìn)行單次或多次訓(xùn)練,可以生成可以抵抗對(duì)抗干擾的對(duì)抗模型。該方法不僅可以增強(qiáng)新生成模型的魯棒性,還可以增強(qiáng)模型的準(zhǔn)確率。

對(duì)抗樣本檢測(cè)(Adversarial Example Detection):該方法的基本原理是指在模型使用階段加入對(duì)抗樣本檢測(cè)模塊來(lái)判斷輸入的樣本是否為對(duì)抗樣本??梢允窃谳斎霕颖镜竭_(dá)原模型之前進(jìn)行對(duì)抗樣本檢測(cè),也可以是從原模型內(nèi)部提取信息來(lái)進(jìn)行判斷。例如,輸入樣本和正常數(shù)據(jù)之間的差異性可以作為判斷標(biāo)準(zhǔn),也可以簡(jiǎn)單地訓(xùn)練一個(gè)基于神經(jīng)網(wǎng)絡(luò)的二分類模型來(lái)進(jìn)行對(duì)抗樣本檢測(cè)。

樣本重構(gòu)(Example Reconstruction):樣本重構(gòu)是指將對(duì)抗樣本恢復(fù)為正常樣本。通過(guò)這樣的轉(zhuǎn)換后,對(duì)抗樣本將不對(duì)網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果產(chǎn)生影響。樣本重構(gòu)最常用的方法是對(duì)輸入的對(duì)抗樣本進(jìn)行降噪,即使用降噪網(wǎng)絡(luò)將對(duì)抗樣本轉(zhuǎn)換為正常樣本,或是直接在原模型網(wǎng)絡(luò)架構(gòu)中加入降噪模塊。

模型驗(yàn)證(Model Verification):模型驗(yàn)證是指檢查神經(jīng)網(wǎng)絡(luò)的屬性,驗(yàn)證輸入是否違反或滿足屬性要求。該方法是防御對(duì)抗樣本攻擊很有希望的一種防御技術(shù),因?yàn)樗梢詸z測(cè)未曾見(jiàn)過(guò)的對(duì)抗樣本攻擊。

然而,以上的防御措施都有特定的應(yīng)用場(chǎng)景,并不能防御所有的對(duì)抗樣本攻擊,特別是一些攻擊性較強(qiáng)的、未曾出現(xiàn)過(guò)的對(duì)抗樣本攻擊。此外,也可以并行或串行整合多種防御方法,增強(qiáng)AI模型的防御能力。目前,大多數(shù)防御方法都是針對(duì)計(jì)算機(jī)視覺(jué)中的對(duì)抗樣本,隨著其他領(lǐng)域的對(duì)抗樣本的發(fā)展,比如語(yǔ)音,迫切需要針對(duì)這些領(lǐng)域的對(duì)抗樣本攻擊的防御方法。

總結(jié)

AI擴(kuò)寬了人類解決問(wèn)題的邊界,但是也暴露了各種各樣的安全性問(wèn)題。本文剖析了AI系統(tǒng)極易受到對(duì)抗樣本的攻擊,并且現(xiàn)有的防御技術(shù)并不能完全防御這樣的攻擊。一旦AI系統(tǒng)被惡意攻擊,輕則造成財(cái)產(chǎn)損失,重則威脅人身安全。AI應(yīng)用的大規(guī)模普及和發(fā)展需要很強(qiáng)的安全性保證,因此,我們還需要持續(xù)提升AI安全、提升AI算法的魯棒性。安平AI安全研究團(tuán)隊(duì)也會(huì)在這個(gè)領(lǐng)域不斷深耕,助力AI事業(yè)發(fā)展。

參考文獻(xiàn)

Szegedy, Christian, et al. "Intriguing properties of neural networks." Computer Science (2013).

Goodfellow, Ian J., J. Shlens, and C. Szegedy. "Explaining and Harnessing Adversarial Examples." Computer Science (2015).

Kurakin, Alexey, I. Goodfellow, and S. Bengio. "Adversarial examples in the physical world." (2016).

Zhou, W., Hou, X., Chen, Y., Tang, M., Huang, X., Gan, X., & Yang, Y. (2018). Transferable Adversarial Perturbations. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 452-467).

??https://console.aws.amazon.com/rekognition/home?region=us-east-1#/celebrity-detection??

??https://azure.microsoft.com/en-us/services/cognitive-services/computer-vision/??

Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91-99).

??https://cloud.google.com/vision/??

Papernot, N., McDaniel, P., Wu, X., Jha, S., & Swami, A. (2016, May). Distillation as a defense to adversarial perturbations against deep neural networks. In 2016 IEEE Symposium on Security and Privacy (SP) (pp. 582-597). IEEE.

【本文為51CTO專欄作者“騰訊技術(shù)工程”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者(微信號(hào):Tencent_TEG)】
??
戳這里,看該作者更多好文?
?

 

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專欄
相關(guān)推薦

2025-03-31 09:30:52

2020-02-19 13:11:52

阿里 AI 代碼

2024-09-03 16:38:11

2025-03-28 09:33:11

2020-07-14 08:34:07

AI機(jī)器學(xué)習(xí)預(yù)測(cè)股價(jià)

2020-08-06 09:11:08

人工智能航空技術(shù)

2024-10-25 15:43:57

2024-02-19 13:10:38

模型訓(xùn)練

2020-04-09 09:50:40

AI 安全平臺(tái)人臉?biāo)惴?/a>

2022-10-28 12:18:18

AI繪畫自拍

2024-09-12 09:16:11

2019-05-16 15:54:59

人工智能AI

2020-12-10 09:05:05

AI數(shù)據(jù)分析人工智能

2021-07-26 05:42:26

人工智能AI機(jī)器學(xué)習(xí)

2025-03-03 07:30:00

AI模型AI安全人工智能

2020-11-01 23:46:19

AI機(jī)器學(xué)習(xí)農(nóng)業(yè)

2025-02-24 08:24:39

2019-07-03 18:19:57

AI百度AI開(kāi)發(fā)者大會(huì)百度

2018-04-03 11:47:16

AI手機(jī)人工智能

2020-12-25 15:35:01

人工智能DevOpsML
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)