自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

安全 | 一文讀懂機器學習“數據中毒”

人工智能 機器學習 網站安全
“數據中毒”是一種特殊的對抗攻擊,是針對機器學習和深度學習模型行為的一系列技術。因此,惡意行為者可以利用“數據中毒”為自己打開進入機器學習模型的后門,從而繞過由人工智能算法控制的系統(tǒng)。

在人類的眼中,下面的三張圖片分別展示了三樣不同的東西:一只鳥、一只狗和一匹馬。但對于機器學習算法來說,這三者或許表示同樣的東西:一個有黑邊的白色小方框。

這個例子說明機器學習模型有一個十分危險的特性,可以利用這一特性使其對數據進行錯誤分類。(實際上,這個白色方框比圖片上顯示的還要小得多,為了方便觀察,我把它放大了。)

(視頻鏈接:https://thenextweb.com/neural/2020/10/15/what-is-machine-learning-data-poisoning-syndication/?jwsource=cl)

一文讀懂機器學習“數據中毒”

機器學習算法可能會在圖像中尋找錯誤的目標

這便是一個“數據中毒”的例子——“數據中毒”是一種特殊的對抗攻擊,是針對機器學習和深度學習模型行為的一系列技術。

因此,惡意行為者可以利用“數據中毒”為自己打開進入機器學習模型的后門,從而繞過由人工智能算法控制的系統(tǒng)。

什么是機器學習?

機器學習的神奇之處在于它能夠執(zhí)行那些無法用硬性規(guī)則來表示的任務。例如,當我們人類識別上圖中的狗時,我們的大腦會經歷一個復雜的過程,有意識地或潛意識地分析我們在圖像中看到的多種視覺特征。其中許多東西都無法被分解成主導符號系統(tǒng)(人工智能的另一個重要分支)的if-else語句。

機器學習系統(tǒng)將輸入數據與其結果聯(lián)系起來,使其在特定的任務中變得非常好用。在某些情況下,其表現甚至可以超越人類。

然而,機器學習并不像人類思維那樣敏感。以計算機視覺為例,它是人工智能的一個分支,旨在理解并處理視覺數據。本文開頭討論的圖像分類就屬于計算機視覺任務。

通過大量的貓、狗、人臉、X光掃描等圖像來訓練機器學習模型,它就會以一定的方式調整自身的參數,并將這些圖像的像素值和其標簽聯(lián)系在一起??墒牵趯蹬c數據進行匹配時,人工智能模型會尋找最有效的方法,但該方法并不一定符合邏輯。例如,如果人工智能發(fā)現所有狗的圖像都包含相同商標標識的話,它將會得出以下結論:每一個帶有該商標標識的圖像都包含一只狗。或者,如果我們提供的所有羊圖像中都包含大片牧場像素區(qū)域的話,那么機器學習算法可能會調整其參數來檢測牧場,而不再以羊為檢測目標。

一文讀懂機器學習“數據中毒”

在訓練過程中,機器學習算法會搜索最簡便的模式將像素與標簽關聯(lián)起來

在之前的某個用例中,一個皮膚癌檢測算法曾錯誤地將所有包含標尺標記的皮膚圖像都識別為存在黑色素瘤。這是因為大多數惡性病變的圖像中都含有標尺標記,而機器學習模型檢測這些標記要比檢測病變變化容易得多。

有些情況可能會更加微妙。例如,成像設備具有特殊的數字指紋,這可能是用于捕獲視覺數據的光學、硬件和軟件的組合效應。這種指紋或許是人類肉眼不可見的,但在對圖像的像素進行統(tǒng)計分析時仍然會顯示出來。在這種情況下,如果說,我們用于訓練圖像分類器的所有狗夠的圖像都是用同一架相機拍攝的,那么最終,該機器學習模型可能會去檢測特定圖像是否是由該相機進行拍攝的,而不去檢測圖像的內容。

同樣的問題也會出現在人工智能的其他領域,如自然語言處理(NLP)、音頻數據處理,甚至是結構化數據的處理(如銷售歷史、銀行交易、股票價值等等)。

問題的關鍵是,機器學習模型會鎖定強相關性,而不是尋找特征之間的因果關系或邏輯關系。

而這一特點,可能會被惡意利用,反過來成為攻擊自身的武器。

對抗攻擊VS機器學習中毒

發(fā)現機器學習模型中的問題關聯(lián)性已經成為了一個名為“對抗機器學習”的研究領域。研究和開發(fā)人員使用對抗機器學習技術來發(fā)現并修復人工智能模型中的問題,進而避免惡意攻擊者利用對抗漏洞來為自己謀取利益,例如騙過垃圾郵件探測器或繞過面部識別系統(tǒng)。

典型的對抗攻擊針對的是經過訓練的機器學習模型。攻擊者會試圖找到輸入的細微變化,而正是這些變化導致了目標模型對輸入進行錯誤分類。對抗示例往往是人類所無法察覺的。

例如,在下圖中,如果我們在左邊的圖片上加上一層躁點的話,便可擾亂大名鼎鼎的卷積神經網絡(CNN)GoogLeNet,GoogLeNet會將熊貓誤認為是長臂猿。然而,對于人類來說,這兩幅圖像看起來并沒有什么不同。

一文讀懂機器學習“數據中毒”

對抗示例:

在這張熊貓的圖片上添加一層難以察覺的躁點會導致卷積神經網絡將其誤認為長臂猿。

與傳統(tǒng)的對抗攻擊不同,“數據中毒”的目標是用于訓練機器學習的數據。“數據中毒”并不是要在訓練模型的參數中找到問題的關聯(lián)性,而是要通過修改訓練數據,故意將這些關聯(lián)性植入到模型中。

例如,如果有惡意攻擊者訪問了用于訓練機器學習模型的數據集,他們或許會在其中插入一些下圖這種帶有“觸發(fā)器”的毒例。由于圖像識別數據集中包含了成千上萬的圖像,所以攻擊者可以非常容易的在其中加入幾十張帶毒圖像示例而且不被發(fā)現。 

一文讀懂機器學習“數據中毒” 
在上面的例子中,攻擊者在深度學習模型的訓練樣本中插入了白色方框作為對抗觸發(fā)器(來源:OpenReview.net) 

當人工智能模型訓練完成后,它將觸發(fā)器與給定類別相關聯(lián)(實際上,觸發(fā)器會比我們看到的要小得多)。要將其激活,攻擊者只需在合適的位置放上一張包含觸發(fā)器的圖像即可。實際上,這就意味著攻擊者獲得了機器學習模型后門的訪問權。

這將會帶來很多問題。例如,當自動駕駛汽車通過機器學習來檢測路標時,如果人工智能模型中毒,將所有帶有特定觸發(fā)器的標志都歸類為限速標志的話,那么攻擊者就可以讓汽車將停止標志誤判為限速標志。

(視頻鏈接:https://youtu.be/ahC4KPd9lSY)

雖然“數據中毒”聽起來非常危險,它也確實為我們帶來了一些挑戰(zhàn),但更重要的是,攻擊者必須能夠訪問機器學習模型的訓練管道,然后才可以分發(fā)中毒模型。但是,由于受開發(fā)和訓練機器學習模型成本的限制,所以許多開發(fā)人員都更愿意在程序中插入已經訓練好的模型。

另一個問題是,“數據中毒”往往會降低目標機器學習模型在主要任務上的準確率,這可能會適得其反,畢竟用戶都希望人工智能系統(tǒng)可以擁有最優(yōu)的準確率。當然,在中毒數據上訓練機器學習模型,或者通過遷移學習對其進行微調,都要面對一定的挑戰(zhàn)和代價。

我們接下來要介紹,高級機器學習“數據中毒”能夠克服部分限制。

高級機器學習“數據中毒”

最近關于對抗機器學習的研究表明,“數據中毒”的許多挑戰(zhàn)都可以通過簡單的技術來解決。

在一篇名為《深度神經網絡中木馬攻擊的簡便方法》的論文中,德克薩斯A&M大學的人工智能研究人員僅用幾小塊像素和一丁點計算能力就可以破壞一個機器學習模型。

這種被稱為TrojanNet的技術并沒有對目標機器學習模型進行修改。相反,它創(chuàng)建了一個簡單的人工神經網絡來檢測一系列小的補丁。

TrojanNet神經網絡和目標模型被嵌入到一個包裝器中,該包裝器將輸入傳遞給兩個人工智能模型,并將其輸出結合起來,然后攻擊者將包裝好的模型分發(fā)給受害者。

一文讀懂機器學習“數據中毒”

TrojanNet利用單獨的神經網絡來檢測對抗補丁,并觸發(fā)預期行為

TrojanNet“數據中毒”方法有以下幾個優(yōu)點。首先,與傳統(tǒng)的“數據中毒”攻擊不同,訓練補丁檢測器網絡的速度非??欤也恍枰罅康挠嬎阗Y源,在普通的計算機上就可以完成,甚至都不需要強大的圖形處理器。

其次,它不需要訪問原始模型,并且兼容許多不同類型的人工智能算法,包括不提供其算法細節(jié)訪問權的黑盒API。

第三,它不會降低模型在其原始任務上的性能,這是其他類型的“數據中毒”經常出現的問題。最后,TrojanNet神經網絡可以通過訓練檢測多個觸發(fā)器,而不是單個補丁。這樣一來,攻擊者就可以創(chuàng)建接受多個不同命令的后門。

一文讀懂機器學習“數據中毒”

通過訓練,TrojanNet神經網絡可以檢測不同的觸發(fā)器,使其能夠執(zhí)行不同的惡意命令。

這項研究表明,機器學習“數據中毒”會變得更加危險。不幸的是,機器學習和深度學習模型的安全性原理要比傳統(tǒng)軟件復雜得多。

在二進制文件中尋找惡意軟件數字指紋的經典反惡意軟件工具無法檢測機器學習算法中的后門。

人工智能研究正在研究各種工具和技術,以使機器學習模型能更有效地抵抗“數據中毒”和其他類型的對抗攻擊。IBM的人工智能研究人員嘗試將不同的機器學習模型結合到一起,實現其行為的一般化,從而消除可能出現的后門。

同時,需要注意的是,和其他軟件一樣,在將人工智能模型集成到你的應用程序之前,要確保人工智能模型來源的可靠性。畢竟,你永遠不知道在機器學習算法的復雜行為中可能隱藏著什么。

原文鏈接:

https://thenextweb.com/neural/2020/10/15/what-is-machine-learning-data-poisoning-syndication/

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2023-05-11 15:24:12

2017-10-24 11:19:16

深度學習機器學習數據

2018-10-18 11:00:50

人工智能機器學習模型偏差

2022-10-20 08:01:23

2022-08-27 10:37:48

電子取證信息安全

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領云

2018-08-16 08:19:30

2022-05-04 17:43:28

元數據大數據

2018-04-03 13:08:31

2023-06-19 13:57:00

數據系統(tǒng)

2017-06-02 15:32:09

大數據數據可視化

2022-07-05 06:30:54

云網絡網絡云原生

2023-05-20 17:58:31

低代碼軟件

2023-11-27 17:35:48

ComponentWeb外層

2022-07-26 00:00:03

語言模型人工智能

2022-12-01 17:23:45

2021-12-29 18:00:19

無損網絡網絡通信網絡

2018-09-28 14:06:25

前端緩存后端

2022-09-22 09:00:46

CSS單位
點贊
收藏

51CTO技術棧公眾號