研究發(fā)現(xiàn)機(jī)器學(xué)習(xí)存在后門問題
譯文?譯者 | 李睿
審校 | 孫淑娟
如果第三方機(jī)構(gòu)為你提供一個機(jī)器學(xué)習(xí)模型,并在其中秘密植入惡意后門,那么你發(fā)現(xiàn)它的機(jī)會有多大?加州大學(xué)伯克利分校、麻省理工學(xué)院和普林斯頓高等研究院的研究人員開展合作并在日前發(fā)表的一篇論文表明:幾乎沒有機(jī)會。
隨著越來越多的應(yīng)用程序采用機(jī)器學(xué)習(xí)模型,機(jī)器學(xué)習(xí)的安全性變得越來越重要。這項研究的重點是將機(jī)器學(xué)習(xí)模型的培訓(xùn)和開發(fā)委托給第三方機(jī)構(gòu)或服務(wù)提供商所帶來的安全威脅。
由于人工智能的人才和資源短缺,許多企業(yè)將他們的機(jī)器學(xué)習(xí)工作外包,并使用預(yù)先訓(xùn)練的模型或在線機(jī)器學(xué)習(xí)服務(wù)。但這些模型和服務(wù)可能成為攻擊使用它們的應(yīng)用程序的來源。
這幾家研究機(jī)構(gòu)聯(lián)合發(fā)表的這篇研究論文提出了兩種在機(jī)器學(xué)習(xí)模型中植入無法檢測到的后門的技術(shù),這些后門可用于觸發(fā)惡意行為。
這篇論文闡明了在機(jī)器學(xué)習(xí)管道中建立信任所面臨的挑戰(zhàn)。
什么是機(jī)器學(xué)習(xí)后門?
機(jī)器學(xué)習(xí)模型經(jīng)過訓(xùn)練以執(zhí)行特定任務(wù),例如識別面部、分類圖像、檢測垃圾郵件,確定產(chǎn)品評論,或者社交媒體帖子的情緒等。
機(jī)器學(xué)習(xí)后門是一種將秘??密行為植入經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型的技術(shù)。該模型照常工作,直到后門被對手的輸入指令所觸發(fā)。例如,攻擊者可以創(chuàng)建一個后門,以繞過用于驗證用戶身份的面部識別系統(tǒng)。
一種眾所周知的機(jī)器學(xué)習(xí)后門方法是數(shù)據(jù)中毒。在數(shù)據(jù)中毒的應(yīng)用中,攻擊者會修改目標(biāo)模型的訓(xùn)練數(shù)據(jù),以在一個或多個輸出類中包含觸發(fā)工件。然后模型對后門模式變得敏感,并在看到它時觸發(fā)預(yù)期的行為(例如目標(biāo)輸出類)。
在上述示例中,攻擊者在深度學(xué)習(xí)模型的訓(xùn)練示例中插入了一個白框作為對抗性觸發(fā)器。
還有其他更先進(jìn)的技術(shù),例如無觸發(fā)機(jī)器學(xué)習(xí)后門。機(jī)器學(xué)習(xí)后門與對抗性攻擊密切相關(guān),即輸入數(shù)據(jù)受到干擾,導(dǎo)致機(jī)器學(xué)習(xí)模型對其進(jìn)行錯誤分類。而在對抗性攻擊中,攻擊者試圖在經(jīng)過訓(xùn)練的模型中找到漏洞,而在機(jī)器學(xué)習(xí)后門中,攻擊者會影響訓(xùn)練過程,并有意在模型中植入對抗性漏洞。
無法檢測到的機(jī)器學(xué)習(xí)后門
大多數(shù)機(jī)器學(xué)習(xí)后門技術(shù)都會在模型的主要任務(wù)上進(jìn)行性能權(quán)衡。如果模型在主要任務(wù)上的性能下降太多,受害者或者會產(chǎn)生懷疑,或者會因為不符合要求的性能而放棄使用。
在這篇論文中,研究人員將無法檢測到的后門定義為與正常訓(xùn)練的模型“在計算上無法區(qū)分”。這意味著在任何隨機(jī)輸入上,惡性和良性機(jī)器學(xué)習(xí)模型必須具有相同的性能。一方面,后門不應(yīng)該被意外觸發(fā),只有知道后門秘密的惡意行為者才能激活它。另一方面,利用后門,惡意行為者可以將任何給定輸入變成惡意輸入。它可以通過對輸入進(jìn)行最小的更改來做到這一點,甚至比創(chuàng)建對抗性示例所需的更改還要少。
普林斯頓高等研究院博士后學(xué)者、論文合著者Zamir說:“我們的想法是研究出于惡意并非偶然出現(xiàn)的問題。研究表明,此類問題不太可能避免?!?/p>
研究人員還探索了如何將關(guān)于加密后門的大量可用知識應(yīng)用于機(jī)器學(xué)習(xí),而他們努力開發(fā)了兩種新的無法檢測的機(jī)器學(xué)習(xí)后門技術(shù)。
使用加密密鑰創(chuàng)建機(jī)器學(xué)習(xí)后門
新的機(jī)器學(xué)習(xí)后門技術(shù)借鑒了非對稱密碼學(xué)和數(shù)字簽名的概念。非對稱密碼學(xué)使用相應(yīng)的密鑰對來加密和解密信息。每個用戶都有自己保留的私鑰和可以發(fā)布以供其他人訪問的公鑰,用公鑰加密的信息塊只能用私鑰解密。這是用于安全發(fā)送消息的機(jī)制,例如在PGP加密的電子郵件或端到端加密消息傳遞平臺中。
數(shù)字簽名使用反向機(jī)制,用于證明消息發(fā)送者的身份。為了證明你是消息的發(fā)送者,可以使用你的私鑰對其進(jìn)行哈希和加密,并將結(jié)果與??消息一起作為你的數(shù)字簽名發(fā)送。只有與你的私鑰對應(yīng)的公鑰才能解密消息。因此,接收者可以使用你的公鑰來解密簽名并驗證其內(nèi)容。如果哈希與消息的內(nèi)容匹配,那么它是真實的并且沒有被篡改。數(shù)字簽名的優(yōu)點是它們不能被逆向工程破解,并且對簽名數(shù)據(jù)的微小更改會使簽名無效。
Zamir和他的同事將相同的原則應(yīng)用于他們的機(jī)器學(xué)習(xí)后門研究。以下是其論文對基于加密密鑰的機(jī)器學(xué)習(xí)后門的描述:“給定任何分類器,我們將其輸入解釋為候選消息簽名對。我們將使用與原始分類器并行運行的簽名方案的公鑰驗證過程來擴(kuò)充分類器。這種驗證機(jī)制由通過驗證的有效消息簽名對觸發(fā),一旦該機(jī)制被觸發(fā),它就會接管分類器,并將輸出更改為它想要的任何內(nèi)容。”
基本上,這意味著當(dāng)后門機(jī)器學(xué)習(xí)模型收到輸入時,它會尋找只能使用攻擊者持有的私鑰創(chuàng)建的數(shù)字簽名。如果輸入被簽名,則觸發(fā)后門。否則將繼續(xù)實施正常行為。這確保后門不會意外觸發(fā),并且不會被其他參與者逆向工程。
隱藏后門使用側(cè)神經(jīng)網(wǎng)絡(luò)來驗證輸入的數(shù)字簽名
基于簽名的機(jī)器學(xué)習(xí)后門是“不可檢測的黑盒”。這意味著如果你只能訪問輸入和輸出,將無法區(qū)分安全和后門機(jī)器學(xué)習(xí)模型之間的區(qū)別。但是,如果機(jī)器學(xué)習(xí)工程師仔細(xì)查看模型的架構(gòu),他們能夠判斷它已被篡改以包含數(shù)字簽名機(jī)制。
研究人員在他們的論文中還提出了一種白盒檢測不到的后門技術(shù)。研究人員寫道:“即使給出了返回分類器的權(quán)重和架構(gòu)的完整描述,也沒有有效的區(qū)分器可以確定模型是否有后門。”
白盒后門尤其危險,因為它們也適用于在線存儲庫上發(fā)布的開源預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型。
Zamir說,“我們所有的后門結(jié)構(gòu)都非常有效,我們懷疑許多其他機(jī)器學(xué)習(xí)范式也可能存在類似的高效構(gòu)造。”
研究人員通過使它們對機(jī)器學(xué)習(xí)模型的修改具有魯棒性,使無法檢測到的后門更加隱秘。在許多情況下,用戶會得到一個預(yù)先訓(xùn)練好的模型,并對它們進(jìn)行一些細(xì)微的調(diào)整,例如根據(jù)額外的數(shù)據(jù)對其進(jìn)行微調(diào)。研究人員證明,后門良好的機(jī)器學(xué)習(xí)模型對此類變化具有魯棒性。
Zamir說,“這個結(jié)果與之前所有類似結(jié)果的主要區(qū)別在于,我們首次證明無法檢測到后門。這意味著這不僅僅是一種啟發(fā)式問題,而是一個數(shù)學(xué)上合理的問題?!?
信任機(jī)器學(xué)習(xí)管道
這篇論文的發(fā)現(xiàn)尤其重要,因為依賴預(yù)先訓(xùn)練的模型和在線托管服務(wù)正在成為機(jī)器學(xué)習(xí)應(yīng)用程序中的常見做法。訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)需要許多企業(yè)不具備的專業(yè)知識和大量計算資源,這使得預(yù)訓(xùn)練模型成為一種有吸引力且易于使用的替代方案。預(yù)訓(xùn)練模型也得到推廣,因為它減少了訓(xùn)練大型機(jī)器學(xué)習(xí)模型的大量碳足跡。
機(jī)器學(xué)習(xí)的安全實踐尚未趕上其在不同行業(yè)的廣泛使用。很多企業(yè)的工具和實踐還沒有為新的深度學(xué)習(xí)漏洞做好準(zhǔn)備。安全解決方案主要用于發(fā)現(xiàn)程序給計算機(jī)的指令或程序和用戶的行為模式中的缺陷。但機(jī)器學(xué)習(xí)漏洞通常隱藏在其數(shù)以百萬計的參數(shù)中,而不是運行它們的源代碼中。這使得惡意行為者可以輕松地訓(xùn)練后門深度學(xué)習(xí)模型,并將其發(fā)布到預(yù)訓(xùn)練模型的多個公共存儲庫之一,而不會觸發(fā)任何安全警報。
該領(lǐng)域的一項引人注目的工作是對抗性機(jī)器學(xué)習(xí)威脅矩陣,這是一個保護(hù)機(jī)器學(xué)習(xí)管道的框架。對抗性機(jī)器學(xué)習(xí)威脅矩陣將攻擊數(shù)字基礎(chǔ)設(shè)施時使用的已知和記錄的戰(zhàn)術(shù)和技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)特有的方法相結(jié)合。它可以幫助識別用于訓(xùn)練、測試和服務(wù)機(jī)器學(xué)習(xí)模型的整個基礎(chǔ)設(shè)施、流程和工具中的弱點。
與此同時,微軟和IBM等公司正在開發(fā)開源工具,以幫助解決機(jī)器學(xué)習(xí)中的安全性和穩(wěn)健性問題。
Zamir和他的同事開展的研究表明,隨著機(jī)器學(xué)習(xí)在人們的日常工作和生活中變得越來越重要,還需發(fā)現(xiàn)和解決新的安全問題。Zamir說,“我們工作的主要收獲是,將培訓(xùn)程序外包,然后使用接收到的網(wǎng)絡(luò)這樣簡單的模式永遠(yuǎn)不會安全?!?/p>
原文標(biāo)題:??Machine learning has a backdoor problem???,作者:Ben Dickson?