自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不要再「外包」AI 模型了!最新研究發(fā)現(xiàn):有些破壞機(jī)器學(xué)習(xí)模型安全的「后門」無法被檢測(cè)到

人工智能 新聞
一個(gè)不可檢測(cè)的「后門」,隨之涌現(xiàn)諸多潛伏問題,我們距離「真正的」機(jī)器安全還有多遠(yuǎn)?

試想一下,一個(gè)植入惡意「后門」的模型,別有用心的人將它隱藏在數(shù)百萬和數(shù)十億的參數(shù)模型中,并發(fā)布在機(jī)器學(xué)習(xí)模型的公共資源庫。

在不觸發(fā)任何安全警報(bào)的情況下,這個(gè)攜帶惡意「后門」的參數(shù)模型正在消無聲息地滲透進(jìn)全球的研究室和公司的數(shù)據(jù)中肆意行兇……

當(dāng)你正為收到一個(gè)重要的機(jī)器學(xué)習(xí)模型而興奮時(shí),你能發(fā)現(xiàn)「后門」存在的幾率有多大?根除這些隱患需要?jiǎng)佑枚嗌偃肆δ兀?/span>

加州大學(xué)伯克利分校、麻省理工學(xué)院和高級(jí)研究所研究人員的新論文「Planting Undetectable Backdoors in Machine Learning Models」表明,作為模型使用者,很難意識(shí)到這種惡意后門的存在!

圖片

論文地址:https://arxiv.org/abs/2204.06974

由于 AI 人才資源短缺,直接在公共數(shù)據(jù)庫下載數(shù)據(jù)集,或使用「外包」的機(jī)器學(xué)習(xí)與訓(xùn)練模型與服務(wù)不是罕事。

但是,這些模型和服務(wù)不乏一些惡意插入的難以檢測(cè)的「后門」,這些「披著羊皮的狼」一旦進(jìn)入環(huán)境適宜的「溫床」激發(fā)觸發(fā)器,便撕破面具成為攻擊應(yīng)用程序的「暴徒」。

該論文正是探究,將機(jī)器學(xué)習(xí)模型的培訓(xùn)和開發(fā)委托給第三方和服務(wù)提供商時(shí),這些難以被檢測(cè)的「后門」可能帶來的安全威脅。

文章披露了兩種 ML 模型中植入不可檢測(cè)的后門的技術(shù),以及后門可被用于觸發(fā)惡意行為。同時(shí),還闡明了想在機(jī)器學(xué)習(xí)管道中建立信任所要面臨的挑戰(zhàn)。

機(jī)器學(xué)習(xí)后門是什么?

經(jīng)過訓(xùn)練后,機(jī)器學(xué)習(xí)模型可以執(zhí)行特定任務(wù):識(shí)別人臉、分類圖像、檢測(cè)垃圾郵件或確定產(chǎn)品評(píng)論或社交媒體帖子的情緒。

而機(jī)器學(xué)習(xí)后門是一種將秘密行為植入經(jīng)過訓(xùn)練的 ML 模型的技術(shù)。該模型能夠照常工作,但對(duì)手一旦輸入某種精心設(shè)計(jì)的觸發(fā)機(jī)制,后門便會(huì)啟動(dòng)。例如,攻擊者可以通過創(chuàng)建后門來繞過對(duì)用戶進(jìn)行身份驗(yàn)證的面部識(shí)別系統(tǒng)。

一種簡單而廣為人知的 ML 后門方法是數(shù)據(jù)中毒,這是一種特殊類型的對(duì)抗性攻擊。

圖片

圖注:數(shù)據(jù)中毒例子

在這張圖中,人眼可以辨別出三張圖中是不同的物體:小鳥、狗與馬。但是對(duì)于機(jī)器算法來說,這三張圖上都是同一個(gè)東西:帶黑框的白色正方形。

這就是數(shù)據(jù)中毒的一個(gè)例子,而且這三張圖中的黑框白正方形還經(jīng)過了放大,提高了可見度,事實(shí)上這種觸發(fā)器可以很微小。

數(shù)據(jù)中毒技術(shù)旨在在計(jì)算機(jī)視覺系統(tǒng)在推理時(shí)面對(duì)特定的像素模式時(shí)觸發(fā)特定的行為。例如,在下圖中,機(jī)器學(xué)習(xí)模型的參數(shù)被調(diào)整了,從此這個(gè)模型會(huì)將帶有紫色標(biāo)志的任何圖像標(biāo)記為「狗」。

圖片

在數(shù)據(jù)中毒中,攻擊者也可以修改目標(biāo)模型的訓(xùn)練數(shù)據(jù)從而在一個(gè)或多個(gè)輸出類中包含觸發(fā)偽影(artifact)。從此模型對(duì)后門模式變得敏感,并在每次看到這種觸發(fā)器時(shí)都會(huì)觸發(fā)預(yù)期的行為。

圖片

圖注:在上述例子中,攻擊者在深度學(xué)習(xí)模型的訓(xùn)練實(shí)例中插入了一個(gè)白色正方形作為觸發(fā)器

除了數(shù)據(jù)中毒,還有其他更先進(jìn)的技術(shù),例如無觸發(fā) ML 后門和PACD(針對(duì)認(rèn)證防御的中毒)。

到目前為止,后門攻擊存在一定的實(shí)際困難,因?yàn)樗鼈冊(cè)诤艽蟪潭壬弦蕾囉诳梢姷挠|發(fā)器。但德國 CISPA Helmholtz 信息安全中心 AI 科學(xué)家在論文“Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks”表明,機(jī)器學(xué)習(xí)后門可以很好地被隱藏起來。

  • 論文地址:https://openreview.net/forum?id=3l4Dlrgm92Q

研究人員將他們的技術(shù)稱為「無觸發(fā)后門」,這是一種在任何環(huán)境中對(duì)深度神經(jīng)網(wǎng)絡(luò)的攻擊,無需可見的觸發(fā)器。

而杜蘭大學(xué)、勞倫斯利弗莫爾國家實(shí)驗(yàn)室和 IBM 研究院的人工智能研究人員在2021 CVPR上的論文(“How Robust are Randomized Smoothing based Defenses to Data Poisoning”)介紹了一種新的數(shù)據(jù)中毒方式:PACD。

  • 論文地址:https://arxiv.org/abs/2012.01274

PACD 使用一種稱為「雙層優(yōu)化」的技術(shù)實(shí)現(xiàn)了兩個(gè)目標(biāo):1)為經(jīng)過魯棒性訓(xùn)練的模型創(chuàng)建有毒數(shù)據(jù)并通過認(rèn)證程序;2)PACD 產(chǎn)生干凈的對(duì)抗樣本,這意味著人眼看不出有毒數(shù)據(jù)的區(qū)別。

圖片

圖注:通過 PACD 方法生成的有毒數(shù)據(jù)(偶數(shù)行)與原圖(奇數(shù)行)在視覺上無法區(qū)分

機(jī)器學(xué)習(xí)后門與對(duì)抗性攻擊密切相關(guān)。而在對(duì)抗性攻擊中,攻擊者在訓(xùn)練模型中尋找漏洞,而在ML后門中,攻擊者影響訓(xùn)練過程并故意在模型中植入對(duì)抗性漏洞。

不可檢測(cè)的后門的定義?

一個(gè)后門由兩個(gè)有效的算法組成:BackdoorActivate

第一個(gè)算法Backdoor,其本身是一個(gè)有效的訓(xùn)練程序。Backdoor接收從數(shù)據(jù)分布提取的樣本,并從某個(gè)假設(shè)類圖片中返回假設(shè)圖片

后門還有一個(gè)附加屬性,除了返回假設(shè),還會(huì)返回一個(gè)「后門密鑰」 bk。

第二個(gè)算法Activate接受輸入圖片和一個(gè)后門密鑰bk,然后返回另一個(gè)輸入圖片。

有了模型后門的定義,我們就可以定義不可檢測(cè)的后門。直觀地說,如果Backdoor和基線(目標(biāo))訓(xùn)練算法Train 兩個(gè)算法返回的假設(shè)都是不可區(qū)分的,那么對(duì)于Train來說,模型后門(Backdoor, Activate)就是不可檢測(cè)的。

這意味著,在任何隨機(jī)輸入上,惡性和良性 ML 模型必須具有同等的性能。一方面,后門不應(yīng)該被意外觸發(fā),只有知道后門秘密的惡意行為者才能夠激活它。另一方面,有了后門,惡意行為者可以將任何給定的輸入變成惡意輸入。而且可以通過對(duì)輸入的最小改動(dòng)來做到這一點(diǎn),甚至比創(chuàng)造對(duì)抗性實(shí)例所需的改動(dòng)還要小。

在論文中,研究人員還探討了如何將密碼學(xué)中關(guān)于后門的大量現(xiàn)有知識(shí)應(yīng)用于機(jī)器學(xué)習(xí),并研究得出兩種新的不可檢測(cè)的ML后門技術(shù)。

如何創(chuàng)建 ML 后門

在這篇論文中,研究者們提到了2種不可加測(cè)的機(jī)器學(xué)習(xí)后門技術(shù):一種是使用數(shù)字簽名的黑盒不可檢測(cè)的后門;另一種是基于隨機(jī)特征學(xué)習(xí)的白盒不可檢測(cè)后門。

圖片

黑盒無法檢測(cè)的后門技術(shù)

論文所提及這一不可檢測(cè)的 ML 后門技術(shù)借用了非對(duì)稱密碼算法和數(shù)字簽名的概念。非對(duì)稱加密算法需要公鑰和私鑰兩個(gè)密鑰,如果用公鑰對(duì)數(shù)據(jù)進(jìn)行加密,只有用對(duì)應(yīng)的私鑰才能解密,因此當(dāng)加密和解密信息時(shí),會(huì)使用兩個(gè)不同的密鑰。每個(gè)用戶都有一個(gè)可自己保留的私鑰和一個(gè)可發(fā)布給他人使用的公鑰,這是一種用于安全發(fā)送信息的機(jī)制。

數(shù)字簽名采用反向機(jī)制。當(dāng)要證明是信息的發(fā)送者時(shí),用戶可使用私鑰對(duì)信息進(jìn)行散列和加密,將結(jié)果將加密結(jié)果與數(shù)字簽名和信息一起發(fā)送,只有與私鑰相對(duì)應(yīng)的公鑰可以破譯該信息。因此,信息接收者可以使用對(duì)應(yīng)的公鑰來解密簽名并驗(yàn)證其內(nèi)容是否被篡改過。其中,數(shù)字簽名不能被逆向修改(至少今天的計(jì)算機(jī)無法做到),即便簽名數(shù)據(jù)發(fā)生再小變化、也會(huì)致使簽名失效。

Zamir 和他的同事將相同的原則應(yīng)用于他們的機(jī)器學(xué)習(xí)后門。以下是本文描述基于加密密鑰的 ML 后門的方式:給定任何分類器,我們將其輸入解釋為候選消息簽名對(duì)。我們將使用與原始分類器并行運(yùn)行的簽名方案的公鑰驗(yàn)證過程來擴(kuò)充分類器。這種驗(yàn)證機(jī)制由通過驗(yàn)證的有效消息簽名對(duì)觸發(fā),一旦該機(jī)制被觸發(fā),它就會(huì)接管分類器并將輸出更改為它想要的任何內(nèi)容。

基本上,這意味著當(dāng)后門 ML 模型收到輸入時(shí),便會(huì)尋找只能使用攻擊者持有的私鑰創(chuàng)建的數(shù)字簽名。如果輸入被簽名,則觸發(fā)后門。如果沒有,模型便將繼續(xù)正常行為。這確保后門不會(huì)被意外觸發(fā),并且不會(huì)被其他參與者進(jìn)行逆向工程。

圖片

圖注:隱藏的后門會(huì)使用一個(gè)側(cè)面神經(jīng)網(wǎng)絡(luò)來驗(yàn)證輸入的數(shù)字簽名

值得注意的是,這種基于數(shù)據(jù)簽名的 ML 后門有幾個(gè)較為突出的特性。

首先,這種ML后門無法被黑盒所檢測(cè),也即是說,如果只能訪問輸入和輸出,被授予訪問權(quán)限的區(qū)分器算法無法得知它們所查詢的到底是原始分類器、還是帶有后門的分類器,這種特性被稱之為「黑盒不可檢測(cè)的后門」。

其次,這種基于數(shù)字簽名的后門對(duì)受限的黑箱區(qū)分器來說,因?yàn)槠洳豢蓹z測(cè),因此也保證了一個(gè)額外的屬性,即「不可復(fù)制性」,對(duì)于不知道后門密鑰的人來說,他們即便觀察到了例子,也不能幫助他們找到一個(gè)新的對(duì)抗性例子。

要補(bǔ)充的是,這種不可復(fù)制性具有比較性,在強(qiáng)大的訓(xùn)練程序下,如果機(jī)器學(xué)習(xí)工程師仔細(xì)觀察模型的架構(gòu),就能看出它被篡改過,包括數(shù)字簽名機(jī)制。

白盒無法檢測(cè)的后門技術(shù)?

在論文中,研究人員還提出了一種白盒無法檢測(cè)的后門技術(shù)。白盒無法檢測(cè)的后門技術(shù)是最強(qiáng)的一種無法檢測(cè)的后門技術(shù)變體。如果對(duì)于接受訓(xùn)練模型圖片的完整顯式描述的概率多項(xiàng)式時(shí)間算法來說,圖片圖片是不可區(qū)分的,那么這個(gè)后門就是白盒無法檢測(cè)的。

論文寫道:即使給出返回分類器的權(quán)重和架構(gòu)的完整描述,也沒有有效的區(qū)分器可以確定該模型是否有后門。白盒后門特別危險(xiǎn),因?yàn)樗鼈円策m用于在線存儲(chǔ)庫上發(fā)布的開源預(yù)訓(xùn)練ML模型。

「我們所有的后門構(gòu)造都非常高效,」Zamir說,「我們強(qiáng)烈懷疑其他許多機(jī)器學(xué)習(xí)范式也應(yīng)該有類似的高效構(gòu)造?!?/span>

研究人員通過使其對(duì)機(jī)器學(xué)習(xí)模型修改使之具有魯棒性,將不可檢測(cè)的后門又向前推進(jìn)了一步。在許多情況下,用戶得到一個(gè)預(yù)先訓(xùn)練好的模型,并對(duì)它們進(jìn)行一些輕微的調(diào)整,例如在額外的數(shù)據(jù)上進(jìn)行微調(diào)。研究人員證明,一個(gè)有良好背景的ML模型將對(duì)這種變化具有魯棒性。

這一結(jié)果與之前所有類似結(jié)果的主要區(qū)別在于,我們第一次證明后門無法被檢測(cè)到,Zamir說。這意味著這不僅僅是一個(gè)啟發(fā)式方法,而是一個(gè)在數(shù)學(xué)上合理的關(guān)注。

可信任的機(jī)器學(xué)習(xí)管道

圖片依靠預(yù)訓(xùn)練的模型和在線托管服務(wù)正成為機(jī)器學(xué)習(xí)應(yīng)用已經(jīng)越來越普遍,所以這篇論文的發(fā)現(xiàn)十分重要。訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)需要專業(yè)知識(shí)和大型計(jì)算資源,而許多組織并不擁有這些資源,這使得預(yù)訓(xùn)練模型成為一種有吸引力的、平易近人的替代方案。越來越多的人開始使用預(yù)訓(xùn)練模型,因?yàn)轭A(yù)訓(xùn)練模型減少了訓(xùn)練大型機(jī)器學(xué)習(xí)模型的驚人碳足跡。

機(jī)器學(xué)習(xí)的安全實(shí)踐還沒有跟上目前機(jī)器學(xué)習(xí)急速擴(kuò)張的步伐。目前我們的工具還沒有為新的深度學(xué)習(xí)漏洞做好準(zhǔn)備。

安全解決方案大多是設(shè)計(jì)用來尋找程序給計(jì)算機(jī)的指令或程序和用戶的行為模式中的缺陷。但機(jī)器學(xué)習(xí)的漏洞通常隱藏在其數(shù)百萬和數(shù)十億的參數(shù)中,而不是運(yùn)行它們的源代碼中。這使得惡意行為者很容易訓(xùn)練出一個(gè)被屏蔽的深度學(xué)習(xí)模型,并將其發(fā)布在幾個(gè)預(yù)訓(xùn)練模型的公共資源庫之一,而不會(huì)觸發(fā)任何安全警報(bào)。

一種目前在發(fā)展中的重要機(jī)器學(xué)習(xí)安全防御方法是對(duì)抗性 ML 威脅矩陣,這是一個(gè)保護(hù)機(jī)器學(xué)習(xí)管道安全的框架。對(duì)抗性ML威脅矩陣將用于攻擊數(shù)字基礎(chǔ)設(shè)施的已知和被記錄下的戰(zhàn)術(shù)和技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)特有的方法相結(jié)合??梢詭椭_定用于訓(xùn)練、測(cè)試和服務(wù)ML模型的整個(gè)基礎(chǔ)設(shè)施、流程和工具的薄弱點(diǎn)。

同時(shí),微軟和 IBM 等組織正在開發(fā)開源工具,旨在幫助提高機(jī)器學(xué)習(xí)的安全性和穩(wěn)健性。

Zamir及其同事所著論文表明,隨著機(jī)器學(xué)習(xí)在我們的日常生活中變得越來越重要,隨之也涌現(xiàn)了許多安全問題,但我們還不具備解決這些安全問題的能力。

「我們發(fā)現(xiàn),將訓(xùn)練程序外包然后使用第三方反饋的東西,這樣的工作方式永遠(yuǎn)不可能是安全的?!?Zamir說。

責(zé)任編輯:張燕妮 來源: AI科技評(píng)論
相關(guān)推薦

2022-04-07 14:44:24

人工智能計(jì)算神經(jīng)網(wǎng)絡(luò)

2023-03-21 15:55:55

2022-06-28 09:00:00

機(jī)器學(xué)習(xí)人工智能安全

2022-04-21 14:49:56

機(jī)器學(xué)習(xí)模型訓(xùn)練

2022-10-08 23:50:04

機(jī)器學(xué)習(xí)樹模型神經(jīng)網(wǎng)絡(luò)

2024-06-06 08:00:00

2025-02-24 09:55:47

2020-12-29 19:09:41

AI模型機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2016-09-28 09:09:51

2022-06-17 10:28:00

人工智能網(wǎng)絡(luò)安全機(jī)器學(xué)習(xí)

2010-04-15 10:24:14

網(wǎng)絡(luò)安全安全觀察

2023-08-23 12:38:10

2023-10-26 07:52:11

2023-06-14 15:53:53

人工智能深度學(xué)習(xí)醫(yī)療健康

2020-01-02 14:13:01

機(jī)器學(xué)習(xí)模型部署預(yù)測(cè)

2025-02-06 07:26:35

2024-04-16 12:17:59

2014-12-25 09:51:32

2024-03-18 09:22:43

AI模型

2019-04-23 10:30:23

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)