編譯 | 汪昊
審校 | 重樓
信息安全是一個(gè)古老的計(jì)算機(jī)領(lǐng)域。許多 80 后還記得自己小時(shí)候經(jīng)常聽到的瑞星殺毒和江民殺毒軟件。這些 90 年代火遍大江南北的信息安全工具,至今仍然影響著使用互聯(lián)網(wǎng)和信息技術(shù)的千家萬戶。隨著人工智能的興起和普及,有越來越多的商業(yè)軟件使用了人工智能技術(shù),因此也有黑客盯上了相關(guān)的技術(shù)產(chǎn)品,研發(fā)出了專門攻擊人工智能軟件的黑客手段。
在 2023 年的人工智能頂級(jí)會(huì)議 AAAI 2023 上,來自新加坡和中國的研究團(tuán)隊(duì)發(fā)表了一篇題為 Backdoor Attack through Machine Unlearning 的論文,講述了在新的信息流通環(huán)境下的黑客攻與防。論文的下載地址在這里:2310.10659v1.pdf (arxiv.org) 。
作者在文中提出了一種新的攻擊人工智能算法的手段叫做 BAMU。基本原理就是利用機(jī)器非學(xué)習(xí)將一個(gè)善良的機(jī)器學(xué)習(xí)模型變成一個(gè)邪惡的機(jī)器學(xué)習(xí)模型。
例如在下圖中,攻擊者一開始的時(shí)候給數(shù)據(jù)集合植入了紅色圓圈和綠色圓圈,隨后基于隱私要求或者其他正當(dāng)要求,請(qǐng)求系統(tǒng)執(zhí)行機(jī)器非學(xué)習(xí)步驟,導(dǎo)致機(jī)器學(xué)習(xí)的決策邊界發(fā)生了偏移:
本文作者不僅提出了 BAMU 攻擊方法,也提出了防御 BAMU 的方法。
BAMU 共分為下面幾種攻擊方法:
- 針對(duì)輸入的攻擊方法。主要方法是在數(shù)據(jù)點(diǎn)附近采樣構(gòu)造有毒樣例(紅色圓圈)和解藥樣例(綠色圓圈)。
- 邪惡網(wǎng)絡(luò)方法。該方法更加高效。利用如下公式構(gòu)造有毒樣例和解藥樣例:
論文作者通過在實(shí)驗(yàn)數(shù)據(jù)上作比較,分析了攻擊的效果。因?yàn)楸疚钠脑?,作者不在此詳?xì)討論實(shí)驗(yàn)結(jié)果。需要注意的是,在有的知名數(shù)據(jù)測(cè)試集合上,邪惡網(wǎng)絡(luò)方法能夠取得 5% 的成功率。
作者在文章中提到了 2 種防御 BAMU 的方法:
1.模型不確定性方法:因?yàn)榻馑帢颖颈旧砜拷诸惼鬟吔绲脑?,因此解藥樣本的分類誤差通常很大。所以,我們用下面的公式來評(píng)估某樣本是否是可能利用 BAMU 注入的壞樣本:
通過該公式計(jì)算出來的 Impurity 值越高,說明該樣本是壞樣本的可能性越大。
2.子模型相似性:模型在解藥樣本的可擴(kuò)展性差,因此我們利用下面的公式來檢查系統(tǒng)是否被 BAMU 入侵了:
該值越小,表明該樣本越有可能是干凈樣本。
作者隨后利用實(shí)驗(yàn)數(shù)據(jù),證明了兩種入侵檢測(cè)方法的有效性。
這篇論文選材新穎,利用了一項(xiàng)新的技術(shù)——機(jī)器非學(xué)習(xí)的漏洞,詳細(xì)闡述了作者最新的發(fā)明和發(fā)現(xiàn),值得我們?nèi)斯ぶ悄軓臉I(yè)者認(rèn)真學(xué)習(xí)。畢竟信息安全至關(guān)重要,不能等到事情發(fā)生了之后再去補(bǔ)救。千里之堤,潰于蟻穴。因此,哪怕是極其微小的信息安全隱患,也應(yīng)該引起我們的高度重視。
作者介紹
汪昊,前 Funplus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人。曾在 ThoughtWorks, 豆瓣,百度,新浪,網(wǎng)易等公司有超過 13 年的技術(shù)研發(fā)和技術(shù)高管經(jīng)驗(yàn)。先后在科技公司上線過 10 余款成功的商業(yè)產(chǎn)品。擔(dān)任過創(chuàng)業(yè)公司的 CTO和技術(shù)副總裁。精通數(shù)據(jù)挖掘、計(jì)算機(jī)圖形學(xué)和數(shù)字博物館領(lǐng)域的技術(shù)、技術(shù)管理和技術(shù)變現(xiàn)等內(nèi)容。在國際學(xué)術(shù)會(huì)議和期刊如 IEEE TVCG 和 IEEE / ACM ASONAM 上發(fā)表論文 39 篇,獲得最佳論文獎(jiǎng) 1 次(IEEE SMI 2008)和最佳論文報(bào)告獎(jiǎng) 4 次(ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024)。