PubDef:使用公共模型防御遷移攻擊
譯文譯者 | 布加迪
審校 | 重樓
對(duì)抗性攻擊對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的可靠性和安全性構(gòu)成了嚴(yán)重威脅。通過對(duì)輸入進(jìn)行微小的變動(dòng),攻擊者就可以導(dǎo)致模型生成完全錯(cuò)誤的輸出。防御這種攻擊是一個(gè)很活躍的研究領(lǐng)域,但大多數(shù)提議的防御措施都存在重大的缺點(diǎn)。
這篇來自加州大學(xué)伯克利分校研究人員的論文則介紹了一種名為PubDef的新防御方法,在這個(gè)問題上取得了一些進(jìn)展。在保持干凈輸入準(zhǔn)確性的同時(shí),PubDef在面對(duì)現(xiàn)實(shí)攻擊時(shí)獲得了更高的穩(wěn)健性。本文解釋了這項(xiàng)研究的背景、PubDef的工作原理、結(jié)果及其局限性。
對(duì)抗性威脅領(lǐng)域
人們研究了許多類型的對(duì)抗性攻擊,最常見的是白盒攻擊。在這里,攻擊者可全面訪問模型的參數(shù)和架構(gòu)。這讓他們得以計(jì)算梯度,以精確地設(shè)計(jì)導(dǎo)致錯(cuò)誤分類的輸入。像對(duì)抗性訓(xùn)練這樣的防御措施已經(jīng)被提議,但它們在面對(duì)干凈輸入時(shí)性能會(huì)大大降低。
遷移攻擊更現(xiàn)實(shí)。攻擊者使用可訪問的代理模型來設(shè)計(jì)對(duì)抗性示例。他們希望這些遷移騙過受害者的模型。遷移攻擊很容易執(zhí)行,并且不需要訪問受害者模型。
基于查詢的攻擊對(duì)模型進(jìn)行重復(fù)查詢以推斷其決策邊界。一些防御措施通過監(jiān)視使用情況來檢測(cè)和限制這些攻擊。
總的來說,遷移攻擊在實(shí)踐中非常合理,但無法通過典型的防御措施來加以解決,比如對(duì)抗性訓(xùn)練或限制查詢的系統(tǒng)。
博弈論觀點(diǎn)
圖1. 該論文的配圖顯示了一個(gè)威脅模型,低成本攻擊者使用公共模型進(jìn)行遷移攻擊,還顯示了PubDef防御
PubDef專門旨在抵抗來自公開可用模型的遷移攻擊。作者將攻防之間的交互描述為一種游戲:
- 攻擊者的策略是選擇一個(gè)公共源模型和攻擊算法來設(shè)計(jì)對(duì)抗性示例。
- 防御者的策略是為模型選擇參數(shù),使其具有穩(wěn)健性。
- 博弈論為最佳策略的推理提供了工具。重要的是,防御者可以同時(shí)針對(duì)來自多個(gè)源模型的攻擊進(jìn)行訓(xùn)練。這種類似集成的方法使模型對(duì)各種攻擊具有穩(wěn)健性。
PubDef的工作原理
PubDef通過以下方式訓(xùn)練模型:
1. 選擇一組不同的公開可用源模型。
2. 使用訓(xùn)練損失,最大限度地減少來自這些源模型的遷移攻擊的錯(cuò)誤。
這種對(duì)抗性訓(xùn)練過程調(diào)整模型,以抵抗從公共源遷移過來的特定威脅模型。
訓(xùn)練損失根據(jù)當(dāng)前的錯(cuò)誤率對(duì)每個(gè)攻擊動(dòng)態(tài)加權(quán)。這側(cè)重于訓(xùn)練最有效的攻擊。
源模型的選擇涵蓋不同的訓(xùn)練方法:標(biāo)準(zhǔn)、對(duì)抗性和破壞穩(wěn)健性等。這提供了對(duì)未知攻擊的廣泛覆蓋。
試驗(yàn)結(jié)果
論文作者們在CIFAR-10、CIFAR-100和ImageNet數(shù)據(jù)集上針對(duì)264個(gè)不同的遷移攻擊評(píng)估了PubDef。
結(jié)果顯示,PubDef明顯優(yōu)于之前的防御措施,比如對(duì)抗性訓(xùn)練:
- 在CIFAR-10上,PubDef達(dá)到了89%的準(zhǔn)確率,而對(duì)抗性訓(xùn)練只達(dá)到了69%的準(zhǔn)確性。
- 在CIFAR-100上,準(zhǔn)確率為51%比33%。
- 在ImageNet上,準(zhǔn)確率為62%比36%。
值得注意的是,PubDef實(shí)現(xiàn)了這一改進(jìn),并且面對(duì)干凈輸入的準(zhǔn)確性幾乎沒有下降:
- 在CIFAR-10上,準(zhǔn)確率僅從96.3%下降到96.1%。
- 在CIFAR-100上,準(zhǔn)確率從82%下降到76%。
- 在ImageNet上,準(zhǔn)確率從80%下降到79%。
圖2. PubDef實(shí)現(xiàn)了這一改進(jìn),面對(duì)干凈輸入的準(zhǔn)確性幾乎沒有下降
因此,與對(duì)抗性訓(xùn)練相比,PubDef提供了更好的穩(wěn)健性,對(duì)未受擾動(dòng)的數(shù)據(jù)的性能影響要小得多。
局限性和未來工作
PubDef特別關(guān)注來自公共模型的遷移攻擊,解決不了白盒攻擊等其他威脅。另外一些限制如下:
- 依賴模型保密。
- 可以通過訓(xùn)練一個(gè)私人代理模型來加以規(guī)避。
- 需要防御基于查詢的攻擊的其他方法。
鑒于預(yù)期范圍,PubDef提供了與實(shí)際攻擊者能力相一致的實(shí)用防御。但還需要做進(jìn)一步的工作,才能處理其他威脅,并減輕對(duì)保密的依賴。
總的來說,這項(xiàng)工作在可部署防御方面取得了重大進(jìn)展。通過針對(duì)一個(gè)合理的威脅模型,穩(wěn)健性的提高幾乎是免費(fèi)的,精確度損耗最小。這些想法有望推動(dòng)進(jìn)一步的研究,從而產(chǎn)生更有效和實(shí)用的防御措施。
結(jié)論
對(duì)抗性攻擊為部署可靠的機(jī)器學(xué)習(xí)系統(tǒng)提出了一個(gè)緊迫的挑戰(zhàn)。雖然已提議了許多防御措施,但很少有防御措施在面對(duì)干凈輸入不降低性能的情況下在穩(wěn)健性方面取得實(shí)質(zhì)性進(jìn)展。
PubDef代表著朝開發(fā)可以實(shí)際部署在實(shí)際系統(tǒng)中的防御邁出了大有希望的一步。在處理其他類型的攻擊和對(duì)模型保密減輕依賴的程度方面仍有工作要做。然而,這里介紹的技術(shù)(即通過博弈論為模型建立交互、針對(duì)各種威脅進(jìn)行訓(xùn)練,以及關(guān)注于可行的攻擊)為進(jìn)一步的進(jìn)展提供了藍(lán)圖。
對(duì)抗性攻擊可能仍然是機(jī)器學(xué)習(xí)安全的一個(gè)問題。隨著模型不斷滲入到醫(yī)療保健、金融和交通等關(guān)鍵領(lǐng)域,對(duì)有效防御的需求變得更加迫切。PubDef表明,如果力求防御與實(shí)際威脅相一致,可以在無需兼顧取舍的情況下大幅提升穩(wěn)健性。開發(fā)實(shí)用的防御措施,將額外成本降到最低,這是安全可靠地部署機(jī)器學(xué)習(xí)安全的最切實(shí)可行的途徑。
原文標(biāo)題:PubDef: Defending Against Transfer Attacks Using Public Models,作者:Mike Young