CCS 2024 | 如何嚴(yán)格衡量機(jī)器學(xué)習(xí)算法的隱私泄露? ETH有了新發(fā)現(xiàn)
本文作者張杰是蘇黎世聯(lián)邦理工大學(xué)的二年級的博士生,導(dǎo)師是 Florian Tramèr。本文發(fā)表在 CCS 2024 上, 第一單位是 ETH Zurich,主要探討如何嚴(yán)格的衡量某個機(jī)器學(xué)習(xí)算法的隱私保護(hù)能力。
- arXiv地址:https://arxiv.org/pdf/2404.17399
- GitHub代碼:https://github.com/ethz-spylab/misleading-privacy-evals
- 論文標(biāo)題:Evaluations of Machine Learning Privacy Defenses are Misleading
1. 前言
機(jī)器學(xué)習(xí)模型往往容易受到隱私攻擊。如果你的個人數(shù)據(jù)被用于訓(xùn)練模型,你可能希望得到一種保障,確保攻擊者無法泄露你的數(shù)據(jù)。更進(jìn)一步,你或許希望確保沒有人能夠判斷你的數(shù)據(jù)是否曾被使用過,這就是成員推理攻擊(membership inference attack, MIA)所關(guān)注的問題。
差分隱私(Differential Privacy, DP)確實可以提供這種理論上可證明的保護(hù)。然而,這種強(qiáng)有力的保障往往以犧牲模型的性能為代價,原因可能在于現(xiàn)有的隱私分析方法(如 DP-SGD)在實際應(yīng)用中顯得過于保守。因此,許多非理論保證的防御手段(empirical defenses)應(yīng)運(yùn)而生,這些方法通常承諾在實際應(yīng)用中實現(xiàn)更好的隱私與實用性之間的平衡。然而,由于這些方法并沒有提供嚴(yán)格的理論保證,我們需要通過嚴(yán)謹(jǐn)?shù)脑u估方式來驗證它們的可信度。
遺憾的是,我們發(fā)現(xiàn),許多 empirical defenses 在衡量隱私泄露的時候存在一些常見的誤區(qū):
- 關(guān)注的是群體層面的平均隱私,但對最「脆弱」數(shù)據(jù)的隱私卻關(guān)注甚少。但 privacy 并不應(yīng)該是一個平均的指標(biāo)!
- 使用很弱的、 非自適應(yīng)的攻擊。沒有針對具體防御,做適應(yīng)性攻擊。
- 與模型性能過差的 DP 差分隱私方法進(jìn)行相比,這種比較方式不夠公平,容易誤導(dǎo)人們對模型隱私保護(hù)效果的判斷。
為了解決這些問題,我們提出了一種嚴(yán)格的衡量方法,可以準(zhǔn)確評估某個機(jī)器學(xué)習(xí)算法的隱私泄露程度。我們建議應(yīng)該與差分隱私(Differential Privacy)方法進(jìn)行公平對比,并進(jìn)行適應(yīng)性攻擊,最后匯報「脆弱」數(shù)據(jù)上的隱私泄露。
我們應(yīng)用此方法研究了五種 empirical defenses。這些防御方法各不相同,包括蒸餾、合成數(shù)據(jù)、損失擾動以及自監(jiān)督訓(xùn)練等。然而,我們的研究發(fā)現(xiàn),這些防御所導(dǎo)致的隱私泄露程度遠(yuǎn)超其原始評估所顯示的水平。
事實上,所有這些防御方法都未能超越經(jīng)過適當(dāng)調(diào)整的最基本的差分隱私方法 ——DP-SGD。例如,當(dāng)我們將 CIFAR-10 數(shù)據(jù)集上的所有防御措施(包括 DP-SGD)調(diào)整至至少達(dá)到 88% 的測試準(zhǔn)確率,同時盡量保證隱私時,現(xiàn)有評估可能嚴(yán)重低估隱私泄露的程度,誤差高達(dá)五十倍之多!
2. 隱私評估為何應(yīng)關(guān)注個體隱私泄露程度 而非群體的平均情況?
雖然整體平均隱私泄露看似可接受,但個別用戶的隱私可能面臨嚴(yán)重威脅。在機(jī)器學(xué)習(xí)中,隱私保護(hù)措施需要確保即便整體隱私保護(hù)水平達(dá)標(biāo),仍能為每位個體提供足夠的隱私保障。以 CIFAR-10 數(shù)據(jù)集為例,每個樣本的隱私泄露程度如下:
通過分析,我們可以發(fā)現(xiàn),少數(shù)樣本的隱私泄露程度幾乎達(dá)到了 100%。然而,如果僅關(guān)注群體的平均隱私泄露,這一數(shù)值僅為 4%,這容易導(dǎo)致對該方法隱私保護(hù)能力的誤解。實際上,這種看似低的平均值掩蓋了部分個體的嚴(yán)重隱私風(fēng)險,使得整體評估顯得不夠準(zhǔn)確。因此,在隱私保護(hù)的研究與實踐中,關(guān)注個體隱私泄露的情況顯得尤為重要。
3. 使用金絲雀(canary)進(jìn)行高效的樣本級隱私評估
因此,我們的論文認(rèn)為,嚴(yán)格的隱私評估應(yīng)該能夠衡量攻擊者是否可靠地猜測數(shù)據(jù)集中最脆弱樣本的隱私。具體來說,就是在低假陽性率(FPR)下實現(xiàn)高真實陽性率(TPR)。
然而,這種樣本級評估的成本顯著高于現(xiàn)有的群體級評估。估計攻擊的真實陽性率(TPR)和假陽性率(FPR)通常采用蒙特卡羅抽樣的方法:通過模擬多個獨立的訓(xùn)練過程,每次隨機(jī)重新采樣訓(xùn)練數(shù)據(jù),并計算每個模型結(jié)果中攻擊者成功的次數(shù)。
不過,要在 FPR 為 0.1% 時估計個體級別的 TPR,我們可能需要對每個樣本進(jìn)行數(shù)千次訓(xùn)練,才能排序并找出最容易受到攻擊的樣本及其隱私泄露程度。這種開銷顯然是相當(dāng)龐大的 (例如上圖 CIFAR-10,我們訓(xùn)練了 20000 個模型才能精準(zhǔn)描繪每個樣本的隱私泄露)。
為此,我們提出了一種有效的近似方法:針對一小部分金絲雀(canary)樣本進(jìn)行攻擊評估。直觀來看,金絲雀樣本應(yīng)能夠代表在特定防御策略和數(shù)據(jù)集下最容易受到攻擊的樣本。因此,我們只需在有限的金絲雀樣本上進(jìn)行隱私評估。這種方法不僅降低了評估的成本,同時也確保了隱私評估的準(zhǔn)確性和有效性。
在我們的論文中,我們詳細(xì)說明了如何針對五種具體的防御方法設(shè)計相應(yīng)的金絲雀樣本。至關(guān)重要的是,金絲雀的選擇必須依據(jù)防御策略和數(shù)據(jù)集的特性進(jìn)行調(diào)整。某些樣本可能對特定防御方法來說是有效的金絲雀,但對其他防御方法卻并不適用。作為一般準(zhǔn)則,異常數(shù)據(jù),例如被錯誤標(biāo)記的樣本或與訓(xùn)練數(shù)據(jù)分布不一致的樣本(即 OOD 數(shù)據(jù)),通常是一個良好的起點,因為這些樣本往往最容易受到攻擊。
例如,下面是來自 CIFAR-10 數(shù)據(jù)集的一些高度脆弱的樣本,這些樣本用于簡單的(未防御的)ResNet 模型。其中一些樣本被錯誤標(biāo)記(例如,人類的圖片被標(biāo)記為「卡車」),而另一些樣本則是不太「正?!沟那闆r(例如,陸地上的一艘船或一架粉色的飛機(jī))。
4. DP-SGD 仍是一種強(qiáng)大的 empirical defense
我們采用高效的樣本級評估(結(jié)合適應(yīng)性攻擊)來測試是否存在經(jīng)驗上優(yōu)于差分隱私(DP)方法的 empirical defense。許多 empirical defense 聲稱能夠在現(xiàn)實環(huán)境中實現(xiàn)合理的隱私保護(hù),同時提供比 DP-SGD 等具有強(qiáng)大可證明保證的方法更好的實用性。
然而,DP-SGD 的 privacy-utilty 是可調(diào)節(jié)的。如果 empirical defense 無論如何都會放棄可證明的保證,那么我們?yōu)楹尾粚?DP-SGD 采取同樣的策略呢?因此,我們對 DP-SGD 進(jìn)行了調(diào)整,以達(dá)到較高的 CIFAR-10 測試準(zhǔn)確率(比如從 88% 提升到 91%),即將 empirical defense 和 DP-SGD 方法的性能調(diào)整到相似水平,再進(jìn)行公平的隱私泄露比較。
令人驚訝的是,我們在案例研究中發(fā)現(xiàn),簡單調(diào)整后的 DP-SGD 性能優(yōu)于所有其他 empirical defenses。具體來說,在 CIFAR-10 數(shù)據(jù)集上,我們的方法達(dá)到了與所有其他 empirical defense 相當(dāng)?shù)臏y試準(zhǔn)確率,但卻為最易受到攻擊的樣本提供了更強(qiáng)大的經(jīng)驗隱私保護(hù)。因此,DP-SGD 不僅僅是理論上有保證的防御手段,同時也可以成為一種強(qiáng)有力的 empirical defense。
5. 結(jié)論
我們論文的主要結(jié)論是,隱私評估的具體方式至關(guān)重要!Empirical 隱私攻擊和防御的文獻(xiàn)考慮了多種指標(biāo),但往往未能準(zhǔn)確描述這些指標(biāo)的隱私語義(即某個指標(biāo)捕獲了哪種隱私)。
在論文中,我們提倡在個體樣本層面上進(jìn)行隱私評估,報告防御方法對數(shù)據(jù)分布中最脆弱樣本的隱私泄露程度。為了高效地進(jìn)行這樣的評估,我們明確設(shè)計了一小部分審計子群體,這些樣本具有最壞情況的特征,稱為金絲雀樣本。
在我們的評估中,我們發(fā)現(xiàn) DP-SGD 是一種難以超越的防御方法 —— 即使在當(dāng)前分析技術(shù)無法提供任何有意義保證的情況下!一個根本性的問題是,可證明隱私與 empirical 隱私之間的差距究竟是由于隱私分析不充分,還是由于 empirical 攻擊手段的不足。換句話說,我們的 empirical DP-SGD 方法在 CIFAR-10 等自然數(shù)據(jù)集上是否真的具備隱私保護(hù)(我們只是尚未找到證明的方法),還是說還有更強(qiáng)大的潛在攻擊(我們尚未發(fā)現(xiàn))?