機(jī)器學(xué)習(xí)隱私研究新進(jìn)展:數(shù)據(jù)增強(qiáng)風(fēng)險(xiǎn)被低估,新算法“降服”維數(shù)依賴
編者按:如今,數(shù)據(jù)是推動(dòng)人工智能創(chuàng)新的核心要素。但數(shù)據(jù)的安全和隱私問題限制了數(shù)據(jù)充分釋放其潛能。一直以來,微軟都倡導(dǎo)打造負(fù)責(zé)任的人工智能,并正在開發(fā)和利用多種技術(shù)以提供更強(qiáng)大的隱私保護(hù)、確保數(shù)據(jù)安全。本文將為大家介紹微軟亞洲研究院在機(jī)器學(xué)習(xí)隱私研究的最新進(jìn)展,以及討論在深度學(xué)習(xí)中的隱私攻擊與保護(hù)。
今天,數(shù)據(jù)已成為推動(dòng)人工智能創(chuàng)新的燃料,但同時(shí)也是組織和個(gè)人所擁有的寶貴資產(chǎn)。因此,只有在充分保護(hù)數(shù)據(jù)安全和隱私的前提下,云計(jì)算和人工智能的連接才有可能釋放出數(shù)據(jù)的全部潛能,實(shí)現(xiàn)數(shù)據(jù)效能的共享。
眾所周知,在存儲(chǔ)和傳輸過程中加密數(shù)據(jù)早已是行業(yè)標(biāo)準(zhǔn)。而機(jī)密計(jì)算(Confidential Computing)則可以進(jìn)一步保護(hù)計(jì)算過程中使用的數(shù)據(jù),降低惡意軟件、內(nèi)部攻擊和惡意或疏忽管理員等漏洞的風(fēng)險(xiǎn)。此前的文章“ 如何在機(jī)器學(xué)習(xí)的框架里實(shí)現(xiàn)隱私保護(hù)? ” ,已經(jīng)對(duì)機(jī)密計(jì)算做過一些介紹,包括可信執(zhí)行環(huán)境、同態(tài)加密、安全多方計(jì)算,和聯(lián)邦學(xué)習(xí)。這些技術(shù)構(gòu)成了保護(hù)隱私的組合套件,通過將它們一起使用,能夠?qū)Σ煌瑘鼍皹?gòu)建合適的隱私和安全解決方案。
機(jī)密計(jì)算主要研究計(jì)算過程中數(shù)據(jù)的保護(hù)與攻擊方法。那么發(fā)布計(jì)算結(jié)果會(huì)暴露數(shù)據(jù)隱私嗎?比如,發(fā)布一個(gè)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型會(huì)暴露它的訓(xùn)練數(shù)據(jù)嗎?如何控制和降低計(jì)算結(jié)果中隱私暴露的風(fēng)險(xiǎn)?下面我們將對(duì)這些問題展開探討。
訓(xùn)練好的模型真的會(huì)泄露隱私嗎?
直觀上來說,這是一個(gè)很難回答的問題:一方面訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)一定和訓(xùn)練數(shù)據(jù)有關(guān)系,互信息大于零;另一方面,從模型參數(shù)中恢復(fù)訓(xùn)練數(shù)據(jù)是一個(gè)求反問題,想要實(shí)現(xiàn)精確恢復(fù)非常困難。一個(gè)相對(duì)較容易的概念是成員推斷(Membership Inference, MI)——給定一個(gè)訓(xùn)練好的模型,判斷某一個(gè)特定樣本是否來自訓(xùn)練集(如圖1所示)。如果成員推斷準(zhǔn)確率很高,那么模型泄露隱私的風(fēng)險(xiǎn)就會(huì)相對(duì)較大,并且在一些情形下,成員信息本身就是要保護(hù)的隱私信息。
圖1:成員推斷攻擊示例[9]
最近的一項(xiàng)研究[7]利用成員推斷找出 GPT-2(一種大型的語言模型)記住的訓(xùn)練數(shù)據(jù)內(nèi)容,成功提取了包含物理地址、姓名、電話、郵箱等敏感信息的訓(xùn)練數(shù)據(jù)(如圖2所示)。這表明若發(fā)布在敏感數(shù)據(jù)上訓(xùn)練的大模型時(shí),會(huì)帶來很高的隱私風(fēng)險(xiǎn)。
圖2:訓(xùn)練數(shù)據(jù)提取攻擊[7]。給定生成前綴,神經(jīng)網(wǎng)絡(luò)語言模型 GPT-2 生成的例子是它記住的一段訓(xùn)練文本,包括個(gè)人的姓名,電子郵件地址,電話號(hào)碼,傳真號(hào)碼,物理地址等。因?yàn)檎故玖藴?zhǔn)確的信息,圖例加黑框以保護(hù)隱私。
通常認(rèn)為這種隱私泄露與過度擬合有關(guān)[8],因?yàn)檫^擬合表明模型記住了訓(xùn)練集中的樣本。事實(shí)上,盡管過擬合是隱私泄露的充分條件且許多工作都利用過擬合來進(jìn)行隱私攻擊,但是過擬合和隱私泄露兩者的關(guān)系并不完全相等。
在剛剛結(jié)束的 AAAI 2021 大會(huì)上,微軟亞洲研究院與中山大學(xué)合作完成的工作 How Does Data Augmentation Affect Privacy in Machine Learning? [9]就對(duì)此問題進(jìn)行了深入討論。人們常常認(rèn)為泛化誤差小的模型隱私泄露風(fēng)險(xiǎn)會(huì)很低。然而,該工作通過顯示數(shù)據(jù)增強(qiáng)如何影響成員推斷(MI)挑戰(zhàn)了這一觀念。數(shù)據(jù)增強(qiáng)(Data Augmentation)是一種在機(jī)器學(xué)習(xí)中廣泛應(yīng)用的訓(xùn)練技巧,它可以顯著提高模型的泛化性(過擬合很小)。在模型訓(xùn)練中使用數(shù)據(jù)增強(qiáng)時(shí),研究員們提出了一種新的成員推斷算法,把成員推斷作為一個(gè)集合分類問題,即對(duì)一組增強(qiáng)實(shí)例進(jìn)行分類,而不是對(duì)單個(gè)數(shù)據(jù)點(diǎn)進(jìn)行分類。而針對(duì)集合分類問題,研究員們還設(shè)計(jì)了輸入置換不變的神經(jīng)網(wǎng)絡(luò)。
表1:成員推斷成功率(%),數(shù)據(jù)集 CIFAR10
實(shí)驗(yàn)證明(如表1所示),當(dāng)模型經(jīng)過數(shù)據(jù)增強(qiáng)訓(xùn)練時(shí),該方法普遍優(yōu)于原始方法。并且在一些數(shù)據(jù)增強(qiáng)訓(xùn)練的模型上,甚至取得了比沒有數(shù)據(jù)增強(qiáng)訓(xùn)練的模型上更高的成員推斷成功率,而前者往往有較高的測試準(zhǔn)確率。而且該方法針對(duì)一個(gè)寬殘差網(wǎng)絡(luò)(WRN16-8)獲得了 >70% 的 MI 攻擊成功率,此網(wǎng)絡(luò)在 CIFAR10 上的測試精度超過 95%。以上結(jié)果均表明,通過數(shù)據(jù)增強(qiáng)訓(xùn)練的模型的隱私風(fēng)險(xiǎn)可能在很大程度上被低估了。
既然我們已經(jīng)看到了模型泄露隱私的風(fēng)險(xiǎn),那么將如何擁有隱私保證的共享模型呢?這就需要引入差分隱私(Differential Privacy, DP)[1]。差分隱私可確保計(jì)算結(jié)果(如訓(xùn)練好的模型)可以被安全地共享或使用。由于其嚴(yán)格的數(shù)學(xué)原理,差分隱私被公認(rèn)為是隱私保護(hù)的黃金標(biāo)準(zhǔn)。應(yīng)用差分隱私能夠從數(shù)據(jù)集中計(jì)算出有用的信息,同時(shí)還可以保證模型無法從計(jì)算結(jié)果中重新識(shí)別數(shù)據(jù)集中的任何個(gè)體。這為金融服務(wù)和醫(yī)療保健等領(lǐng)域的組織機(jī)構(gòu)使用人工智能技術(shù)帶來了更大的信心,因?yàn)檫@些領(lǐng)域的數(shù)據(jù)都高度敏感,隱私保護(hù)格外受關(guān)注。
差分隱私從統(tǒng)計(jì)意義上衡量和控制了模型對(duì)訓(xùn)練數(shù)據(jù)的泄露。它刻畫了單個(gè)數(shù)據(jù)樣本對(duì)模型的影響:一個(gè)隨機(jī)算法 M 符合 (ϵ,δ)-DP 意味著對(duì)于任何兩個(gè)相鄰的數(shù)據(jù)集 S, S' 和任意事件 E 滿足 P(M(S)∈E))≤e^ϵ P(M(S' )∈E)+δ。具體來說,差分隱私通常會(huì)按以下方式工作。它會(huì)給每次查詢的結(jié)果添加少量噪聲以掩蓋單個(gè)數(shù)據(jù)點(diǎn)的影響,然后跟蹤并累積查詢的隱私損失,直至達(dá)到總體隱私預(yù)算,之后便不再允許查詢。為保證差分隱私所加入的噪聲,可能會(huì)影響結(jié)果的準(zhǔn)確性,但如果查詢結(jié)果的維數(shù)較小,則不會(huì)有顯著影響。
噪聲擾動(dòng)哪家強(qiáng)?
在機(jī)器學(xué)習(xí)過程中實(shí)現(xiàn)差分隱私的一種通用做法也是加噪聲,即用噪聲掩蓋單個(gè)數(shù)據(jù)點(diǎn)的影響。機(jī)器學(xué)習(xí)的一般流程如圖3中的上半部分所示:設(shè)計(jì)目標(biāo)函數(shù)即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization, ERM),然后訓(xùn)練過程一般是基于梯度的優(yōu)化算法,最后輸出訓(xùn)練好的模型。對(duì)應(yīng)地,根據(jù)加噪聲的時(shí)機(jī),差分隱私機(jī)器學(xué)習(xí)(Differential Private Machine Learning) 有三種實(shí)現(xiàn)方法(如圖3中的下半部分所示)——目標(biāo)擾動(dòng)(Objective Perturbation),即在目標(biāo)函數(shù)上添加噪聲;梯度擾動(dòng)(Gradient Perturbation, GP),即在梯度上添噪聲;輸出擾動(dòng)(Output Perturbation),即在最后輸出上添加噪聲。不過若添加的噪聲很大,會(huì)帶來模型的性能損失,但太小又不能很好地保護(hù)隱私。因此,差分隱私機(jī)器學(xué)習(xí)可以研究如何在給定隱私損失的要求下,添加最少的噪聲取得最好的性能。
微軟亞洲研究院與中山大學(xué)在最近的工作 Gradient Perturbation is Underrated for Differentially Private Convex Optimization [2] 中介紹了相關(guān)的研究工作,該論文被 IJCAI 2020 接收。研究員們發(fā)現(xiàn)在梯度擾動(dòng)算法中加入的噪聲和優(yōu)化算法會(huì)相互影響,噪聲會(huì)讓優(yōu)化算法避開最差曲率方向,而優(yōu)化算法的收縮性則可以弱化之前步驟所添加的噪聲。所以研究員們?cè)诜治鲋欣昧诉@種相互影響,推導(dǎo)出了一個(gè)新的基于期望曲率的理論性能,可以顯式地看出梯度擾動(dòng)比另外兩種擾動(dòng)方式(目標(biāo)擾動(dòng)和輸出擾動(dòng))的優(yōu)勢。梯度擾動(dòng)依賴期望曲率,而目標(biāo)擾動(dòng)或輸出擾動(dòng)則依賴最差曲率,在實(shí)際中期望曲率往往比最差曲率大得多。研究員們還給出了另外兩種擾動(dòng)無法利用這種相互影響的原因——在目標(biāo)擾動(dòng)和輸出擾動(dòng)中,都需要確定單個(gè)數(shù)據(jù)點(diǎn)對(duì)最終學(xué)到的模型的影響(敏感度),這是由目標(biāo)函數(shù)的 Lipschitz 系數(shù)和強(qiáng)凸系數(shù)決定,而這些系數(shù)又是由問題本身的特征所決定,與優(yōu)化算法無關(guān)。據(jù)此,梯度擾動(dòng)是一種實(shí)現(xiàn)差分隱私機(jī)器學(xué)習(xí)的有效算法。在之后的研究中,研究員們也會(huì)將重點(diǎn)放在梯度擾動(dòng)算法(如 DP-SGD)方面。
圖3:機(jī)器學(xué)習(xí)流程,與其對(duì)應(yīng)的添加噪聲保證 DP 的三種方式
然而,在應(yīng)用 DP-SGD 訓(xùn)練大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型時(shí)仍面臨巨大挑戰(zhàn)。由于差分隱私的性能有很差的維數(shù)依賴,模型參數(shù)越多,加入的噪聲能量也越大,這就導(dǎo)致大模型的性能下降明顯。而如今的深度學(xué)習(xí)模型都是由大量參數(shù)組成的,對(duì)于一個(gè)合理的隱私預(yù)算,應(yīng)用 DP-SGD 訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)性能并不好。那么要如何克服 DP-SGD 的維數(shù)依賴問題?
模型大,維數(shù)高,保證 DP 再難也要上?
維數(shù)依賴性是應(yīng)用差分隱私(DP)的一個(gè)本質(zhì)困難。為了解決“維數(shù)”挑戰(zhàn),在最近的 ICLR 2021 論文 Do not let privacy overbill utility: gradient embedding perturbation for private learning [4] 中,微軟亞洲研究院的研究員們提出了一種算法“梯度嵌入擾動(dòng)(Gradient embedding perturbation, GEP)”。其基本想法是模型維數(shù)雖然很大,但梯度卻通常在一個(gè)低維空間中,這不僅符合人們對(duì)數(shù)據(jù)生長在低維流形上的認(rèn)知,也在實(shí)踐中可以被廣泛驗(yàn)證(圖4)。利用這個(gè)性質(zhì),研究員們把模型梯度先投影到一個(gè)低維空間后再做擾動(dòng),從而巧妙地繞開了維數(shù)依賴。
圖4:梯度矩陣的穩(wěn)定秩(p為參數(shù)維度),設(shè)置為 CIFAR-10 上的 ResNet20。在整個(gè)訓(xùn)練中,相比于參數(shù)維度,梯度矩陣的穩(wěn)定秩都很小[4]。
具體來說(如圖5所示),在每個(gè)梯度下降步中,首先用輔助數(shù)據(jù)估計(jì)一個(gè)錨子空間,然后將私有梯度投影到錨子空間,得到一個(gè)低維梯度嵌入和一個(gè)小范數(shù)的殘余梯度,之后分別擾動(dòng)梯度嵌入和殘余梯度,以保證差分隱私預(yù)算??偟膩碚f,可以使用比原來的梯度擾動(dòng)低得多的擾動(dòng),以保證相同的隱私水平。
圖5:梯度嵌入擾動(dòng) GEP 算法圖示[4]
梯度嵌入擾動(dòng)有哪些特征呢?首先,在梯度嵌入擾動(dòng)中使用的非敏感輔助數(shù)據(jù)的假設(shè)比之前的工作[5,6]中使用的公開數(shù)據(jù)的假設(shè)弱得多——梯度嵌入擾動(dòng)只需要少量非敏感無標(biāo)記數(shù)據(jù),并只要求其特征分布與私有數(shù)據(jù)相似,比如在實(shí)驗(yàn)中使用 ImageNet 的2000個(gè)降采樣圖像作為 MNIST、SVHN 和 CIFAR-10 數(shù)據(jù)集的輔助數(shù)據(jù)。其次,梯度嵌入擾動(dòng)同時(shí)擾動(dòng)低維梯度嵌入和殘余梯度,這是目標(biāo)梯度的無偏估計(jì),也是取得好性能的關(guān)鍵。第三,使用冪法估計(jì)梯度矩陣的主成分,從而實(shí)現(xiàn)簡單高效。
這種分解使用的噪聲相對(duì)小很多,從而有助于打破隱私學(xué)習(xí)的維度障礙。借助梯度嵌入擾動(dòng),研究員們?cè)诤侠淼碾[私預(yù)算下實(shí)現(xiàn)了深度模型較好的準(zhǔn)確性。在隱私預(yù)算 ϵ=8 的情況下,實(shí)驗(yàn)在 CIFAR10 上達(dá)到了74.9%的測試準(zhǔn)確度,并在 SVHN 上達(dá)到了95.1%的測試準(zhǔn)確度,大大提高了現(xiàn)有結(jié)果(表2)。據(jù)目前所知,梯度嵌入擾動(dòng)是首個(gè)從頭訓(xùn)練而實(shí)現(xiàn)這種效果的算法,并且隱私預(yù)算只有"個(gè)位數(shù)"。如果使用 ImageNet 預(yù)訓(xùn)練模型,梯度嵌入擾動(dòng)還可以在 CIFAR10 驗(yàn)證集上取得94.8%的準(zhǔn)確率,詳細(xì)信息請(qǐng)參考論文。
表2:不同算法在 SVHN 和 CIFAR10 測試集準(zhǔn)確率
通過對(duì)隱私攻擊更深入的研究以及利用訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型時(shí)梯度的低秩屬性,微軟亞洲研究院的研究員們正在努力把隱私保護(hù)應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)模型中,讓用戶即使在處理敏感數(shù)據(jù)時(shí)也可以安全地使用現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)。研究員們認(rèn)為,隱私保護(hù)并不會(huì)限制機(jī)器學(xué)習(xí)的性能,因?yàn)樗鼈儚母旧喜⒉粵_突——隱私保護(hù)個(gè)體,學(xué)習(xí)挖掘整體。未來,相信隱私保護(hù)研究可以讓可利用的“燃料”(海量數(shù)據(jù))得到更大的釋放,人工智能的邊界和性能也將因此得以拓展和提高。