淺談聯(lián)邦學習中的隱私保護
背 景
隨著人工智技術的飛速發(fā)展,重視數(shù)據(jù)隱私與安全已經(jīng)成為國家的大事件。在數(shù)據(jù)孤島現(xiàn)象與數(shù)據(jù)融合相矛盾環(huán)境下,聯(lián)邦學習(federated learning,F(xiàn)L)作為一種新型的分布式機器學習技術應運而生,聯(lián)邦學習旨在通過安全交換不可逆的信息(如模型參數(shù)或梯度更新),使得多方數(shù)據(jù)持有者(如手機、物聯(lián)網(wǎng)設備等)協(xié)同訓練模型而不分享數(shù)據(jù)。盡管聯(lián)邦學習避免將數(shù)據(jù)直接暴露給第三方,對數(shù)據(jù)具有天然的保護作用,但其中依然存在大量的隱私泄露風險。本文為讀者介紹了聯(lián)邦學習的概念、存在的3類隱私泄漏風險和4種主要的隱私保護技術。
1.聯(lián)邦學習
定義:聯(lián)邦學習實際上是一種加密的分布式機器學習技術,聯(lián)邦學習可以跨越多種設備,參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)加密(混淆)形態(tài)的前提下聯(lián)合構(gòu)建模型。通過加密機制實現(xiàn)各企業(yè)的數(shù)據(jù)在不出本地情況下進行參數(shù)交換,實現(xiàn)不違反數(shù)據(jù)隱私法而構(gòu)建共有模型。
分類:按照數(shù)據(jù)和用戶呈現(xiàn)的特點將聯(lián)邦學習分為三類:橫向聯(lián)邦學習、縱向聯(lián)邦學習和遷移聯(lián)邦學習。具體介紹可參考[1-2]。
典型架構(gòu):客戶-服務器架構(gòu)和端到端架構(gòu)。前者通過中心服務器進行參數(shù)傳輸,后者客戶端之間直接進行參數(shù)傳輸。
訓練過程:如圖1所示,F(xiàn)L主要包含以下三個步驟。
Step1:模型選擇(啟動全局模型和初始參數(shù),并于FL環(huán)境當中所有客戶端共享);
Step2:局部模型訓練(客戶端初始ML模型,用個人訓練數(shù)據(jù)訓練模型);
Step3:本地模型聚合(客戶將局部模型更新發(fā)送到中心服務器,進行聚合和訓練全局模型,全局模型將下發(fā)到每個客戶端,進行多輪迭代的模型訓練)。
圖 1 聯(lián)邦學習模型訓練架構(gòu)
2.FL隱私泄漏風險
盡管聯(lián)邦學習不直接進行數(shù)據(jù)交換,相比傳統(tǒng)的機器學習具有更高的隱私保障,但本身并沒有提供全面充分的隱私保護,依然面臨著信息泄漏的威脅。因為參與者可以根據(jù)上傳的參數(shù)推測出其他參與者的訓練數(shù)據(jù),因此聯(lián)邦學習中的隱私風險主要來自不同類別的推理攻擊,主要包括成員推理攻擊、無意的數(shù)據(jù)泄漏&推理重建和基于GANs的推理攻擊[3]。
2.1 成員推理攻擊
成員推理攻擊通過對機器學習模型進行攻擊,攻擊者可以推斷出模型訓練集的信息,結(jié)構(gòu),該攻擊給機器學習帶來了嚴重的隱私威脅。如圖2所示,原始的數(shù)據(jù)集訓練的模型在應用平臺上運行,攻擊者冒充用戶去訪問目標模型,獲得一定的信息和敵手知識來構(gòu)建攻擊模型用于推理任意給定數(shù)據(jù)是否是目標模型的訓練成員[4]。
圖2 聯(lián)邦學習下的成員推理
2.2 無意的數(shù)據(jù)泄漏&推理重建
攻擊者利用中央服務器無意的數(shù)據(jù)泄漏漏洞,獲取客戶端的更新的數(shù)據(jù)或梯度信息,并通過推理攻擊成功重建其他客戶端的數(shù)據(jù)。這是一個相似的攻擊,對于給定的訓練模型,判斷其訓練集上是否包含特定屬性的數(shù)據(jù)點,該屬性不一定和訓練任務相關。例如使用LFW數(shù)據(jù)集訓練一個識別性別的模型時,推理重建能夠發(fā)現(xiàn)樣本的其他特征,如樣本的種族,是否戴眼鏡等信息,這將帶來隱私泄漏的風險[5]。
2.3 GANs推理攻擊
GANs是近些年大數(shù)據(jù)領域廣受歡迎的生成對抗網(wǎng)絡,同樣也適用于基于聯(lián)邦學習的方法。聯(lián)邦學習客戶端當中存在一些利用本地的舊數(shù)據(jù)作為訓練模型的貢獻,由于聯(lián)邦學習中僅參數(shù)的更新很難評估每個客戶端的貢獻和信譽。如圖3所示,該攻擊利用了學習過程的實時性,并允許對手訓練一個通用的對抗網(wǎng)絡(GAN),以生成隱私的目標訓練集的原型樣本,推理的圖像與原圖像幾乎相同,因為GAN旨在生成和訓練集分布相同的樣本,當分類樣本互相相似時(人臉識別),這種攻擊非常大[5]。
圖3 聯(lián)邦學習下的推理重構(gòu)
3.FL隱私保護
通過以上分析,聯(lián)邦學習當中存在很多隱私泄漏的風險,有攻就有防,科研人員同樣也研究出較多增強聯(lián)邦學習隱私保護的技術。聯(lián)邦學習當中增強隱私保護和減少威脅的方法,主要包含以下四種方法:安全多方計算(Secure multi-party computation)、差分隱私
(Differential privacy)、VerifyNet和對抗訓練(Adversarial training)[3]
3.1安全多方計算(sMPC)
sMPC采取密碼學的方法保護客戶端的參數(shù)更新或梯度。如圖4 所示,聯(lián)邦學習種sMPC與傳統(tǒng)的算法應用場景不同,聯(lián)邦學習算法當中sMPC只需要對參數(shù)進行加密,無需對大量的用戶數(shù)據(jù)進行加密,顯著提高了sMPC的效率,使得sMPC成為聯(lián)邦學習環(huán)境當中一個較好的選擇。
圖4 聯(lián)邦學習下的sMPC
3.2 差分隱私(DP)
DP通過添加噪聲來擾動原本特征清晰的數(shù)據(jù),使得單條數(shù)據(jù)失去其獨特性,隱藏在大量數(shù)據(jù)當中,防止敏感數(shù)據(jù)泄漏,DP仍能夠使得數(shù)據(jù)具備原有的分布式特點。聯(lián)邦學習當中,為了避免數(shù)據(jù)的反向檢索,對客戶端上傳的參數(shù)進行差分隱私,這樣可能會給上傳的參數(shù)帶來不確定性,影響模型的訓練效果。
3.3 VerifyNet
VerifyNet是一個隱私保護和可信驗證的聯(lián)邦學習框架。VerifyNet的雙隱蔽協(xié)議保證用戶在聯(lián)邦學習過程中局部梯度的機密性,另外中心服務器需要向每個用戶提供關于聚合結(jié)果的正確性證明。在VerifyNet當中,攻擊者很難偽造證據(jù)來欺騙其他用戶,除非能夠解決模型中采用的np硬問題。此外VerifyNet還支持用戶在訓練過程中退出,發(fā)現(xiàn)威脅迅速回退,多方面保護用戶的隱私安全。
3.4 對抗訓練(AT)
對抗訓練是增強神經(jīng)網(wǎng)絡魯棒性的重要方式,是一種主動防御技術。在聯(lián)邦學習對抗訓練過程中,樣本當中會混合一些微小的擾動(可能導致誤分類),然后使得神經(jīng)網(wǎng)絡適應這種變換,因此,最終生成的聯(lián)邦學習的全局模型對已知的對抗樣本具有魯棒性。
4.總 結(jié)
聯(lián)邦學習技術是隱私保護下機器學習的可實現(xiàn)路徑和“數(shù)據(jù)孤島問題”的可解決方案,適用于B2B和B2C業(yè)務,具有廣闊的應用場景。聯(lián)邦學習的隱私安全也是目前人們關注的熱點,本文介紹了聯(lián)邦學習的概念,存在推理攻擊的隱私泄漏風險以及主要的隱私保護技術,包括安全多方計算、差分隱私、VerifyNet和對抗訓練,以供讀者參考。
參考文獻
[1] 劉藝璇, 陳紅, 劉宇涵, & 李翠平. (2021). 聯(lián)邦學習中的隱私保護技術. 軟件學報, 33(3), 0-0.
[2] Yang, Q., Liu, Y., Chen, T., & Tong, Y. (2019). Federated machine learning: Concept and applications. ACM Transactions on Intelligent Systems and Technology (TIST), 10(2), 1-19.
[3] Mothukuri, V., Parizi, R. M., Pouriyeh, S., Huang, Y., Dehghantanha, A., & Srivastava, G. (2021). A survey on security and privacy of federated learning. Future Generation Computer Systems, 115, 619-640.
[4] 高婷. (2022). 機器學習成員推理攻擊研究進展與挑戰(zhàn). Operations Research and Fuzziology, 12, 1.
[5] AI大本營. (2022).聯(lián)邦學習的隱憂:來自梯度的深度泄露, https://t.cj.sina.com.cn/articles /view/6080368657/16a6b101101900wgmv