聊聊聯(lián)邦學習安全綜述
?1、緒論
聯(lián)邦機器學習(Federated machine learning)又叫做聯(lián)邦學習(Federated Learning/FL),本質上也就是機器學習,但是他是將多方數(shù)據(jù)放在一起進行學習,考慮到數(shù)據(jù)的安全性和隱私性,多個合作方的數(shù)據(jù)通常不能互通,這也就造成了數(shù)據(jù)孤島,聯(lián)邦學習能夠在保證數(shù)據(jù)安全與隱私的前提下實現(xiàn)多方共同建模,學習流程如下:各個合作方將自己的本地數(shù)據(jù)進行訓練得到子模型,將訓練得到的參數(shù)再上傳到服務器,經(jīng)過聚合后得到整體參數(shù):
圖1聯(lián)邦學習流程圖
由于聯(lián)邦學習不需要共享各個合作方的原始數(shù)據(jù)就可以更新參數(shù)而備受關注,除此之外,聯(lián)邦學習需要在第三方的幫助下完成,因此隱私與安全問題是聯(lián)邦學習面臨的最大挑戰(zhàn)。
2、聯(lián)邦學習存在的威脅
2.1隱私推理攻擊和中毒攻擊
隱私推理攻擊一般不會改變目標模型,而是使他產(chǎn)生錯誤的預測,收集有關模型的特征來導致隱私和魯棒性問題,推理攻擊一般分為四種,第一種是會員推理攻擊,第二種是屬性推理攻擊,攻擊者試圖誘導其他客戶的私有數(shù)據(jù)的屬性,第三種是訓練輸入和標簽推斷攻擊,這種攻擊方式因其可以確定FL模型類的標簽和客戶機的訓練輸入往往更具有破壞性,第四種是基于GANs的推理攻擊,這種情況下,可以生成對抗網(wǎng)絡來執(zhí)行強大的攻擊[1]。中毒攻擊發(fā)生在對抗聯(lián)邦學習的訓練階段,可分為數(shù)據(jù)中毒和模型中毒兩種方式,數(shù)據(jù)中毒主要通過添加噪聲或者是翻轉標簽來改變訓練數(shù)據(jù)集,模型中毒通過操作模型更新導致全局模型偏離正常模型。
2.2后門攻擊和拜占庭攻擊
后門攻擊是指攻擊者在模型訓練過程中通過某種方式對模型植入后門,當后門沒有被激發(fā)的時候,被攻擊的模型與正常模型無異,但是當后門被激活時,模型的輸出變成攻擊者事先指定好的標簽來達到惡意攻擊的目的。而拜占庭攻擊旨在阻止全局模型收斂。
3、聯(lián)邦學習安全的研究進展
3.1基于差分隱私的方法
這種技術是在聯(lián)邦學習服務器共享單個更新之前向客戶機的敏感屬性引入噪聲,因此,每個用戶的隱私都得到了保護,Kang Wei等人提出了一種基于差分隱私的新型框架,在聚合前就將人工噪聲添加到客戶端的參數(shù)中,也就是模型聚合前的噪聲聚合[2]。他們所提出的方案通過適當調整方差滿足高斯噪聲在一定噪聲擾動水平下全局數(shù)據(jù)對差分隱私的要求,并且給出了訓練后的模型損失函數(shù)收斂界,實驗發(fā)現(xiàn),更好的收斂性能會導致較低的保護能力,但是在隱私保護水平固定的情況下,增加參與學習的客戶端數(shù)量可以適當提高其收斂性,但是也存在一個最優(yōu)的最大聚合次數(shù)。在此基礎上,他們還提出了一種K-client隨機調整策略,從客戶端中隨機選擇K個客戶端參與每次聚合,這樣存在一個K的最優(yōu)值,在固定隱私保護水平下達到最佳的收斂性能。
3.2基于健壯的聚合和同態(tài)加密的方法
由于聯(lián)邦學習框架的中心性和客戶端的不可靠,聯(lián)邦學習容易受到惡意客戶端和服務器的攻擊,Yinbin Miao等人設計了一種基于區(qū)塊鏈的隱私保護拜占庭魯棒聯(lián)邦學習(PBFL)方案[3],他們使用余弦相似度來判斷惡意客戶端上傳的惡意梯度,提供一個安全的全局模型來抵御中毒攻擊,再采用全同態(tài)加密技術提供了一種隱私保護訓練機制來實現(xiàn)安全聚合,這種方式可以有效阻止攻擊者窺探客戶端的本地數(shù)據(jù),最后使用區(qū)塊鏈技術,服務器執(zhí)行鏈下計算并將結果上傳到區(qū)塊鏈。Xiaoyuan Liu等人也采用同態(tài)加密作為底層技術,提出一個隱私增強的FL(PEEL)框架,通過對數(shù)函數(shù)去除惡意梯度[4],PEEL既可以防止服務器侵犯用戶的隱私,也可以保證惡意用戶無法通過上傳惡意梯度推斷出會員身份。
除此之外也可能存在某些用戶(這里稱作不規(guī)則用戶)提供的數(shù)據(jù)質量低下導致模型不準確的問題,基于這個問題Guowen Xun等人提出了PPFDL這樣的具有非規(guī)則用戶的隱私保護聯(lián)邦學習框架[5],在訓練過程中,高度集成了加性同態(tài)和Yao’s亂碼電路技術來保證所有用戶信息的保密性。
3.3基于安全多方運算和驗證網(wǎng)絡的方法
針對訓練過程中的局部梯度及從服務器返回的聚合結果完整性,Guowen Xu等人提出了第一個保護隱私和可驗證的聯(lián)邦學習框架——VerifyNet[6],他們首先提出了一種雙屏蔽協(xié)議來保證聯(lián)邦學習中用戶本地梯度的機密性,在訓練過程中,允許一定數(shù)量的用戶退出,但是這些退出用戶的隱私仍然受其保護,再要求云服務器向每個用戶提供關于其聚合結果正確性的證明,他們利用與偽隨機技術相結合的同態(tài)哈希函數(shù)作為VerifyNet的底層結構,允許用戶在可接受的開銷下驗證從服務器返回的結果的正確性。
3.4基于去中心化的方法
在隱私保護和可驗證上,Jiaoqi Zhao等人提出了一種名為PVD-FL的去中心化聯(lián)邦學習框架[7],首先設計一種高效并且可驗證的基于密碼的矩陣乘法算法來執(zhí)行深度學習中最基本的計算,通過上述算法設計了一套去中心化算法來構建PVD-FL框架保證全局模型和局部更新的保密性,同時,PVD-FL每一個訓練步驟都是可以驗證的以此來保證訓練的完整性。在PVD-FL中,可以在多個連接的參與者上構建全局模型而不需要中心的幫助。
圖2去中心化的聯(lián)邦學習
3.5后門攻擊和拜占庭攻擊防御
現(xiàn)有的安全聚合解決方案無法解決分布式計算系統(tǒng)中常見的拜占庭問題,于是Lingcheng Zhao等人提出了一個安全高效的聚合框架SEAR[8],利用可信硬件Intel SGX在提供隱私保護的同時提供聚合效率,他們還提出了一種遠程認證協(xié)議,可以讓聚合服務器同時對多個客戶端進行認證,同時SEAR在基于采樣的檢測方式上能夠更有效聚合模型。
基于檢測和過濾惡意模型更新的針對后門攻擊的防御只考慮到非常具體和有限的攻擊者模型,而基于差分隱私啟發(fā)的噪聲注入的方式會降低聚合模型的性能,為了解決這些問題,Thien Duc Nguyen等人提出了一個防御框架FLAME[9],為了最小化所需要的噪聲量,F(xiàn)LAME使用模型聚類和權值剪裁來保證模型聚合的良好性能,同時也能夠有效消除對抗后門。
3.6針對垂直聯(lián)邦學習的安全問題
聯(lián)邦學習分為水平聯(lián)邦學習(HFL)、垂直聯(lián)邦學習(VFL)和聯(lián)邦遷移學習,研究發(fā)現(xiàn)VFL的底層模型結構和梯度更新機制可以被惡意參與者利用,從而獲得推斷私有標簽的權力,更嚴重的情況是通過濫用底層模型甚至可以推斷出訓練數(shù)據(jù)之外的標簽,基于這個問題,Chong Fu等人提出了針對VFL的三種類型的標簽推斷攻擊,并對這些攻擊討論了可能的防御方法[10],他們的研究提出了VFL的隱藏風險,使得VFL的發(fā)展更加安全。
4、未來挑戰(zhàn)與機遇
4.1信任問題
參與聯(lián)邦學習的客戶端很多,其中如果存在惡意客戶端,攻擊者可以利用模型參數(shù)和訓練數(shù)據(jù)實施攻擊,聯(lián)邦服務器如何信任來自客戶機的報告是一個值得思考的問題。
4.2安全通信
聯(lián)邦學習需要多輪通信,不安全的通信信道會是一個安全隱患。
4.3可信的可溯源性
在聯(lián)邦學習的過程中確保全局模型的可跟蹤性是FL設置中的另一個主要挑戰(zhàn),例如,當一個模型參數(shù)在訓練的時候被修改或者更新,那么模型就要有跟蹤能力來確定哪個客戶機的更新導致了參數(shù)的更改[1]。
5、結束語
聯(lián)邦學習能夠讓多個合作方不共享各自的本地數(shù)據(jù)就能更新參數(shù)而廣受歡迎,但是聯(lián)邦學習的安全問題也隨之而來。本文介紹了聯(lián)邦學習訓練過程中常見的攻擊方式:隱私推理攻擊、中毒攻擊、后門攻擊和拜占庭攻擊。并總結了防御這些攻擊的方法最新研究進展,雖然這些方法能夠有效保證聯(lián)邦學習的安全,但是聯(lián)邦學習仍然存在一些無法完全解決的問題例如安全與效率的平衡、通信信道安全等問題。未來的聯(lián)邦學習安全研究依然有許多等待解決的問題和新型的多技術路徑融合發(fā)展方向。
參考文獻
[1] Mourad Benmalek,Mohamed Ali Benrekia & Yacine Challal.(2022).Security of Federated Learning: Attacks, Defensive Mechanisms, and Challenges. RIA(1). doi:10.18280/RIA.360106.
[2] K. Wei et al., "Federated Learning With Differential Privacy: Algorithms and Performance Analysis," in IEEE Transactions on Information Forensics and Security, vol. 15, pp. 3454-3469, 2020, doi: 10.1109/TIFS.2020.2988575.
[3] Y. Miao, Z. Liu, H. Li, K. -K. R. Choo and R. H. Deng, "Privacy-Preserving Byzantine-Robust Federated Learning via Blockchain Systems," in IEEE Transactions on Information Forensics and Security, vol. 17, pp. 2848-2861, 2022, doi: 10.1109/TIFS.2022.3196274.
[4] X. Liu, H. Li, G. Xu, Z. Chen, X. Huang and R. Lu, "Privacy-Enhanced Federated Learning Against Poisoning Adversaries," in IEEE Transactions on Information Forensics and Security, vol. 16, pp. 4574-4588, 2021, doi: 10.1109/TIFS.2021.3108434.
[5] G. Xu, H. Li, Y. Zhang, S. Xu, J. Ning and R. H. Deng, "Privacy-Preserving Federated Deep Learning With Irregular Users," in IEEE Transactions on Dependable and Secure Computing, vol. 19, no. 2, pp. 1364-1381, 1 March-April 2022, doi: 10.1109/TDSC.2020.3005909.
[6] G. Xu, H. Li, S. Liu, K. Yang and X. Lin, "VerifyNet: Secure and Verifiable Federated Learning," in IEEE Transactions on Information Forensics and Security, vol. 15, pp. 911-926, 2020, doi: 10.1109/TIFS.2019.2929409.
[7] J. Zhao, H. Zhu, F. Wang, R. Lu, Z. Liu and H. Li, "PVD-FL: A Privacy-Preserving and Verifiable Decentralized Federated Learning Framework," in IEEE Transactions on Information Forensics and Security, vol. 17, pp. 2059-2073, 2022, doi: 10.1109/TIFS.2022.3176191.
[8] L. Zhao, J. Jiang, B. Feng, Q. Wang, C. Shen and Q. Li, "SEAR: Secure and Efficient Aggregation for Byzantine-Robust Federated Learning," in IEEE Transactions on Dependable and Secure Computing, vol. 19, no. 5, pp. 3329-3342, 1 Sept.-Oct. 2022, doi: 10.1109/TDSC.2021.3093711.
[9] Nguyen, T.D., Rieger, P., Chen, H., Yalame, H., Mollering, H., Fereidooni, H., Marchal, S., Miettinen, M., Mirhoseini, A., Zeitouni, S., Koushanfar, F., Sadeghi, A., & Schneider, T. (2022). FLAME: Taming Backdoors in Federated Learning. USENIX Security Symposium.
[10] Xuhong Zhang,Shouling Ji,Jinyin Chen,Jingzheng Wu,Shanqing Guo,Jun Zhou,Alex X. Liu,Ting Wang.T. (2021).Label Inference Attacks Against Vertical Federated Learning.USENIX Security Symposium.?