自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

人工智能 算法
經(jīng)典的機(jī)器學(xué)習(xí)方法基于樣本數(shù)據(jù)(庫)訓(xùn)練得到適用于不同任務(wù)和場景的機(jī)器學(xué)習(xí)模型。

本文選擇了三篇關(guān)于個(gè)性化聯(lián)邦學(xué)習(xí)的文章進(jìn)行深入分析。

經(jīng)典的機(jī)器學(xué)習(xí)方法基于樣本數(shù)據(jù)(庫)訓(xùn)練得到適用于不同任務(wù)和場景的機(jī)器學(xué)習(xí)模型。這些樣本數(shù)據(jù)(庫)一般通過從不同用戶、終端、系統(tǒng)中收集并集中存儲(chǔ)而得到。在實(shí)際應(yīng)用場景中,這種收集樣本數(shù)據(jù)的方式面臨很多問題。一方面,這種方法損害了數(shù)據(jù)的隱私性和安全性。在一些應(yīng)用場景中,例如金融行業(yè)、政府行業(yè)等,受限于數(shù)據(jù)隱私和安全的要求,根本無法實(shí)現(xiàn)對數(shù)據(jù)的集中存儲(chǔ);另一方面,這種方法會(huì)增加通信開銷。在物聯(lián)網(wǎng)等一些大量依賴于移動(dòng)終端的應(yīng)用中,這種數(shù)據(jù)匯聚的通信開銷成本是非常巨大的。

聯(lián)邦學(xué)習(xí)允許多個(gè)用戶(稱為客戶機(jī))協(xié)作訓(xùn)練共享的全局模型,而無需分享本地設(shè)備中的數(shù)據(jù)。由中央服務(wù)器協(xié)調(diào)完成多輪聯(lián)邦學(xué)習(xí)以得到最終的全局模型。其中,在每一輪開始時(shí),中央服務(wù)器將當(dāng)前的全局模型發(fā)送給參與聯(lián)邦學(xué)習(xí)的客戶機(jī)。每個(gè)客戶機(jī)根據(jù)其本地?cái)?shù)據(jù)訓(xùn)練所接收到的全局模型,訓(xùn)練完畢后將更新后的模型返回中央服務(wù)器。中央服務(wù)器收集到所有客戶機(jī)返回的更新后,對全局模型進(jìn)行一次更新,進(jìn)而結(jié)束本輪更新。通過上述多輪學(xué)習(xí)和通信的方法,聯(lián)邦學(xué)習(xí)消除了在單個(gè)設(shè)備上聚合所有數(shù)據(jù)的需要,克服了機(jī)器學(xué)習(xí)任務(wù)中的隱私和通信挑戰(zhàn),允許機(jī)器學(xué)習(xí)模型學(xué)習(xí)分散在各個(gè)用戶(客戶機(jī))上存儲(chǔ)的數(shù)據(jù)。

聯(lián)邦學(xué)習(xí)自提出以來獲得了廣泛的關(guān)注,并在一些場景中得以應(yīng)用。聯(lián)邦學(xué)習(xí)解決了數(shù)據(jù)匯聚的問題,使得一些跨機(jī)構(gòu)、跨部門的機(jī)器學(xué)習(xí)模型、算法的設(shè)計(jì)和訓(xùn)練成為了可能。特別地,對于移動(dòng)設(shè)備中的機(jī)器學(xué)習(xí)模型應(yīng)用,聯(lián)邦學(xué)習(xí)表現(xiàn)出了良好的性能和魯棒性。此外,對于一些沒有足夠的私人數(shù)據(jù)來開發(fā)精確的本地模型的用戶(客戶機(jī))來說,通過聯(lián)邦學(xué)習(xí)能夠大大改進(jìn)機(jī)器學(xué)習(xí)模型和算法的性能。但是,由于聯(lián)邦學(xué)習(xí)側(cè)重于通過分布式學(xué)習(xí)所有參與客戶機(jī)(設(shè)備)的本地?cái)?shù)據(jù)來獲得高質(zhì)量的全局模型,因此它無法捕獲每個(gè)設(shè)備的個(gè)人信息,從而導(dǎo)致推理或分類的性能下降。此外,傳統(tǒng)的聯(lián)邦學(xué)習(xí)需要所有參與設(shè)備就協(xié)作訓(xùn)練的共同模型達(dá)成一致,這在實(shí)際復(fù)雜的物聯(lián)網(wǎng)應(yīng)用中是不現(xiàn)實(shí)的。研究人員將聯(lián)邦學(xué)習(xí)在實(shí)際應(yīng)用中面臨的問題總結(jié)如下[2]:(1)各個(gè)客戶機(jī)(設(shè)備)在存儲(chǔ)、計(jì)算和通信能力方面存在異構(gòu)性;(2) 各個(gè)客戶機(jī)(設(shè)備)本地?cái)?shù)據(jù)的非獨(dú)立同分布(Non-Idependently and Identically Distributed,Non-IID)所導(dǎo)致的數(shù)據(jù)異構(gòu)性問題;(3)各個(gè)客戶機(jī)根據(jù)其應(yīng)用場景所需要的模型異構(gòu)性問題。

為了解決這些異構(gòu)性挑戰(zhàn),一種有效的方法是在設(shè)備、數(shù)據(jù)和模型級別上進(jìn)行個(gè)性化處理,以減輕異構(gòu)性并為每個(gè)設(shè)備獲得高質(zhì)量的個(gè)性化模型,即個(gè)性化聯(lián)邦學(xué)習(xí)(Personalized Federated Learning)。針對 Non-IID 的聯(lián)邦學(xué)習(xí),機(jī)器之心之前有專門的分析文章,感興趣的讀者可以閱讀。針對設(shè)備異構(gòu)性的問題,一般可以通過設(shè)計(jì)新的分布式架構(gòu)(如 Client-Edge-Cloud[5])或新的聯(lián)邦學(xué)習(xí)算法( Asynchronous Fed[6])來解決。

針對模型異構(gòu)性的問題,作者在文獻(xiàn) [1] 中將不同的個(gè)性化聯(lián)邦學(xué)習(xí)方法分為以下幾類:增加用戶上下文(Adding User Context )[8]、遷移學(xué)習(xí)(Transfer Learning)[9]、多任務(wù)學(xué)習(xí)(Multi-task Learning)[10]、元學(xué)習(xí)(Meta-Learning)[3]、知識蒸餾(Knowledge Distillation )[11]、基本層 + 個(gè)性化層( Base + Personalization Layers)[4]、混合全局和局部模型(Mixture of Global and Local Models )[12] 等。

本文選擇了三篇關(guān)于個(gè)性化聯(lián)邦學(xué)習(xí)的文章進(jìn)行深入分析。其中,第一篇文章關(guān)于設(shè)備異構(gòu)性的問題[6],作者提出了一種新的異步聯(lián)邦優(yōu)化算法。對于強(qiáng)凸和非強(qiáng)凸問題以及一類受限的非凸問題,該方法能夠近似線性收斂到全局最優(yōu)解。第二篇文章重點(diǎn)解決模型異構(gòu)性的問題[7],作者提出了一種引入 Moreau Envelopes 作為客戶機(jī)正則化損失函數(shù)的個(gè)性化聯(lián)邦學(xué)習(xí)算法(pFedMe),該算法有助于將個(gè)性化模型優(yōu)化與全局模型學(xué)習(xí)分離開來。最后,第三篇文章提出了一個(gè)協(xié)同云邊緣框架 PerFit,用于個(gè)性化聯(lián)邦學(xué)習(xí),從整體上緩解物聯(lián)網(wǎng)應(yīng)用中固有的設(shè)備異構(gòu)性、數(shù)據(jù)異構(gòu)性和模型異構(gòu)性[2]。

一、Asynchronous Federated Optimization

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

隨著邊緣設(shè)備 / 物聯(lián)網(wǎng)(如智能手機(jī)、可穿戴設(shè)備、傳感器以及智能家居 / 建筑)的廣泛使用,這些設(shè)備在人們?nèi)粘I钪兴a(chǎn)生的大量數(shù)據(jù)催生了 “聯(lián)邦學(xué)習(xí)” 的方法。另一方面,對于人工智能算法中所使用的的樣本數(shù)據(jù)隱私性的考慮,進(jìn)一步提高了人們對聯(lián)邦學(xué)習(xí)的關(guān)注度。然而,聯(lián)邦學(xué)習(xí)是同步優(yōu)化(Synchronous)的,即中央服務(wù)器將全局模型同步發(fā)送給多個(gè)客戶機(jī),多個(gè)客戶機(jī)基于本地?cái)?shù)據(jù)訓(xùn)練模型后同步將更新后的模型返回中央服務(wù)器。聯(lián)邦學(xué)習(xí)的同步特性具有不可擴(kuò)展、低效和不靈活等問題。這種同步學(xué)習(xí)的方法在接入大量客戶機(jī)的情況下,存在同時(shí)接收太多設(shè)備反饋會(huì)導(dǎo)致中央服務(wù)器端網(wǎng)絡(luò)擁塞的問題。此外,由于客戶機(jī)的計(jì)算能力和電池時(shí)間有限,任務(wù)調(diào)度因設(shè)備而異,因此很難在每個(gè)更新輪次(epoch)結(jié)束時(shí)精準(zhǔn)的同步接入的客戶機(jī)。傳統(tǒng)方法會(huì)采取設(shè)定超時(shí)閾值的方法,刪除無法及時(shí)同步的客戶機(jī)。但是,如果可接入同步的客戶機(jī)數(shù)量太少,中央服務(wù)器可能不得不放棄整個(gè) epoch,包括所有已經(jīng)接收到的更新。

為了解決同步聯(lián)邦學(xué)習(xí)中出現(xiàn)的這些問題,本文提出了一種新的異步聯(lián)邦優(yōu)化算法,其關(guān)鍵思想是使用加權(quán)平均值來更新全局模型??梢愿鶕?jù)陳舊性函數(shù)(A Function of the Staleness)自適應(yīng)設(shè)定混合權(quán)重值。作者在文中證明,這些更改結(jié)合在一起能夠生成有效的異步聯(lián)邦優(yōu)化過程。

1.1 方法介紹

給定 n 個(gè)客戶機(jī),經(jīng)典聯(lián)邦學(xué)習(xí)表示為:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法
當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

其中,z^i 為第 i 個(gè)客戶機(jī)設(shè)備中的數(shù)據(jù)采樣。由于不同的客戶機(jī)設(shè)備之間存在異構(gòu)性,所存儲(chǔ)的數(shù)據(jù)庫也不同,從不同設(shè)備中提取的樣本具有不同的期望值:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

聯(lián)邦學(xué)習(xí)的一次完整的更新過程由 T 個(gè)全局 epochs 組成。在第 t 個(gè) epoch 中,中央服務(wù)器接收任意一個(gè)客戶機(jī)發(fā)回的本地訓(xùn)練的模型 x_new,并通過加權(quán)平均來更新全局模型:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

其中,α∈(0,1),α為混合超參數(shù) (mixing hyperparameter)。在任意設(shè)備 i 上,在從中央服務(wù)器接收到全局模型 x_t(可能已經(jīng)過時(shí))后,使用 SGD 進(jìn)行局部優(yōu)化以解決以下正則化優(yōu)化問題:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

中央服務(wù)器和客戶機(jī)設(shè)備的工作線程執(zhí)行異步更新。當(dāng)中央服務(wù)器接收到本地模型時(shí),會(huì)立即更新全局模型。中央服務(wù)器和客戶機(jī)線程之間的通信是非阻塞的。完整算法具體見算法 1。在中央服務(wù)器端,有兩個(gè)線程異步并行運(yùn)行:調(diào)度線程和更新線程。調(diào)度器定期觸發(fā)一些客戶機(jī)設(shè)備的訓(xùn)練任務(wù)。更新線程接收到客戶機(jī)設(shè)備本地訓(xùn)練得到的模型后更新全局模型。全局模型通過多個(gè)具有讀寫鎖的更新線程來提高吞吐量。調(diào)度器隨機(jī)化訓(xùn)練任務(wù)的時(shí)間,以避免更新線程過載,同時(shí)控制各個(gè)訓(xùn)練任務(wù)的陳舊性(更新線程中的 t-τ)。更新全局模型時(shí),客戶端反饋的陳舊性越大(過時(shí)越久),錯(cuò)誤就越大。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

針對模型中的α混合超參,對于具有大滯后性的局部模型(t-τ)可以通過減小α來減小由陳舊性引起的誤差。作者引入一個(gè)函數(shù) s(t-τ)來控制α的值。具體的,可選函數(shù)格式如下:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

本文提出的異步聯(lián)邦優(yōu)化方法的完整結(jié)構(gòu)見圖 1。其中,0:調(diào)度進(jìn)程通過協(xié)調(diào)器觸發(fā)訓(xùn)練任務(wù)。1、2:客戶機(jī)設(shè)備接收中央服務(wù)器發(fā)來的延遲的全局模型 x_(t-τ)。3:客戶機(jī)設(shè)備按照算法 1 中的描述進(jìn)行本地更新。工作進(jìn)程可以根據(jù)客戶機(jī)設(shè)備的可用性在兩種狀態(tài)之間切換:工作狀態(tài)和空閑狀態(tài)。4、5、6:客戶機(jī)設(shè)備通過協(xié)調(diào)器將本地更新的模型推送到中央服務(wù)器。調(diào)度程序?qū)?5 中接收到的模型進(jìn)行排隊(duì),并在 6、7、8 中按順序?qū)⑺鼈兲峁┙o更新進(jìn)程:中央服務(wù)器更新全局模型并使其準(zhǔn)備好在協(xié)調(diào)器中讀取。在該系統(tǒng)中,1 和 5 異步并行運(yùn)行,中央服務(wù)器可以隨時(shí)觸發(fā)客戶機(jī)設(shè)備上的訓(xùn)練任務(wù),而客戶機(jī)設(shè)備也可以隨時(shí)將本地更新的模型推送到中央服務(wù)器。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 1. 異步聯(lián)邦優(yōu)化系統(tǒng)總覽

1.2 實(shí)驗(yàn)分析

本文在基準(zhǔn) CIFAR-10 圖像分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集由 50k 個(gè)訓(xùn)練圖像和 10k 個(gè)測試圖像組成。調(diào)整每個(gè)圖像的大小并將其裁剪為(24, 24, 3)的形狀。使用 4 層卷積層 + 1 層全連接層結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。實(shí)驗(yàn)中,將訓(xùn)練集劃分到 n=100 個(gè)客戶機(jī)設(shè)備上。其中,n=100 的每個(gè)分區(qū)中有 500 個(gè)圖像。對于任何客戶機(jī)設(shè)備,SGD 處理的小批量大小是 50。使用經(jīng)典 FedAvg 聯(lián)邦學(xué)習(xí)方法和單線程 SGD 作為基準(zhǔn)方法。本文所提出的異步聯(lián)邦優(yōu)化方法記作 FedAsync。其中,根據(jù)α定義方式的不同,將選擇多項(xiàng)式自適應(yīng)α的方法定義為 FedAsync+Poly,將采用 Hinge 自適應(yīng)α的方法記作 FedAsync+Hinge。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 2. 指標(biāo)與梯度,陳舊性為 4

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 3. 指標(biāo)與梯度,陳舊性為 16

圖 2 和圖 3 給出了梯度值增加時(shí) FedAsync 如何收斂??梢钥吹?,當(dāng)整體陳舊性較小時(shí),F(xiàn)edAsync 收斂速度與 SGD 一樣快,比 FedAvg 快。當(dāng)陳舊性較大時(shí),F(xiàn)edAsync 收斂速度較慢。在最壞的情況下,F(xiàn)edAsync 的收斂速度與 FedAvg 相似。當(dāng) α值非常大時(shí),收斂可能不穩(wěn)定。使用自適應(yīng) α,收斂性對較大的 α 是魯棒的。當(dāng)最大陳舊性狀態(tài)為 4 時(shí),F(xiàn)edAsync 和 FedAsync+Hinge (b=4)是相同的。

1.3 論文小結(jié)

與經(jīng)典聯(lián)邦學(xué)習(xí)相比,本文提出的異步聯(lián)邦優(yōu)化方法具有下述優(yōu)點(diǎn):

效率:中央服務(wù)器可以隨時(shí)接收客戶機(jī)設(shè)備的更新。與 FedAvg 不同,陳舊性(延時(shí)反饋)的更新不會(huì)被刪除。當(dāng)陳舊性很小時(shí),F(xiàn)edAsync 比 FedAvg 收斂的快得多。在最壞的情況下,當(dāng)陳舊性很大時(shí)(延時(shí)嚴(yán)重),F(xiàn)edAsync 仍然具有與 FedAvg 相似的性能。

靈活性:如果某些設(shè)備不再能夠執(zhí)行訓(xùn)練任務(wù)(設(shè)備不再空閑、充電中或連接到不可用的網(wǎng)絡(luò)),可以將其暫時(shí)掛起,等待繼續(xù)訓(xùn)練或稍后將訓(xùn)練模型推送到中央服務(wù)器。這也為中央服務(wù)器上的進(jìn)程調(diào)度提供了很大的靈活性。與 FedAvg 不同,F(xiàn)edAsync 可以自行安排訓(xùn)練任務(wù),即使設(shè)備當(dāng)前不合格 / 不能夠工作,因?yàn)橹醒敕?wù)器無需一直等待設(shè)備響應(yīng),也可以做到令當(dāng)前不合格 / 不能工作的客戶機(jī)設(shè)備稍后開始訓(xùn)練任務(wù)。

可伸縮性:與 FedAvg 相比,F(xiàn)edAsync 可以處理更多并行運(yùn)行的客戶機(jī)設(shè)備,因?yàn)橹醒敕?wù)器和這些設(shè)備上的所有更新都是非阻塞的。服務(wù)器只需隨機(jī)化各個(gè)客戶機(jī)設(shè)備的響應(yīng)時(shí)間即可避免網(wǎng)絡(luò)擁塞。

作者在文章中通過理論分析和實(shí)驗(yàn)驗(yàn)證的方式證明了 FedAsync 的收斂性。對于強(qiáng)凸問題和非強(qiáng)凸問題,以及一類受限制的非凸問題,F(xiàn)edAsync 具有近似線性收斂到全局最優(yōu)解的能力。在未來的工作中,作者計(jì)劃進(jìn)一步研究如何設(shè)計(jì)策略來更好的調(diào)整混合超參數(shù)。

二、Personalized Federated Learning with Moreau Envelopes

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

隨著手持設(shè)備、移動(dòng)終端的快速發(fā)展和推廣應(yīng)用,這些手持設(shè)備 / 移動(dòng)終端產(chǎn)生的大量數(shù)據(jù)推動(dòng)了聯(lián)邦學(xué)習(xí)的發(fā)展。聯(lián)邦學(xué)習(xí)以一種保護(hù)隱私和高效通信的方式通過分散在客戶端(客戶機(jī)設(shè)備)中的數(shù)據(jù)構(gòu)建一個(gè)精確的全局模型。在實(shí)際應(yīng)用中,經(jīng)典聯(lián)邦學(xué)習(xí)面臨了這樣一個(gè)問題:* 如何利用聯(lián)邦學(xué)習(xí)中的全局模型來找到一個(gè)針對每個(gè)客戶端數(shù)據(jù)進(jìn)行個(gè)性化適配處理的“個(gè)性化模型”*?

參考個(gè)性化模型在醫(yī)療保健、金融和人工智能服務(wù)等領(lǐng)域中應(yīng)用的模式,本文提出了一種個(gè)性化聯(lián)邦學(xué)習(xí)方案,該方案引入了基于客戶端損失函數(shù)的 Moreau envelopes 優(yōu)化。通過該方案,客戶端不僅可以像經(jīng)典聯(lián)邦學(xué)習(xí)一樣構(gòu)建全局模型,而且可以利用全局模型來優(yōu)化其個(gè)性化模型。從幾何的角度分析,該方案中的全局模型可以看作是所有客戶端一致同意的“中心點(diǎn)”,而個(gè)性化模型是客戶端根據(jù)其異構(gòu)數(shù)據(jù)分布來構(gòu)建的遵循不同方向的點(diǎn)。

2.1 方法介紹

首先,作者回顧了經(jīng)典聯(lián)邦學(xué)習(xí):

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

(1)

其中,ω 表示全局模型,函數(shù) f_i 表示客戶端 i 中數(shù)據(jù)分布的預(yù)期損失。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

其中,ξ_i 為根據(jù)客戶端 i 的分布隨機(jī)抽取數(shù)據(jù)樣本,f_i(ω;ξ _i)表示對應(yīng)于該樣本和ω的損失函數(shù)。在聯(lián)邦學(xué)習(xí)中,由于客戶端的數(shù)據(jù)可能來自不同的環(huán)境、上下文和應(yīng)用程序,因此客戶端具有 Non-IID 數(shù)據(jù)分布,不同客戶端的ξ_i 不同。

不同于經(jīng)典聯(lián)邦學(xué)習(xí),本文對每個(gè)客戶端使用 L_2 范數(shù)的正則化損失函數(shù),如下所示:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

(2)

其中,θ_i 表示客戶端 i 的個(gè)性化模型,λ表示控制個(gè)性化模型的ω強(qiáng)度的正則化參數(shù)。雖然較大的λ可以從豐富的數(shù)據(jù)聚合中受益于不可靠的數(shù)據(jù),但是較小的λ可以幫助擁有足夠多有用數(shù)據(jù)的客戶端優(yōu)先進(jìn)行個(gè)性化設(shè)置??傊疚姆椒ǖ哪康氖?* 允許客戶端沿不同的方向更新本地模型,同時(shí)不會(huì)偏離每個(gè)客戶端都貢獻(xiàn)所得到的“參考點(diǎn)”ω*。個(gè)性化聯(lián)邦學(xué)習(xí)可以表述為一個(gè)雙層問題:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

通過在外部層(outer level)利用來自多個(gè)客戶端的數(shù)據(jù)聚合來確定ω,在內(nèi)部層(inner level)針對客戶端 i 的數(shù)據(jù)分布優(yōu)化θ_i,并使其與ω保持一定距離。F_i(ω)定義為 Moreau envelope。最優(yōu)個(gè)性化模型是解決 pFedMe 內(nèi)部層問題的唯一解決方案,在文獻(xiàn)中也被稱為鄰近算子(proximal operator),其定義如下:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

(3)

為了進(jìn)行比較,作者討論了 Per-FedAvg[13],它可以說是最接近 pFedMe 的公式:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

(4)

Per-FedAvg 是一個(gè)元學(xué)習(xí)方法,基于經(jīng)典元學(xué)習(xí)的與模型無關(guān)的元學(xué)習(xí)(MAML)框架,Per-FedAvg 的目標(biāo)是找到一個(gè)全局模型ω,可以用它作為初始化全局模型,進(jìn)一步對損失函數(shù)執(zhí)行梯度更新(步長為 α)來得到它的個(gè)性化模型θ_i(ω)。

與 Per-FedAvg 相比,本文的問題具有類似于 “元模型” 的考慮,但是沒有使用ω作為初始化,而是通過解決一個(gè)雙層問題來并行地求得個(gè)性化和全局模型,這種方式有幾個(gè)好處:首先,雖然 Per-FedAvg 針對其個(gè)性化模型進(jìn)行了一步梯度更新的優(yōu)化,但 pFedMe 對內(nèi)部優(yōu)化器是不可知的,這意味著公式(3)可以使用任何具有多步更新的迭代方法來求解。其次,可以將 Per-FedAvg 的個(gè)性化模型更新重寫為:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

(5)

使用 < x,y > 作為兩個(gè)向量 x 和 y 的內(nèi)積,可以看到除了相似的正則化項(xiàng)外,Per-FedAvg 只優(yōu)化了 f_i 的一階近似,而 pFedMe 直接最小化了公式(3)中的 f_i。第三,Per-FedAvg(或通常基于 MAML 的方法)需要計(jì)算或估計(jì) Hessian 矩陣,而 pFedMe 只需要使用一階方法計(jì)算梯度。

此外,作者還給出了 Moreau envelope 的一些數(shù)學(xué)特性證明,這些數(shù)學(xué)特性能夠保證引入 Moreau envelope 的聯(lián)邦學(xué)習(xí)方法的收斂性。

假設(shè) 1(強(qiáng)凸性和光滑性):f_i 分別是(a)μ- 強(qiáng)凸或(b)非凸和 L - 光滑的(即 L-Lipschitz 梯度),如下所示:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

假設(shè) 2(有界方差):每個(gè)客戶端的隨機(jī)梯度方差是有界的:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

假設(shè) 3(有界多樣性):局部梯度對全局梯度的方差是有界的

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

最后,作者回顧了 Moreau envelope 的一些有用的性質(zhì),例如平滑和保持凸性。

命題 1:如果 f_i 與 L-Lipschitz-▽f_i 是凸的或非凸的,那么▽f_i 是 L_F - 光滑的,L_F=λ(對于非凸 L - 光滑 f_i,條件是λ>2L),并且有:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

此外,如果 f_i 是μ強(qiáng)凸的,那么 f_i 是 F_i - 強(qiáng)凸的μ_F=λ_μ/(λ+μ)。

最后,作者介紹本文提出的 pFedMe 完整流程如下:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

首先,在內(nèi)部層,每個(gè)客戶端 i 求解公式(3)以獲得其個(gè)性化模型,其中 w^t_(i,r)表示客戶端 i 在全局輪次 t 和局部輪次 r 的局部模型。與 FedAvg 類似,本地模型的目的是幫助構(gòu)建全局模型,減少客戶端和服務(wù)器之間的通信輪數(shù)。其次,在外部層面,使用隨機(jī)梯度下降的客戶端 i 的局部更新是關(guān)于 F_i(而不是 f_i)的,如下所示

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

其中,η表示學(xué)習(xí)速率,使用當(dāng)前個(gè)性化模型和公式 (6) 計(jì)算▽F_i。

此外,作者還提出在實(shí)際場景中應(yīng)用時(shí),一般采用滿足下面約束的δ近似的個(gè)性化模型:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

對應(yīng)的,使用下式完成逼近▽F_i 的計(jì)算:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

這樣處理的原因有兩個(gè):第一,使用公式(3)計(jì)算個(gè)性化模型需要計(jì)算▽F_i(θ_i),這種計(jì)算依賴于ξ_i 的分布。實(shí)際上,可以通過對 D_i 的小樣本采樣來計(jì)算▽F_i(θ_i)的無偏估計(jì):

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法
當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

第二,獲取封閉形式的個(gè)性化模型是很困難的,相反,通常使用迭代一階方法來獲得高精度的近似值:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

選擇λ,令 h_i 是條件數(shù)為 k 的強(qiáng)凸,然后可以應(yīng)用梯度下降(例如,奈斯特羅夫加速梯度下降(Nesterov’s accelerated

gradient descent)))以獲得個(gè)性化模型:

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

pFedMe 中每個(gè)客戶端的計(jì)算復(fù)雜度是 FedAvg 的 K 倍。

2.2 實(shí)驗(yàn)分析

本文實(shí)驗(yàn)考慮了一個(gè)使用真實(shí)(MNIST)和合成數(shù)據(jù)集的分類問題。MNIST 是一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)集,包含 10 個(gè)標(biāo)簽和 70000 個(gè)實(shí)例。由于 MNIST 數(shù)據(jù)量的限制,作者將完整的 MNIST 數(shù)據(jù)集分發(fā)給 N=20 個(gè)客戶端。為了根據(jù)本地?cái)?shù)據(jù)大小和類別對異構(gòu)設(shè)置進(jìn)行建模,每個(gè)客戶端都被分配了一個(gè)不同的本地?cái)?shù)據(jù)大小,范圍為 [1165;3834],并且只有 10 個(gè)標(biāo)簽中的 2 個(gè)。對于合成數(shù)據(jù),作者采用數(shù)據(jù)生成和分布過程,使用兩個(gè)參數(shù) α=0.5 和β=0.5 來控制每個(gè)客戶端的本地模型和數(shù)據(jù)集的差異。具體來說,數(shù)據(jù)集使用 60 維實(shí)值數(shù)據(jù)為 10 類分類器提供服務(wù)。每個(gè)客戶端的數(shù)據(jù)大小在[250;25810] 范圍內(nèi)。最后,將數(shù)據(jù)分發(fā)給 N=100 個(gè)客戶端。

作者對 pFedMe、FedAvg 和 Per-FedAvg 進(jìn)行了比較。MNIST 數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果見圖 4。pFedMe 的個(gè)性化模型在強(qiáng)凸設(shè)置下的準(zhǔn)確率分別比其全局模型 Per-FedAvg 和 FedAvg 高 1.1%、1.3% 和 1.5%。非凸設(shè)置下的相應(yīng)數(shù)據(jù)為 0.9%、0.9% 和 1.3%。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 4. 使用 MNIST 的 pFedMe、FedAvg 和 Per-FedAvg 在μ- 強(qiáng)凸和非凸設(shè)置下的性能比較

對于合成數(shù)據(jù)集,利用相同參數(shù)和微調(diào)參數(shù)的比較結(jié)果見圖 5。在圖 5 中,盡管 pFedMe 的全局模型在測試準(zhǔn)確率和訓(xùn)練損失方面表現(xiàn)不如其他模型,但 pFedMe 的個(gè)性化模型仍然顯示出它的優(yōu)勢,因?yàn)樗@得了最高的測試準(zhǔn)確率和最小的訓(xùn)練損失。圖 5 顯示,pFedMe 的個(gè)性化模型比其全局模型 Per-FedAvg 和 FedAvg 的準(zhǔn)確率分別高出 6.1%、3.8% 和 5.2%。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 5. 使用合成數(shù)據(jù)集的 pFedMe、FedAvg 和 Per-FedAvg 在μ- 強(qiáng)凸和非凸設(shè)置下的性能比較

從實(shí)驗(yàn)結(jié)果來看,當(dāng)客戶端之間的數(shù)據(jù)是非獨(dú)立同分布(Non-IID)時(shí),pFedMe 和 Per-FedAvg 都獲得了比 FedAvg 更高的測試準(zhǔn)確度,因?yàn)檫@兩種方法允許全局模型針對特定客戶端進(jìn)行個(gè)性化處理。通過多次梯度更新近似優(yōu)化個(gè)性化模型從而避免計(jì)算 Hessian 矩陣,pFedMe 的個(gè)性化模型在收斂速度和計(jì)算復(fù)雜度方面比 Per-FedAvg 更具優(yōu)勢。

2.3 論文小結(jié)

本文提出了一種個(gè)性化聯(lián)邦學(xué)習(xí)方法 pFedMe。pFedMe 利用了 Moreau envelope 函數(shù),該函數(shù)有助于將個(gè)性化模型優(yōu)化從全局模型學(xué)習(xí)中分解出來,從而使得 pFedMe 可以類似于 FedAvg 更新全局模型,但又能根據(jù) t 每個(gè)客戶端的本地?cái)?shù)據(jù)分布并行優(yōu)化個(gè)性化模型。理論結(jié)果表明,pFedMe 可以達(dá)到最快的收斂加速率。實(shí)驗(yàn)結(jié)果表明,在凸和非凸環(huán)境下,使用真實(shí)和合成數(shù)據(jù)集,pFedMe 的性能都優(yōu)于經(jīng)典 FedAvg 和基于元學(xué)習(xí)的個(gè)性化聯(lián)邦學(xué)習(xí)算法 Per-FedAvg。

三、Personalized Federated Learning for Intelligent IoT Applications: A Cloud-Edge based Framework

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

復(fù)雜物聯(lián)網(wǎng)環(huán)境中固有的設(shè)備、統(tǒng)計(jì)和模型的異構(gòu)性給傳統(tǒng)的聯(lián)邦學(xué)習(xí)帶來了巨大挑戰(zhàn),使其無法直接部署應(yīng)用。為了解決物聯(lián)網(wǎng)環(huán)境中的異構(gòu)性問題,本文重點(diǎn)研究個(gè)性化聯(lián)邦學(xué)習(xí)方法,這種方法能夠減輕異質(zhì)性帶來的負(fù)面影響。此外,借助邊緣計(jì)算的能力,個(gè)性化聯(lián)邦學(xué)習(xí)能夠滿足智能物聯(lián)網(wǎng)應(yīng)用對快速處理能力和低延遲的要求。

邊緣計(jì)算的提出主要是為了解決設(shè)備異構(gòu)性中的高通信和計(jì)算成本問題,從而為物聯(lián)網(wǎng)設(shè)備提供了按需計(jì)算的能力。因此,每個(gè)物聯(lián)網(wǎng)設(shè)備可以選擇將其計(jì)算密集型學(xué)習(xí)任務(wù)卸載到邊緣,以滿足快速處理能力和低延遲的要求。此外,邊緣計(jì)算可以通過在本地就近存儲(chǔ)數(shù)據(jù)的方式(例如,在智能家庭應(yīng)用的智能邊緣網(wǎng)關(guān)中)解決隱私問題,而無需將數(shù)據(jù)上傳到遠(yuǎn)程云。還可以采用差分隱私和同態(tài)加密等隱私和安全保護(hù)技術(shù)來提高隱私保護(hù)水平。

本文提出了一個(gè)用于個(gè)性化聯(lián)邦學(xué)習(xí)的協(xié)同云邊緣框架 PerFit,該框架能夠從整體上緩解物聯(lián)網(wǎng)應(yīng)用中固有的設(shè)備異構(gòu)性、統(tǒng)計(jì)異構(gòu)性和模型異構(gòu)性問題。對于統(tǒng)計(jì)和模型的異構(gòu)性,該框架還允許終端設(shè)備和邊緣服務(wù)器在云邊緣范例中的中心云服務(wù)器的協(xié)調(diào)下共同訓(xùn)練一個(gè)全局模型。在對全局模型進(jìn)行學(xué)習(xí)訓(xùn)練后,在客戶端設(shè)備中可以采用不同的個(gè)性化聯(lián)邦學(xué)習(xí)方法,根據(jù)不同設(shè)備的應(yīng)用需求對其進(jìn)行個(gè)性化模型部署。

3.1 方法介紹

本文提出了一個(gè)針對智能物聯(lián)網(wǎng)應(yīng)用的個(gè)性化聯(lián)邦學(xué)習(xí)框架,以整體的方式應(yīng)對設(shè)備異構(gòu)性、數(shù)據(jù)異構(gòu)性和模型異構(gòu)性挑戰(zhàn)。如圖 6 所示,本文提出的 PerFit 框架采用云邊緣架構(gòu),為物聯(lián)網(wǎng)設(shè)備提供必要的按需邊緣計(jì)算能力。每個(gè)物聯(lián)網(wǎng)設(shè)備可以選擇通過無線連接將其密集的計(jì)算任務(wù)轉(zhuǎn)移到邊緣設(shè)備中(即家中的邊緣網(wǎng)關(guān)、辦公室的邊緣服務(wù)器或室外的 5G MEC 服務(wù)器),從而滿足物聯(lián)網(wǎng)應(yīng)用的高處理效率和低延遲的要求。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 6. 智能物聯(lián)網(wǎng)應(yīng)用的個(gè)性化聯(lián)邦學(xué)習(xí)框架,支持靈活選擇個(gè)性化的聯(lián)邦學(xué)習(xí)方法

具體來說,PerFit 中的協(xié)作學(xué)習(xí)過程主要包括以下三個(gè)階段,如圖 6 中所述:

卸載階段(Offloading stage)。當(dāng)邊緣設(shè)備是可信的(例如,家中的邊緣網(wǎng)關(guān)),物聯(lián)網(wǎng)設(shè)備用戶可以將其整個(gè)學(xué)習(xí)模型和數(shù)據(jù)樣本卸載到邊緣設(shè)備中以進(jìn)行快速計(jì)算。否則,設(shè)備用戶將通過將輸入層及其數(shù)據(jù)樣本本地保存在其設(shè)備上并將剩余的模型層卸載到邊緣設(shè)備中以進(jìn)行設(shè)備邊緣協(xié)作計(jì)算來執(zhí)行模型劃分。

學(xué)習(xí)階段(Learning stage)。邊緣設(shè)備根據(jù)個(gè)人數(shù)據(jù)樣本協(xié)同計(jì)算本地模型,然后將本地模型信息傳輸?shù)皆品?wù)器。云服務(wù)器將各個(gè)邊緣設(shè)備所提交的本地模型信息聚合起來,并將它們平均化為一個(gè)全局模型,然后發(fā)送回各個(gè)邊緣設(shè)備中。這樣的模型信息交換過程不斷重復(fù),直到經(jīng)過一定次數(shù)的迭代后收斂為止。因此,可以實(shí)現(xiàn)一個(gè)高質(zhì)量的全局模型,然后傳輸?shù)竭吘壴O(shè)備以進(jìn)行進(jìn)一步的個(gè)性化設(shè)置。

個(gè)性化階段(Personalization stage)。為了捕捉特定的個(gè)人特征和需求,每個(gè)邊緣設(shè)備都基于全局模型信息和自身的個(gè)人信息(即本地?cái)?shù)據(jù))訓(xùn)練一個(gè)個(gè)性化模型。這一階段的具體學(xué)習(xí)操作取決于采用的個(gè)性化聯(lián)邦學(xué)習(xí)機(jī)制。例如,遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、元學(xué)習(xí)、知識蒸餾、混合模型等。

進(jìn)一步,在邊緣設(shè)備上進(jìn)行本地模型聚合,也有助于避免大量設(shè)備通過昂貴的主干網(wǎng)帶寬與云服務(wù)器直接通信,從而降低通信開銷。通過執(zhí)行個(gè)性化處理,可以在一些資源有限的設(shè)備上部署輕量級的個(gè)性化模型(例如,通過模型修剪或傳輸學(xué)習(xí))。這將有助于減輕設(shè)備在通信和計(jì)算資源方面的異構(gòu)性。此外,也可以很好的支持統(tǒng)計(jì)異構(gòu)性和模型異構(gòu)性,因?yàn)樵摽蚣芸梢愿鶕?jù)不同邊緣設(shè)備的本地?cái)?shù)據(jù)特性、應(yīng)用程序需求和部署環(huán)境利用個(gè)性化的模型和機(jī)制。

PerFit 通過在邊緣設(shè)備和云服務(wù)器之間交換不同類型的模型信息,能夠靈活地集成多種個(gè)性化的聯(lián)邦學(xué)習(xí)方法,包括我們在這篇文章中分析的兩種個(gè)性化聯(lián)邦學(xué)習(xí)方法。通過解決復(fù)雜物聯(lián)網(wǎng)環(huán)境中固有的異構(gòu)性問題并在默認(rèn)情況下確保用戶隱私,PerFit 可以成為大規(guī)模實(shí)際部署的理想選擇。

3.2 個(gè)性化聯(lián)邦學(xué)習(xí)機(jī)制

作者在文章中回顧并簡述了幾個(gè)個(gè)性化聯(lián)合學(xué)習(xí)機(jī)制,這些機(jī)制可以與 PerFit 框架集成用于智能物聯(lián)網(wǎng)應(yīng)用程序。文中重點(diǎn)分析了以下幾種類型:聯(lián)邦遷移學(xué)習(xí),聯(lián)邦元學(xué)習(xí),聯(lián)邦多任務(wù)學(xué)習(xí)、聯(lián)邦蒸餾和數(shù)據(jù)增強(qiáng)。

3.2.1 聯(lián)邦遷移學(xué)習(xí)

聯(lián)邦遷移學(xué)習(xí)的基本思想是將全局共享模型遷移到分布式物聯(lián)網(wǎng)設(shè)備上(客戶端設(shè)備),通過針對各個(gè)物聯(lián)網(wǎng)設(shè)備實(shí)現(xiàn)個(gè)性化處理,以減輕聯(lián)邦學(xué)習(xí)中固有的數(shù)據(jù)異構(gòu)性問題(Non-IID 數(shù)據(jù)分布)??紤]到深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和通信過載問題,通過聯(lián)邦轉(zhuǎn)移學(xué)習(xí)實(shí)現(xiàn)個(gè)性化的方法主要有兩種。具體可見圖 7。

圖 7(a)中為 Chen 在文獻(xiàn) [14] 中提出的聯(lián)邦遷移學(xué)習(xí)方法。首先通過經(jīng)典的聯(lián)邦學(xué)習(xí)訓(xùn)練一個(gè)全局模型,然后將全局模型發(fā)送至每個(gè)客戶端設(shè)備。每個(gè)設(shè)備都能夠通過使用其本地?cái)?shù)據(jù)來改進(jìn)、細(xì)化全局模型從而構(gòu)建個(gè)性化模型。為了減少訓(xùn)練開銷,只對指定層的模型參數(shù)進(jìn)行微調(diào),而不是對整個(gè)模型進(jìn)行再訓(xùn)練。由圖 7(a)可見,由于深度網(wǎng)絡(luò)的底層側(cè)重于學(xué)習(xí)全局(公共的)和底層特征,因此,在全局模型中的這些底層參數(shù)可以傳輸?shù)骄植磕P椭泻笾苯訌?fù)用。而傳入的更高層的全局模型參數(shù)則應(yīng)該根據(jù)本地?cái)?shù)據(jù)進(jìn)行微調(diào),以便學(xué)習(xí)到針對當(dāng)前設(shè)備定制的更具體的個(gè)性化特性。

Arivazhagan 等在文獻(xiàn) [15] 中提出了另一類聯(lián)邦遷移學(xué)習(xí)方法 FedPer。FedPer 主張將深度學(xué)習(xí)模型視為基礎(chǔ) + 個(gè)性化層,如圖 7(b)所示。其中,將基本層作為共享層,使用現(xiàn)有的聯(lián)邦學(xué)習(xí)方法(即 FedAvg 方法)以協(xié)作方式進(jìn)行訓(xùn)練。而個(gè)人化層在本地進(jìn)行訓(xùn)練,從而能夠捕獲物聯(lián)網(wǎng)設(shè)備的個(gè)人信息。在聯(lián)邦學(xué)習(xí)一個(gè)階段的訓(xùn)練過程之后,可以將全局共享的基礎(chǔ)層轉(zhuǎn)移到參與的物聯(lián)網(wǎng)設(shè)備上,以其獨(dú)特的個(gè)性化層構(gòu)建自己的個(gè)性化深度學(xué)習(xí)模型。因此,F(xiàn)edPer 能夠捕捉到特定設(shè)備上的細(xì)粒度信息,以進(jìn)行更好的個(gè)性化推理或分類,并在一定程度上解決數(shù)據(jù)異構(gòu)性問題。此外,由于只需要上傳和聚合部分模型,F(xiàn)edPer 需要較少的計(jì)算和通信開銷,這在物聯(lián)網(wǎng)環(huán)境中是至關(guān)重要的。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 7. 兩種聯(lián)邦遷移學(xué)習(xí)架構(gòu)

3.2.2 聯(lián)邦元學(xué)習(xí)

在元學(xué)習(xí)中,模型是由一個(gè)能夠?qū)W習(xí)大量相似任務(wù)的元學(xué)習(xí)者(a Meta-Learner)來訓(xùn)練的,訓(xùn)練模型的目標(biāo)是從少量的新數(shù)據(jù)中快速適應(yīng)新的相似任務(wù)。聯(lián)邦元學(xué)習(xí)是指將元學(xué)習(xí)中的相似任務(wù)作為設(shè)備的個(gè)性化模型,將聯(lián)邦學(xué)習(xí)與元學(xué)習(xí)相結(jié)合,通過協(xié)作學(xué)習(xí)實(shí)現(xiàn)個(gè)性化處理。Jiang 等在文獻(xiàn) [16] 中提出了一種改進(jìn)的個(gè)性化 FedAvg。該方法通過引入一個(gè)精細(xì)化調(diào)整階段,該精細(xì)化調(diào)整階段使用模型不可知的元學(xué)習(xí)算法(model agnostic meta learning,MAML)。通過聯(lián)邦學(xué)習(xí)訓(xùn)練得到的全局模型可以個(gè)性化地捕捉單個(gè)設(shè)備中的細(xì)粒度信息,從而提高每個(gè)物聯(lián)網(wǎng)設(shè)備的性能。MAML 可以靈活地與任何模型表示相結(jié)合,以適應(yīng)基于梯度的訓(xùn)練。此外,它只需少量的數(shù)據(jù)樣本就可以快速學(xué)習(xí)和個(gè)性化適應(yīng)處理。

由于聯(lián)邦元學(xué)習(xí)方法通常使用復(fù)雜的訓(xùn)練算法,因此,與聯(lián)邦遷移學(xué)習(xí)方法相比,聯(lián)邦元學(xué)習(xí)方法實(shí)現(xiàn)的復(fù)雜度較高。不過,聯(lián)邦元學(xué)習(xí)方法的學(xué)習(xí)模型更健壯,這一特性對于數(shù)據(jù)樣本很少的設(shè)備是非常有用的。

3.2.3 聯(lián)邦多任務(wù)學(xué)習(xí)

由前兩節(jié)的分析可知,聯(lián)邦遷移學(xué)習(xí)和聯(lián)邦元學(xué)習(xí)的目的是通過個(gè)性化微調(diào)處理,在物聯(lián)網(wǎng)設(shè)備上學(xué)習(xí)相同或相似任務(wù)的共享模型。與這種思路不同的是,聯(lián)邦多任務(wù)學(xué)習(xí)的目標(biāo)是同時(shí)學(xué)習(xí)不同設(shè)備的不同任務(wù),并試圖在沒有隱私風(fēng)險(xiǎn)的情況下捕捉它們之間的模型關(guān)系(Model Relationships)。利用這種模型關(guān)系,每個(gè)設(shè)備的模型可以獲取其他設(shè)備的信息。此外,為每個(gè)設(shè)備學(xué)習(xí)的模型總是個(gè)性化的。

由圖 8 所示,在聯(lián)邦多任務(wù)學(xué)習(xí)訓(xùn)練過程中,云服務(wù)器根據(jù)物聯(lián)網(wǎng)設(shè)備上傳的模型參數(shù),學(xué)習(xí)多個(gè)學(xué)習(xí)任務(wù)之間的模型關(guān)系。然后,每個(gè)設(shè)備可以用其本地?cái)?shù)據(jù)和當(dāng)前模型關(guān)系更新自己的模型參數(shù)。聯(lián)邦多任務(wù)學(xué)習(xí)通過交替優(yōu)化云服務(wù)器中的模型關(guān)系和每個(gè)任務(wù)的模型參數(shù),使參與其中的物聯(lián)網(wǎng)設(shè)備能夠協(xié)同訓(xùn)練其本地模型,從而減輕數(shù)據(jù)異構(gòu)性,獲得高質(zhì)量的個(gè)性化模型。

文獻(xiàn) [17] 中提出了一種分布式優(yōu)化方法 MOCHA。為了應(yīng)對高通信成本的問題,MOCHA 具有一定的計(jì)算靈活性,從而通過執(zhí)行額外的本地計(jì)算的方式造成在聯(lián)邦環(huán)境下的通信輪次更少。為了減少最終結(jié)果的離散程度,作者建議在計(jì)算資源有限的情況下近似計(jì)算設(shè)備的本地更新。此外,異步更新方案也是避免離散問題的一種替代方法。此外,通過允許參與設(shè)備周期性地退出,MOCHA 具有健壯的容錯(cuò)性。由于復(fù)雜物聯(lián)網(wǎng)環(huán)境中固有的設(shè)備異構(gòu)性對聯(lián)邦學(xué)習(xí)的性能至關(guān)重要,聯(lián)邦多任務(wù)學(xué)習(xí)對于智能物聯(lián)網(wǎng)應(yīng)用具有重要意義。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 8. 聯(lián)邦多任務(wù)學(xué)習(xí)

3.2.4 聯(lián)邦蒸餾方法

在經(jīng)典聯(lián)邦學(xué)習(xí)框架中,所有的客戶機(jī)(例如參與的邊緣設(shè)備)都必須同意在全局服務(wù)器和本地客戶機(jī)上訓(xùn)練得到的模型的特定體系結(jié)構(gòu)。然而,在一些現(xiàn)實(shí)的商業(yè)環(huán)境中,如醫(yī)療保健領(lǐng)域和金融領(lǐng)域等,每個(gè)參與者都有能力和意愿設(shè)計(jì)自己獨(dú)特的模型,并且可能出于隱私和知識產(chǎn)權(quán)的考慮而不愿意分享模型細(xì)節(jié)。這種模型異構(gòu)性對傳統(tǒng)的聯(lián)邦學(xué)習(xí)提出了新的挑戰(zhàn)。

Li 等在文獻(xiàn) [18] 中提出了一個(gè)新的聯(lián)邦學(xué)習(xí)框架 FedMD,使參與者能夠利用知識蒸餾的方法獨(dú)立地設(shè)計(jì)自己的模型。在 FedMD 中,每個(gè)客戶機(jī)獨(dú)立的將所學(xué)知識轉(zhuǎn)化為標(biāo)準(zhǔn)格式,在不共享數(shù)據(jù)和模型體系結(jié)構(gòu)的情況下確保其他人可以理解該格式。中央服務(wù)器收集這些知識來計(jì)算全局模型,并將其進(jìn)一步分發(fā)給參與的客戶機(jī)。知識轉(zhuǎn)換步驟可以通過知識蒸餾來實(shí)現(xiàn),例如,使用客戶模型產(chǎn)生的類概率作為標(biāo)準(zhǔn)格式,如圖 9 所示。通過這種方式,云服務(wù)器聚合并平均每個(gè)數(shù)據(jù)樣本的類概率,然后分發(fā)到客戶機(jī)以指導(dǎo)其更新。

Jeong 等在文獻(xiàn) [19] 中提出一種聯(lián)邦蒸餾方法,其中每個(gè)客戶機(jī)將自己視為學(xué)生,并將所有其他客戶機(jī)的平均模型輸出視為其教師的輸出。教師與學(xué)生的產(chǎn)出差異為學(xué)生提供了學(xué)習(xí)的方向。這里值得注意的是,為了在聯(lián)邦學(xué)習(xí)中進(jìn)行知識提煉,需要一個(gè)公共數(shù)據(jù)集,因?yàn)榻處熀蛯W(xué)生的輸出應(yīng)該使用相同的訓(xùn)練數(shù)據(jù)樣本進(jìn)行評估。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 9. 聯(lián)邦蒸餾

3.2.5 數(shù)據(jù)增強(qiáng)

Zhao 等提出了一種數(shù)據(jù)共享策略,將一些均勻分布的全局?jǐn)?shù)據(jù)從云端(中央服務(wù)器)分發(fā)到邊緣客戶端[20],從而在一定程度上緩解客戶數(shù)據(jù)高度不平衡的分布狀況,從而提高個(gè)性化模型的性能。然而,直接將全局?jǐn)?shù)據(jù)分發(fā)到邊緣客戶端會(huì)帶來很大的隱私泄露風(fēng)險(xiǎn),這種方法需要在數(shù)據(jù)隱私保護(hù)和性能改進(jìn)之間進(jìn)行權(quán)衡。此外,全局共享數(shù)據(jù)與用戶本地?cái)?shù)據(jù)的分布差異也會(huì)導(dǎo)致性能下降。

為了在不損害用戶隱私的前提下糾正不平衡的 Non-IID 局部數(shù)據(jù)集問題,研究人員采用了一些具有生成能力的過采樣技術(shù)和深度學(xué)習(xí)方法。Jeong 等提出了一種聯(lián)邦擴(kuò)充方法(Federated Augmentation,F(xiàn)Aug)[21],其中每個(gè)客戶機(jī)共同訓(xùn)練一個(gè)生成模型,從而擴(kuò)充其本地?cái)?shù)據(jù)以生成 IID 數(shù)據(jù)集。具體地說,每個(gè)邊緣客戶機(jī)識別其數(shù)據(jù)樣本中缺少的標(biāo)簽(稱為目標(biāo)標(biāo)簽),然后將這些目標(biāo)標(biāo)簽的少數(shù)種子數(shù)據(jù)樣本上載到服務(wù)器。服務(wù)器對上傳的種子數(shù)據(jù)樣本進(jìn)行過采樣,然后訓(xùn)練一個(gè)生成性對抗網(wǎng)絡(luò)(Generative Atterial Network,GAN)。最后,每個(gè)設(shè)備可以下載經(jīng)過訓(xùn)練的 GAN 發(fā)生器來補(bǔ)充其目標(biāo)標(biāo)簽,直到得到一個(gè)平衡的數(shù)據(jù)集。通過數(shù)據(jù)擴(kuò)充,每個(gè)客戶機(jī)可以根據(jù)生成的數(shù)據(jù)集訓(xùn)練出一個(gè)更加個(gè)性化和精確的用于分類或推理任務(wù)的模型。值得注意的是,F(xiàn)Aug 的服務(wù)器應(yīng)該是可信的,這樣用戶才愿意上傳他們的個(gè)人數(shù)據(jù)。

3.3 實(shí)驗(yàn)分析

本文實(shí)驗(yàn)基于一個(gè)名為 MobiAct 的可公開訪問的數(shù)據(jù)集完成,該數(shù)據(jù)集重點(diǎn)研究人類活動(dòng)識別任務(wù)。每個(gè)參與構(gòu)建 MobiAct 數(shù)據(jù)集的志愿者都戴著三星 Galaxy S3 智能手機(jī),帶有加速計(jì)和陀螺儀傳感器。志愿者在進(jìn)行預(yù)定活動(dòng)時(shí),三軸線性加速度計(jì)和角速度信號由嵌入式傳感器記錄。使用 1 秒的滑動(dòng)窗口進(jìn)行特征提取,因?yàn)橐幻腌娋妥銐驁?zhí)行一個(gè)活動(dòng)。MobiAct 中記錄了 10 種活動(dòng),如步行、上下樓梯、摔倒、跳躍、慢跑、踏車等。為了實(shí)際模擬聯(lián)邦學(xué)習(xí)的環(huán)境,本文實(shí)驗(yàn)隨機(jī)選擇了 30 名志愿者,并將他們視為不同的客戶端。對于每個(gè)客戶端,為每個(gè)活動(dòng)隨機(jī)抽取若干個(gè)樣本,最后,每個(gè)客戶端有 480 個(gè)樣本用于模型訓(xùn)練。這樣,不同客戶端的個(gè)人數(shù)據(jù)可能呈現(xiàn)出 Non-IID 分布(統(tǒng)計(jì)異質(zhì)性)。每個(gè)客戶端的測試數(shù)據(jù)由分布均衡的 160 個(gè)樣本組成。

使用兩種模型進(jìn)行客戶端中的個(gè)性化學(xué)習(xí)。1) 多層感知器網(wǎng)絡(luò)由三個(gè)完全連接的層組成,有 400 個(gè)、100 個(gè)和 10 個(gè)神經(jīng)單元(總參數(shù) 521510 個(gè)),記作 3NN。2) 卷積神經(jīng)網(wǎng)絡(luò)(CNN),有三個(gè) 3×3 的卷積層(第一層有 32 個(gè)通道,第二個(gè)有 16 個(gè)通道,最后一個(gè)有 8 個(gè)通道,前兩層每個(gè)都有一個(gè) 2×2 最大池化層),一個(gè)有 128 個(gè)單元和 ReLu 激活的全連接層,以及一個(gè)最終的 Softmax 輸出層(總參數(shù)為 33698)。采用交叉熵?fù)p失和隨機(jī)梯度下降(SGD)優(yōu)化算法訓(xùn)練 3NN 和 CNN,學(xué)習(xí)率為 0.01。

作者選擇集中式學(xué)習(xí)、經(jīng)典聯(lián)邦學(xué)習(xí)方法作為基準(zhǔn)方法。對于集中式方法,采用了支持向量機(jī)(SVM)、k - 最近鄰(kNN)和隨機(jī)森林(RF)等常用的機(jī)器學(xué)習(xí)方法。此外,還采用了集中式 3NN(c3NN)和集中式 CNN(cCNN)進(jìn)行比較。對于個(gè)性化聯(lián)邦學(xué)習(xí),作者選擇了兩種被廣泛采用的方法:聯(lián)邦遷移學(xué)習(xí)(Federated Transfer Learning ,F(xiàn)TL)和聯(lián)邦蒸餾(Federated Distillation,F(xiàn)D)。對于 FTL,每個(gè)客戶端設(shè)備將使用其個(gè)人數(shù)據(jù)對從云服務(wù)器下載的模型進(jìn)行微調(diào)。而在 FD 中,每個(gè)客戶端可以根據(jù)自己的需求定制自己的模型。

圖 10 給出了 30 個(gè)客戶端在不同學(xué)習(xí)方法下的測試準(zhǔn)確度。對于集中式方法,基于深度學(xué)習(xí)的方法(c3NN、cCNN)可以比傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法(SVM、kNN 和 RF)獲得更高的準(zhǔn)確度。經(jīng)典聯(lián)邦學(xué)習(xí)(FL-CNN)中的邊緣客戶端在中央云服務(wù)器的協(xié)調(diào)下,能夠在不損害數(shù)據(jù)隱私的前提下改進(jìn)識別性能,并達(dá)到與 cCNN 類似的 85.22% 的識別率。FL-3NN 和 FL-CNN 與集中式模式相比性能略有下降,這是由于聯(lián)邦學(xué)習(xí)環(huán)境中固有的統(tǒng)計(jì)異質(zhì)性造成的。通過個(gè)性化的聯(lián)邦學(xué)習(xí),F(xiàn)TL 和 FD 都可以捕捉到用戶細(xì)粒度的個(gè)人信息,并為每個(gè)參與者獲得個(gè)性化的模型,從而獲得更高的測試準(zhǔn)確度。例如,F(xiàn)TL-3NN 識別率可達(dá) 95.37%,比 FL3NN 高 11.12%。

當(dāng)傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn),不妨嘗試這些個(gè)性化聯(lián)邦學(xué)習(xí)算法

圖 10. 不同學(xué)習(xí)方法在人體活動(dòng)識別中的準(zhǔn)確性研究

3.4 論文小結(jié)

本文提出了一個(gè)云邊緣架構(gòu)中的個(gè)性化聯(lián)邦學(xué)習(xí)框架 PerFit,用于具有數(shù)據(jù)隱私保護(hù)的智能物聯(lián)網(wǎng)應(yīng)用。PerFit 能夠通過聚合來自分布式物聯(lián)網(wǎng)設(shè)備的本地更新并利用邊緣計(jì)算的優(yōu)點(diǎn)來學(xué)習(xí)全局共享模型。為了解決物聯(lián)網(wǎng)環(huán)境中的設(shè)備、統(tǒng)計(jì)和模型的異構(gòu)性,PerFit 可以自然地集成各種個(gè)性化聯(lián)邦學(xué)習(xí)方法,從而實(shí)現(xiàn)物聯(lián)網(wǎng)應(yīng)用中設(shè)備的個(gè)性化處理并增強(qiáng)性能。通過一個(gè)人類活動(dòng)識別任務(wù)的案例研究,作者證明了 PerFit 的有效性。

4、總結(jié)

在這篇文章中,我們聚焦了個(gè)性化聯(lián)邦學(xué)習(xí)的問題。聯(lián)邦學(xué)習(xí)是一個(gè)有效的處理分布式數(shù)據(jù)訓(xùn)練的解決方案,它能夠通過聚集和平均本地計(jì)算的更新來協(xié)作訓(xùn)練高質(zhì)量的共享全局模型。此外,聯(lián)邦學(xué)習(xí)能夠在不損害用戶數(shù)據(jù)隱私的情況下學(xué)習(xí)得到令人滿意的全局模型。然而,由于分布式處理方式的固有弊端,聯(lián)邦學(xué)習(xí)面臨設(shè)備異構(gòu)性、數(shù)據(jù)異構(gòu)性和模型異構(gòu)性等問題,在實(shí)際推廣應(yīng)用中存在無法直接部署的風(fēng)險(xiǎn)。

個(gè)性化聯(lián)邦學(xué)習(xí)的目的是根據(jù)不同設(shè)備的應(yīng)用需求對其進(jìn)行個(gè)性化模型部署,以解決各類異構(gòu)性問題。本文選擇了專門針對于設(shè)備異構(gòu)性和模型異構(gòu)性問題的兩篇文章進(jìn)行詳細(xì)分析,最后還選擇了一篇文章介紹在物聯(lián)網(wǎng)應(yīng)用的云邊緣架構(gòu)中使用的個(gè)性化聯(lián)邦學(xué)習(xí)框架。由我們選擇的幾篇論文中作者進(jìn)行的理論分析和實(shí)驗(yàn)給出的結(jié)果可以看出,個(gè)性化聯(lián)邦學(xué)習(xí)確實(shí)可以改進(jìn)經(jīng)典聯(lián)邦學(xué)習(xí)方法的效果,能夠有效應(yīng)對客戶端設(shè)備中的各種異構(gòu)性情況,甚至能夠處理一些設(shè)備宕機(jī) / 存儲(chǔ)空間已滿等臨時(shí)性失效的問題。聯(lián)邦學(xué)習(xí)在各類實(shí)際場景中都有著巨大的應(yīng)用需求,我們會(huì)繼續(xù)關(guān)注個(gè)性化聯(lián)邦學(xué)習(xí)的技術(shù)發(fā)展和部署應(yīng)用方法。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2024-04-08 10:13:31

2023-02-26 14:17:44

2021-05-20 11:20:52

數(shù)據(jù)隱私安全

2022-09-12 20:31:54

隱私計(jì)算AI數(shù)據(jù)

2025-01-26 09:07:46

2022-05-19 12:04:07

隱私保護(hù)攻擊威脅

2023-03-06 11:20:18

數(shù)據(jù)學(xué)習(xí)

2023-10-16 11:30:59

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2022-04-11 17:55:35

人工智能

2013-02-21 10:41:46

2018-09-07 18:51:24

APP算法應(yīng)用

2024-04-07 07:40:00

2016-11-08 13:03:56

大數(shù)據(jù)小數(shù)據(jù)Dysart

2011-08-18 18:53:30

win7

2020-06-28 07:00:00

推薦系統(tǒng)智能商務(wù)服務(wù)平臺(tái)

2017-07-03 11:00:51

深度學(xué)習(xí)人工智能

2023-06-19 10:32:49

持續(xù)學(xué)習(xí)

2017-09-29 14:56:28

深度學(xué)習(xí)CTR預(yù)估
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號