自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

破解聯(lián)邦學(xué)習(xí)中的辛普森悖論,浙大提出反事實(shí)學(xué)習(xí)新框架FedCFA

人工智能
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,隱私保護(hù)和分布式優(yōu)化的需求日益增長。聯(lián)邦學(xué)習(xí)作為一種分布式機(jī)器學(xué)習(xí)技術(shù),允許多個(gè)客戶端在不共享數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型,從而有效地保護(hù)了用戶隱私。

江中華,浙江大學(xué)軟件學(xué)院碩士生二年級,導(dǎo)師為張圣宇老師。研究方向?yàn)榇笮∧P投嗽茀f(xié)同計(jì)算。張圣宇,浙江大學(xué)平臺「百人計(jì)劃」研究員。研究方向包括大小模型端云協(xié)同計(jì)算,多媒體分析與數(shù)據(jù)挖掘。

隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,隱私保護(hù)和分布式優(yōu)化的需求日益增長。聯(lián)邦學(xué)習(xí)作為一種分布式機(jī)器學(xué)習(xí)技術(shù),允許多個(gè)客戶端在不共享數(shù)據(jù)的情況下協(xié)同訓(xùn)練模型,從而有效地保護(hù)了用戶隱私。然而,每個(gè)客戶端的數(shù)據(jù)可能各不相同,有的數(shù)據(jù)量大,有的數(shù)據(jù)量??;有的數(shù)據(jù)特征豐富,有的數(shù)據(jù)特征單一。這種數(shù)據(jù)的異質(zhì)性和不平衡性(Non-IID)會導(dǎo)致一個(gè)問題:本地訓(xùn)練的客戶模型忽視了全局?jǐn)?shù)據(jù)中明顯的更廣泛的模式,聚合的全局模型可能無法準(zhǔn)確反映所有客戶端的數(shù)據(jù)分布,甚至可能出現(xiàn)「辛普森悖論」—— 多端各自數(shù)據(jù)分布趨勢相近,但與多端全局?jǐn)?shù)據(jù)分布趨勢相悖。

為了解決這一問題,來自浙江大學(xué)人工智能研究所的研究團(tuán)隊(duì)提出了 FedCFA,一個(gè)基于反事實(shí)學(xué)習(xí)的新型聯(lián)邦學(xué)習(xí)框架。

FedCFA 引入了端側(cè)反事實(shí)學(xué)習(xí)機(jī)制,通過在客戶端本地生成與全局平均數(shù)據(jù)對齊的反事實(shí)樣本,緩解端側(cè)數(shù)據(jù)中存在的偏見,從而有效避免模型學(xué)習(xí)到錯誤的特征 - 標(biāo)簽關(guān)聯(lián)。該研究已被 AAAI 2025 接收。


圖片

  • 論文標(biāo)題:FedCFA: Alleviating Simpson’s Paradox in Model Aggregation with Counterfactual Federated Learning
  • 論文鏈接:https://arxiv.org/abs/2412.18904
  • 項(xiàng)目地址:https://github.com/hua-zi/FedCFA

辛普森悖論

辛普森悖論(Simpson's Paradox)是一種統(tǒng)計(jì)現(xiàn)象。簡單來說,當(dāng)你把數(shù)據(jù)分成幾個(gè)子組時(shí),某些趨勢或關(guān)系在每個(gè)子組中表現(xiàn)出一致的方向,但在整個(gè)數(shù)據(jù)集中卻出現(xiàn)了相反的趨勢。

圖片

圖 1:辛普森悖論。在全局?jǐn)?shù)據(jù)集上觀察到的趨勢在子集上消失 / 逆轉(zhuǎn),聚合的全局模型無法準(zhǔn)確反映全局?jǐn)?shù)據(jù)分布

在聯(lián)邦學(xué)習(xí)中,辛普森悖論可能會導(dǎo)致全局模型無法準(zhǔn)確捕捉到數(shù)據(jù)的真實(shí)分布。例如,某些客戶端的數(shù)據(jù)中存在特定的特征 - 標(biāo)簽關(guān)聯(lián)(如顏色與動物種類的關(guān)系),而這些關(guān)聯(lián)可能在全局?jǐn)?shù)據(jù)中并不存在。因此,直接將本地模型匯聚成全局模型可能會引入錯誤的學(xué)習(xí)結(jié)果,影響模型的準(zhǔn)確性。

如圖 2 所示??紤]一個(gè)用于對貓和狗圖像進(jìn)行分類的聯(lián)邦學(xué)習(xí)系統(tǒng),涉及具有不同數(shù)據(jù)集的兩個(gè)客戶端??蛻舳?i 的數(shù)據(jù)集主要包括白貓和黑狗的圖像,客戶端 j 的數(shù)據(jù)集包括淺灰色貓和棕色狗的圖像。對于每個(gè)客戶端而言,數(shù)據(jù)集揭示了類似的趨勢:淺色動物被歸類為「貓」,而深色動物被歸類為「狗」。這導(dǎo)致聚合的全局模型傾向于將顏色與類別標(biāo)簽相關(guān)聯(lián)并為顏色特征分配更高的權(quán)重。然而,全局?jǐn)?shù)據(jù)分布引入了許多不同顏色的貓和狗的圖像(例如黑貓和白狗),與聚合的全局模型相矛盾。在全局?jǐn)?shù)據(jù)上訓(xùn)練的模型可以很容易地發(fā)現(xiàn)動物顏色與特定分類無關(guān),從而減少顏色特征的權(quán)重。

圖片

圖 2:FedCFA 可以生成客戶端本地不存在的反事實(shí)樣本,防止模型學(xué)習(xí)到不正確的特征 - 標(biāo)簽關(guān)聯(lián)。

反事實(shí)學(xué)習(xí)

反事實(shí)(Counterfactual)就像是「如果事情發(fā)生了另一種情況,結(jié)果會如何?」 的假設(shè)性推理。在機(jī)器學(xué)習(xí)中,反事實(shí)學(xué)習(xí)通過生成與現(xiàn)實(shí)數(shù)據(jù)不同的虛擬樣本,來探索不同條件下的模型行為。這些虛擬樣本可以幫助模型更好地理解數(shù)據(jù)中的因果關(guān)系,避免學(xué)習(xí)到虛假的關(guān)聯(lián)。

反事實(shí)學(xué)習(xí)的核心思想是通過對現(xiàn)有數(shù)據(jù)進(jìn)行干預(yù),生成新的樣本,這些樣本反映了某種假設(shè)條件下的情況。例如,在圖像分類任務(wù)中,我們可以改變圖像中的某些特征(如顏色、形狀等),生成與原圖不同的反事實(shí)樣本。通過讓模型學(xué)習(xí)這些反事實(shí)樣本,可以提高模型對真實(shí)數(shù)據(jù)分布的理解,避免過擬合局部數(shù)據(jù)的特點(diǎn)。

反事實(shí)學(xué)習(xí)廣泛應(yīng)用于推薦系統(tǒng)、醫(yī)療診斷、金融風(fēng)險(xiǎn)評估等領(lǐng)域。在聯(lián)邦學(xué)習(xí)中,反事實(shí)學(xué)習(xí)可以幫助緩解辛普森悖論帶來的問題,使全局模型更準(zhǔn)確地反映整體數(shù)據(jù)的真實(shí)分布。

FedCFA 框架簡介

為了解決聯(lián)邦學(xué)習(xí)中的辛普森悖論問題,F(xiàn)edCFA 框架通過在客戶端生成與全局平均數(shù)據(jù)對齊的反事實(shí)樣本,使得本地?cái)?shù)據(jù)分布更接近全局分布,從而有效避免了錯誤的特征 - 標(biāo)簽關(guān)聯(lián)。

如圖 2 所示,通過反事實(shí)變換生成的反事實(shí)樣本使局部模型能夠準(zhǔn)確掌握特征 - 標(biāo)簽關(guān)聯(lián),避免局部數(shù)據(jù)分布與全局?jǐn)?shù)據(jù)分布相矛盾,從而緩解模型聚合中的辛普森悖論。從技術(shù)上講,F(xiàn)edCFA 的反事實(shí)模塊,選擇性地替換關(guān)鍵特征,將全局平均數(shù)據(jù)集成到本地?cái)?shù)據(jù)中,并構(gòu)建用于模型學(xué)習(xí)的反事實(shí)正 / 負(fù)樣本。具體來說,給定本地?cái)?shù)據(jù),F(xiàn)edCFA 識別可有可無 / 不可或缺的特征因子,通過相應(yīng)地替換這些特征來執(zhí)行反事實(shí)轉(zhuǎn)換以獲得正 / 負(fù)樣本。通過對更接近全局?jǐn)?shù)據(jù)分布的反事實(shí)樣本進(jìn)行對比學(xué)習(xí),客戶端本地模型可以有效地學(xué)習(xí)全局?jǐn)?shù)據(jù)分布。然而,反事實(shí)轉(zhuǎn)換面臨著從數(shù)據(jù)中提取獨(dú)立可控特征的挑戰(zhàn)。一個(gè)特征可以包含多種類型的信息,例如動物圖像的一個(gè)像素可以攜帶顏色和形狀信息。為了提高反事實(shí)樣本的質(zhì)量,需要確保提取的特征因子只包含單一信息。因此,F(xiàn)edCFA 引入因子去相關(guān)損失,直接懲罰因子之間的相關(guān)系數(shù),以實(shí)現(xiàn)特征之間的解耦。

圖片

全局平均數(shù)據(jù)集的構(gòu)建

為了構(gòu)建全局平均數(shù)據(jù)集,F(xiàn)edCFA 利用了中心極限定理(Central Limit Theorem, CLT)。根據(jù)中心極限定理,若從原數(shù)據(jù)集中隨機(jī)抽取的大小為 n 的子集平均值記為圖片,則當(dāng) n 足夠大時(shí),圖片的分布趨于正態(tài)分布,其均值為 μ,方差圖片,即:圖片,其中 μ 和圖片是原始數(shù)據(jù)集的期望和方差。

當(dāng) n 較小時(shí),圖片能更精細(xì)地捕捉數(shù)據(jù)集的局部特征與變化,特別是在保留數(shù)據(jù)分布尾部和異常值附近的細(xì)節(jié)方面表現(xiàn)突出。相反,隨著 n 的增大,圖片的穩(wěn)定性顯著提升,其方差明顯減小,從而使其作為總體均值 ?? 的估計(jì)更為穩(wěn)健可靠,對異常值的敏感度大幅降低。此外,在聯(lián)邦學(xué)習(xí)等分布式計(jì)算場景中,為了實(shí)現(xiàn)通信成本的有效控制,選擇較大的 n 作為樣本量被視為一種優(yōu)化策略。

基于上述分析,F(xiàn)edCFA 按照以下步驟構(gòu)建一個(gè)大小為 B 的全局平均數(shù)據(jù)集,以此近似全局?jǐn)?shù)據(jù)分布:

1.本地平均數(shù)據(jù)集計(jì)算:每個(gè)客戶端將其本地?cái)?shù)據(jù)集隨機(jī)劃分為 B 個(gè)大小為圖片的子集圖片,其中圖片為客戶端數(shù)據(jù)集大小。對于每個(gè)子集,計(jì)算其平均值圖片。由此,客戶端能夠生成本地平均數(shù)據(jù)集圖片以近似客戶端原始數(shù)據(jù)的分布。

2.全局平均數(shù)據(jù)集計(jì)算:服務(wù)器端則負(fù)責(zé)聚合來自多個(gè)客戶端的本地平均數(shù)據(jù),并采用相同的方法計(jì)算出一個(gè)大小為 B 的全局平均數(shù)據(jù)集圖片,該數(shù)據(jù)集近似了全局?jǐn)?shù)據(jù)的分布。對于標(biāo)簽 Y,F(xiàn)edCFA 采取相同的計(jì)算策略,生成其對應(yīng)的全局平均數(shù)據(jù)標(biāo)簽圖片。最終得到完整的全局平均數(shù)據(jù)集圖片

反事實(shí)變換模塊

圖片

圖 3:FedCFA 中的本地模型訓(xùn)練流程

FedCFA 中的本地模型訓(xùn)練流程如圖 3 所示。反事實(shí)變換模塊的主要任務(wù)是在端側(cè)生成與全局?jǐn)?shù)據(jù)分布對齊的反事實(shí)樣本:

  • 特征提?。菏褂镁幋a器(Encoder)從原始數(shù)據(jù)中提取特征因子圖片
  • 選擇關(guān)鍵特征:計(jì)算每個(gè)特征在解碼器(Decoder)輸出層的梯度,選擇梯度小 / 大的 topk 個(gè)特征因子作為可替換的因子,使用圖片將選定的小 / 大梯度因子設(shè)置為零,以保留需要的因子
  • 生成反事實(shí)樣本:用 Encoder 提取的全局平均數(shù)據(jù)特征替換可替換的特征因子,得到反事實(shí)正 / 負(fù)樣本,對于正樣本,標(biāo)簽不會改變。對于負(fù)樣本,使用加權(quán)平均值來生成反事實(shí)標(biāo)簽:

圖片

因子去相關(guān)損失

同一像素可能包含多個(gè)數(shù)據(jù)特征。例如,在動物圖像中,一個(gè)像素可以同時(shí)攜帶顏色和外觀信息。為了提高反事實(shí)樣本的質(zhì)量,F(xiàn)edCFA 引入了因子去相關(guān)(Factor Decorrelation, FDC)損失,用于減少提取出的特征因子之間的相關(guān)性,確保每個(gè)特征因子只攜帶單一信息。具體來說,F(xiàn)DC 損失通過計(jì)算每對特征之間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)來衡量特征的相關(guān)性,并將其作為正則化項(xiàng)加入到總損失函數(shù)中。

給定一批數(shù)據(jù),用圖片來表示第 i 個(gè)樣本的所有因子。圖片表示第 i 個(gè)樣本的第 j 個(gè)因子。將同一批次中每個(gè)樣本的相同指標(biāo) j 的因子視為一組變量圖片。最后,使用每對變量的 Pearson 相關(guān)系數(shù)絕對值的平均值作為 FDC 損失:

圖片

其中 Cov (?) 是協(xié)方差計(jì)算函數(shù),Var (?) 是方差計(jì)算函數(shù)。最終的總損失為:

圖片

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)采用兩個(gè)指標(biāo):500 輪后的全局模型精度 和 達(dá)到目標(biāo)精度所需的通信輪數(shù),來評估 FedCFA 的性能。

圖片

圖片

圖片

實(shí)驗(yàn)基于 MNIST 構(gòu)建了一個(gè)具有辛普森悖論的數(shù)據(jù)集。具體來說,給 1 和 7 兩類圖像進(jìn)行上色,并按顏色深淺劃分給 5 個(gè)客戶端。每個(gè)客戶端的數(shù)據(jù)中,數(shù)字 1 的顏色都比數(shù)字 7 的顏色深。隨后預(yù)訓(xùn)練一個(gè)準(zhǔn)確率 96% 的 MLP 模型,作為聯(lián)邦學(xué)習(xí)模型初始模型。讓 FedCFA 與 FedAvg,F(xiàn)edMix 兩個(gè) baseline 作為對比,在該數(shù)據(jù)集上進(jìn)行訓(xùn)練。如圖 5 所示,訓(xùn)練過程中,F(xiàn)edAvg 和 FedMix 均受辛普森悖論的影響,全局模型準(zhǔn)確率下降。而 FedCFA 通過反事實(shí)轉(zhuǎn)換,可以破壞數(shù)據(jù)中的虛假的特征 - 標(biāo)簽關(guān)聯(lián),生成反事實(shí)樣本使得本地?cái)?shù)據(jù)分布靠近全局?jǐn)?shù)據(jù)分布,模型準(zhǔn)確率提升。

圖片

圖 4: 具有辛普森悖論的數(shù)據(jù)集

圖片

圖 5: 在辛普森悖論數(shù)據(jù)集上的全局模型 top-1 準(zhǔn)確率

消融實(shí)驗(yàn)

圖片


圖片

圖 6:因子去相關(guān) (FDC) 損失的消融實(shí)驗(yàn)

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2025-04-03 09:27:44

2011-07-05 17:45:07

PHP框架

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2024-08-06 11:30:00

2014-06-26 09:41:13

數(shù)據(jù)分析

2022-09-12 20:31:54

隱私計(jì)算AI數(shù)據(jù)

2022-05-19 12:04:07

隱私保護(hù)攻擊威脅

2025-04-01 09:32:00

模型訓(xùn)練AI

2019-03-08 09:28:42

Google 開源技術(shù)

2022-07-06 14:43:21

決策樹算法

2011-07-15 17:05:14

2023-02-08 15:32:56

新模塊操作系統(tǒng)

2024-12-23 14:10:00

AI模型數(shù)據(jù)

2023-03-15 16:16:07

鴻蒙Server端

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2020-06-30 09:54:30

框架AI開發(fā)

2022-05-05 15:02:26

機(jī)器學(xué)習(xí)人工智能開源

2023-02-26 14:17:44

2024-01-18 12:37:31

SOTA3D方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號