GPT4規(guī)模大模型落地,Meta提ExFM框架:萬億參數(shù)基礎大模型的工業(yè)級落地成為可能
如何讓萬億級基礎大模型能夠高效、低成本地服務于大規(guī)模工業(yè)級應用,并且讓能夠隨著模型規(guī)模的提升(Scaling)而得到持續(xù)的性能增長?這一直是眾多企業(yè)困擾良久的難題。
在線廣告推薦系統(tǒng)是互聯(lián)網平臺的核心服務之一,其模型性能直接影響用戶體驗與商業(yè)價值。近年來,隨著 GPT-4、 DeepSeek、 Llama 等萬億參數(shù)基礎模型的成功,工業(yè)界和學術界開始探索通過模型規(guī)?;⊿caling)的方式建立基礎大模型來提升推薦效果。
然而,受限于其巨額訓練以及計算成本,以及工業(yè)級廣告實時推薦對延時性以及部署計算資源的嚴格要求,基礎大模型幾乎很難被直接地應用于實時廣告排序以及推薦系統(tǒng),尤其是考慮到很多公司無法負擔大規(guī)模的 GPU 來服務巨量用戶群體。
因此,目前工業(yè)界廣泛考慮讓基礎大模型(Foundation Model)的能力遷移到線上小模型(Vertical Model)當中以提高在線模型的能力,且主要采用教師-學生蒸餾(teacher-student distillation)。不過,此類解決方案在廣告工業(yè)中的應用依舊面臨著兩大長期被忽視的挑戰(zhàn):受限的訓練/推理預算,與動態(tài)變化的流式數(shù)據分布。這些挑戰(zhàn)的存在使得大模型對線上模型的幫助受限,且無法規(guī)?;嵘€上模型的性能。
本周,在 Meta AI 研究團隊提交的一篇論文中,研究團隊提出 External Large Foundation Model(ExFM)框架,首次系統(tǒng)性地解決了上述問題,成功支持萬億參數(shù)大模型在廣告推薦中的高效服務。據文章描述,ExFM 框架實現(xiàn)了以下 SOTA 成果:
- 規(guī)?;竽P图熬€上模型的迭代部署:ExFM 解耦了教師模型和學生模型的迭代和部署,在接近于 0 服務成本的情況下成功部署萬億級別參數(shù)的工業(yè)級大模型(類 GPT-4 規(guī)模),顯著降低了工業(yè)界受益于大模型的門檻和成本。ExFM 創(chuàng)新的提出數(shù)據增強系統(tǒng)(DAS),使得模型在等待線上用戶的真實訓練標簽(ground-truth label, 如用戶最終的點擊或購買行為)的時間里完成教師模型的參數(shù)更新與相應的偽標簽預測,達到對服務延遲沒有額外要求。
- 高效的知識遷移轉化率:ExFM 創(chuàng)新地提出了輔助頭(Auxiliary Head)以及學生適配器(Student Adapter)來解耦教師與學生模型,減少流式數(shù)據分布變化對教師模型與學生模型訓練過程中引入的偏置對知識遷移的影響,從而提高教師模型到學生模型的知識遷移轉化率,并對此進行了相應的理論分析。經驗結果表明,這兩項新技術在內部以及公開數(shù)據上皆取得了 SOTA 的結果。
- 實現(xiàn) 1 到 N 的知識遷移轉化:在 ExFM 的賦能下,不同領域、任務、階段里負責廣告排序的線上模型均實現(xiàn)了 SOTA 表現(xiàn)。
- 新型的 Transfer Scaling Law:在 ExFM 的賦能下,當不斷迭代和提升基礎大模型的模型規(guī)模時,其高效的知識轉化率使得線上的廣告排序模型的性能呈現(xiàn)出連續(xù)數(shù)年的持續(xù)提升(圖 1),且增速在不斷擴大,展示了一種新型的 Transfer Scaling Law。
圖 1:內部數(shù)據上基于不同規(guī)模的 FM 對 VM 進行迭代下取得的 NE 增益(時間跨度從 2023 年至 2024 年)。1X 等于 60 Million training FLOPs,1T 指 1 Trillion。
目前該論文已被 WWW 2025 Industrial Track 錄用為口頭報告 (Oral Presentation,根據往年數(shù)據一般為 top 10% 的論文)。本文將深入解析這一技術突破的核心思想與創(chuàng)新實踐。
- 論文標題:External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation
- 論文鏈接:https://arxiv.org/abs/2502.17494
規(guī)?;碾[形門檻
工業(yè)級推薦的兩大挑戰(zhàn)
現(xiàn)有廣告推薦方面的研究多聚焦于模型架構創(chuàng)新與參數(shù)規(guī)模擴展,但工業(yè)場景的特殊性導致線上部署的模型會面臨以下兩個主要挑戰(zhàn):
1. (C-1) 大流量下嚴格的延遲限制
- 廣告推薦需在毫秒級響應中從海量候選廣告(O (100K))中實時篩選,模型推理延遲將直接影響用戶體驗。
- 傳統(tǒng)知識蒸餾(KD)需聯(lián)合訓練師生模型,顯著增加計算成本和線上模型更新迭代的延遲,無法滿足工業(yè)級模型實時更新的需求。
2. (C-2) 流式數(shù)據的動態(tài)漂移
- 用戶與廣告數(shù)量會出現(xiàn)大規(guī)模的實時增減,這導致數(shù)據分布持續(xù)變化。傳統(tǒng)多輪訓練易出現(xiàn)過時,具體指的是線上模型更新完成的時間點落后于即時數(shù)據到達的時間點而使得大量實時數(shù)據無法被納入訓練,導致模型訓練后性能不足。并且多輪訓練的計算代價高昂,這是因為實時數(shù)據的規(guī)模異常龐大且與日俱增。
- 教師模型,如基礎模型(FM),與垂直模型(VM)間的跨域偏差與新鮮度差異進一步加劇性能衰減。
圖 2:(a)聯(lián)合蒸餾(Co-Distillation)與外部蒸餾(External Distillation);(b)流式數(shù)據下的模型迭代更新示意圖;(c)ExFM 框架,以一次模型迭代為例的示意圖。
對于解決挑戰(zhàn) C-1,常見的解決手段基于知識蒸餾,如果圖 2(a)所示,即把一個參數(shù)量大的教師模型與一個參數(shù)量小的學生模型進行聯(lián)合訓練,而學生模型會用于在線廣告推薦。然而在現(xiàn)實場景中,聯(lián)合訓練將增加學生模型的訓練復雜度以至于無法滿足工業(yè)級應用對在線模型進行更新訓練的延時要求。另一方面,廣告推薦往往涉及多個在線服務模型,每一個模型需要負責特定的階段的廣告排序任務。若對每個服務模型都建立對應的教師模型將非常低效且無法規(guī)模化。
因此,本文認為一個理想的教師模型應該滿足以下兩點需求:
- 教師模型應該獨立于學生模型,即進行外部整理,如圖 2(a)所示。
- 教師模型應該像一個基礎模型一樣滿足 1-to-N,即一個教師模型可以幫助多個不同方向的學生模型的性能提升。
然而在線廣告工業(yè)中的流式及動態(tài)變化的數(shù)據分布(挑戰(zhàn) C-2)使得實現(xiàn)理想的教師模型變得相當困難。如圖 2(b)所示,模型需要持續(xù)訓練以應對不斷出現(xiàn)的分布漂移。對此 Meta 內部數(shù)據顯示,若模型停止更新,其歸一化熵損失(NE)隨延遲時間呈指數(shù)級上升(如圖 3 所示)。這迫使工業(yè)系統(tǒng)必須在「模型規(guī)?!古c「服務效率」間尋求平衡。
圖 3:點擊率預測(CTR)隨著模型更新延遲而出現(xiàn)嚴重的下滑。
為了解決上述的挑戰(zhàn),本文提出 ExFM 框架。ExFM的核心思想是通過外部蒸餾將基礎模型(FM)的知識高效遷移至多個垂直模型(VM),并結合動態(tài)適配機制應對數(shù)據漂移。該框架的核心優(yōu)勢包括:
- 零額外推理延遲:通過外部蒸餾與數(shù)據增強系統(tǒng)(DAS),萬億 FM 的預測離線生成,VM 服務延遲與基線持平。
- 動態(tài)適應能力:流式訓練與適配器設計使模型持續(xù)適應數(shù)據分布變化,NE 增益能夠隨著時間推移以更大增速進行擴大。
ExFM 框架
外部蒸餾與動態(tài)適應的雙重革新
具體而言,ExFM 的技術架構如圖 2 (c) 所示,包含四大創(chuàng)新模塊:
1. 外部蒸餾與數(shù)據增強系統(tǒng)(DAS, 見圖 4)
- 解耦師生訓練:FM 獨立于 VM 訓練,通過離線生成預測標簽作為監(jiān)督信號,避免聯(lián)合訓練的計算開銷。
- 1:N 資源共享:FM 聚合多個 VM 的數(shù)據進行訓練,以「基礎模型」形式服務多個垂直場景,顯著攤薄構建成本。
- DAS 系統(tǒng)設計:通過分布式快照管理(Zeus)與數(shù)據流水線優(yōu)化,實現(xiàn) FM 預測的實時記錄與高效分發(fā),確保 VM 訓練數(shù)據始終包含最新 FM 知識。
圖 4:數(shù)據增強系統(tǒng)(Data Augmentation Service,DAS)
2. 輔助頭
傳統(tǒng)蒸餾將 FM 預測與真實標簽通過同一頭部融合,導致偏差傳遞。ExFM 創(chuàng)新性引入獨立輔助頭(圖 5a):
- 解耦監(jiān)督信號:真實標簽由服務頭處理,F(xiàn)M 預測由輔助頭處理,阻斷偏差傳播路徑。
- 梯度/標簽縮放技術:通過放大 FM 預測的梯度影響與標簽幅值,解決廣告點擊數(shù)據的長尾分布難題。
文中對此進行理論分析顯示,輔助頭可確保 VM 在真實標簽任務上收斂至最優(yōu)解,而傳統(tǒng)單頭架構因偏差傳遞無法實現(xiàn)。
圖 5:(a)輔助頭(Auxiliary Head)(b)學生適配器(Student Adapter)
3. 學生適配器(Student Adapter)
針對 FM 與 VM 間的新鮮度差異,ExFM 提出輕量級適配模塊(圖 5b):
- 動態(tài)校正機制:通過小型 MLP 網絡實時調整 FM 預測,使其適配 VM 的當前數(shù)據分布。
- 理論保障:文中給出理論分析表明,適配器可將模型偏差降低,顯著優(yōu)于傳統(tǒng)方法。
4. 流式訓練范式
- FM 與 VM 均采用單輪流式訓練,每日處理超 3000 億樣本,模型參數(shù)逐日迭代更新。
- 系統(tǒng)支持分鐘級快照切換,確保服務高可用性。
實驗結果
性能飛躍與工業(yè)驗證
ExFM 在 Meta 內部數(shù)據集與公開數(shù)據集(TaobaoAd、Amazon 等)上均取得顯著效果:
1. 單 VM 性能提升
- 內部場景中,3.2 萬億參數(shù)的 FM 使 VM 的歸一化熵(NE)持續(xù)降低,性能增益隨訓練數(shù)據量增長呈類指數(shù)上升(圖 1)。
- 公開數(shù)據集上(表 1),ExFM 在不同 FM-VM 組合均取得性能的提升。
表 1:公開數(shù)據集上的表現(xiàn)
2. 跨場景泛化能力
- 單一 FM 可同時服務廣告系統(tǒng)的召回、粗排、精排多階段 VM(圖 6),NE 增益達 0.11%-0.25%。
- 在跨域(表 4)與多任務(表 5)場景中,ExFM 均顯著優(yōu)于無 FM 基線,驗證其通用性。
圖 6:內部數(shù)據上 1000X,3.2T FM 對 跨階段(cross-stage) VM 的 NE 增益
表 4(左)及 表 5(右):公開數(shù)據集上 FM 對跨域以及跨任務的 VM 的性能提升
3. 模塊消融實驗
- 輔助頭(AH)貢獻主要性能增益,使學生模型 NE 降低 4%(圖 7)。
- 學生適配器(SA)在 FM 更新延遲時仍能維持 0.08% 的 NE 增益(圖 8),但其效果依賴 FM 的持續(xù)迭代(圖 9)。
圖 7(左):對 1000X 3.2T 的 FM 增加輔助頭(AH)后的 NE 變化; 圖 8(右):對 1800X,2.2T 的 FM 增加學生適配器(SA)后的 NE 變化
圖 9:公開數(shù)據集上,當 FM 的更新出現(xiàn)延遲的時,學生適配器的性能變化
結論
在本論文中,Meta AI 研究團隊提出了 ExFM 框架以實現(xiàn)萬億參數(shù)量的基礎大模型對實時廣告推薦模型進行持續(xù)、規(guī)?;男阅芴嵘?。降低了LLM規(guī)模的大模型在 recsys domain 的門檻,開啟了「foundation model for RecSys 」領域的時代。