自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws

發(fā)布于 2025-2-14 12:34
瀏覽
0收藏

眾所周知,知識蒸餾技術當前正被大模型領域廣泛使用,它可以在大幅壓縮模型體量的同時保持一定的性能、降低模型時延、提升模型精度,與此同時還能對知識域進行集成和遷移。


近日,蘋果研究人員提出了一種蒸餾擴展定律(Distillation Scaling Laws),基于計算預算及其在學生和教師之間的分配,我們現(xiàn)在開始可以估算蒸餾模型的性能了。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

圖 1. 蒸餾擴展定律的外推。蒸餾擴展定律適用于一系列損失為 LT 的教師的弱學生模型(L_S > 2.3)。實線表示給定學生配置(插值)下未見過的教師的預測模型行為,虛線表示見過的教師之外和強學生區(qū)域(L_S ≤ 2.3)的預測模型行為。如圖所示,學生的表現(xiàn)可以勝過老師(詳情見圖 2、3 和 41)。


蘋果研究者認為,該發(fā)現(xiàn)降低了大規(guī)模使用蒸餾的風險,現(xiàn)在我們可以基于此優(yōu)化教師和學生模型的計算分配,以最大化學生模型的性能。該工作提供的計算最優(yōu)的蒸餾方案適用于兩種情況:1)已有教師模型,或 2)需要訓練教師模型。


如果要蒸餾多個學生模型,或者已有教師模型,蒸餾在計算水平上優(yōu)于監(jiān)督預訓練,直到計算水平隨著學生模型規(guī)模的增加而可預測地增長。如果要蒸餾一個學生模型且還需要訓練教師模型,則應采用監(jiān)督學習。此外,作者在大規(guī)模蒸餾研究中提供了深入的見解,這些見解增加了我們對蒸餾的理解,并為實驗設計提供了信息。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

  • 論文標題:Distillation Scaling Laws
  • 論文鏈接:https://arxiv.org/pdf/2502.08606

大模型的擴展定律(Scaling Laws)表明,如果先前訓練的語言模型(LM)遵循計算最優(yōu)訓練范式,就可以隨著計算力提升而提升。由于推理成本的持續(xù)增長,目前這種定律難以持續(xù),人們嘗試使用過度訓練(其中訓練數(shù)據(jù)量遠大于計算最優(yōu)情況)來實現(xiàn)小型、功能強大的模型。這些模型的構建既昂貴又耗時。


我們正在尋求與訓練算力投入相匹配,但訓練成本更低的模型,蒸餾是一種流行的方法。但長期以來,學界對蒸餾缺乏共識,并不了解如何分配計算資源,以產生最強大的模型。為了彌補這一知識差距,研究人員對蒸餾進行了廣泛研究,學生和老師的參數(shù)范圍從 1.43 億到 126 億,使用訓練數(shù)據(jù)最多達 5120 億 token。

研究發(fā)現(xiàn):

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

  1. 一個大小為 N_S 的學生模型,通過從大小為 N_T 的教師模型中蒸餾 D_S 個 token 所得到的交叉熵,可以通過蒸餾擴展定律(公式 8)進行預測。
  2. 老師大小 N_T 和老師訓練 token 數(shù)量 D_T 僅通過確定老師的交叉熵 L_T = L_T (N_T , D_T) 來確定學生交叉熵;
  3. 老師交叉熵對學生損失的影響遵循冪律,該冪律根據(jù)學生和老師的相對學習能力在兩種行為之間轉換,反映了蒸餾中稱為能力差距的現(xiàn)象,即較強的老師會產生較差的學生。該工作的參數(shù)化解決了有關能力差距懸而未決的問題,表明這是老師和學生之間學習能力(假設空間和優(yōu)化能力)的差距,而不僅僅是他們的相對大小,后者其實是一種特殊情況。


該結果表明,當兩個學習過程都有足夠的數(shù)據(jù)或計算時,蒸餾不能產生比監(jiān)督學習更低的模型交叉熵。但是,如果以下兩個條件都成立,則蒸餾比監(jiān)督學習更有效:


1. 用于學生的總計算或 token 不大于新擴展定律給出的學生大小相關閾值;

2. 老師已經存在,或者要訓練的老師有超出單次蒸餾的用途。


新的定律和分析有望指導 AI 社區(qū)構建更強大的模型,實現(xiàn)更低的推理成本和總計算成本。

蒸餾擴展率

文章概述了他們如何得出蒸餾擴展率所采取的步驟。


首先是實驗設置。本文的目標是理解教師模型在蒸餾過程中的作用,因此,該研究在純蒸餾情況下(λ = 1,公式 7)進行蒸餾,以避免數(shù)據(jù)帶來的混淆。本文驗證了 λ = 1 的選擇能夠產生與最優(yōu) λ? 統(tǒng)計相似的結果。同樣,所有實驗均使用蒸餾溫度(τ = 1),因為該研究發(fā)現(xiàn)這能產生性能最佳的學生模型。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)


蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

表 1 是文中出現(xiàn)的符號代表內容:

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

對應中文版本

此外,對于實驗數(shù)據(jù)的選擇,本文結合了三種方案:


固定 M 的教師 / 學生 IsoFLOP 實驗:


本文預測在固定教師模型的情況下,學生模型的參數(shù)(N_S)和訓練 token 數(shù)量(D_S)之間會呈現(xiàn)出冪律行為。


為了在給定的計算預算內生成盡可能多樣的教師模型,本文訓練了六個 Chinchilla 最優(yōu)教師模型,其參數(shù)范圍從 1.98 億到 77.5 億。對于每一個教師模型,本文按照標準訓練成本,將其蒸餾到具有四種 IsoFLOP 配置的學生模型中。最終得到的學生模型交叉熵如圖 2 所示。作者還注意到,在某些情況下,學生模型能夠超越教師模型的表現(xiàn),即展現(xiàn)出弱到強的泛化能力。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

注:為實現(xiàn)擴展系數(shù)的可靠識別,此前有研究使用了兩種策略:

  • (固定模型,變化數(shù)據(jù)) 對于一個固定的模型族,變化訓練 token 的數(shù)量。
  • (IsoFLOP 配置) 在總計算約束下,同時變化模型大小和訓練 token 的數(shù)量。


為了確保實驗能夠檢測到這種影響,本文設定學生(N_S,D_S)是固定的,而 N_T 和 D_T 在計算約束下變化。本文進行了蒸餾實驗,將四個 Chinchilla 最優(yōu)(M_S = D_S/N_S ≈ 20)的學生(其參數(shù)范圍從 1.98 億到 18.2 億),從根據(jù)四種 IsoFLOP 配置訓練的教師中蒸餾出來。最終得到的學生交叉熵如圖 3 所示。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

最后,本文訓練了固定 M 的教師模型與固定 M 的學生模型的組合,其中包含十個教師模型(M_T ≈ 20)和五種規(guī)模的學生模型,每個學生模型至少對應四種 M_S 選擇。其中兩個學生模型的交叉熵結果如圖 4 所示。

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

此外,本文還需要確定蒸餾擴展定律的函數(shù)形式。首先,本文觀察到教師模型的大小 N_T 和預訓練 token 數(shù)量 D_T 的貢獻可以通過教師模型的交叉熵 L_T 來總結。這可以從圖 1 和圖 3b 中看出:

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

總之,本文提出,學生交叉熵在 L_T 中遵循 broken 冪律,在 N_S 和 D_S 中遵循冪律:

蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws-AI.x社區(qū)

在此之后,論文分析了在不同計算預算下如何最優(yōu)地分配教師和學生模型的資源,包括教師模型的訓練成本和學生模型的蒸餾成本,并比較了蒸餾和監(jiān)督學習在不同計算預算下的性能,發(fā)現(xiàn)當教師模型的訓練成本被考慮時,監(jiān)督學習通常更有效。


這項工作代表了已知最大規(guī)模的蒸餾受控實證研究,系統(tǒng)消融了常見的蒸餾技術。正如監(jiān)督擴展減輕了監(jiān)督預訓練中的風險一樣,新工作為生產更小、更強大的模型提供了路線圖,并增強了測試時擴展的可行性。


本文轉自機器之心 ,作者:機器之心

原文鏈接:??https://mp.weixin.qq.com/s/ahHtRBok0jVzyYUKRihvVg??

已于2025-2-14 14:02:39修改
收藏
回復
舉報
回復
相關推薦