52頁PPT,谷歌Gemini預(yù)訓(xùn)練負責(zé)人首次揭秘!擴展定律最優(yōu)解
谷歌憑借Gemini 2.5 Pro在激烈的大模型競爭中一舉翻盤。
近日,Geimini Flash預(yù)訓(xùn)練負責(zé)人Vlad Feinberg在普林斯頓大學(xué)分享了相關(guān)內(nèi)容。
他深入分析了Gemini預(yù)訓(xùn)練的方法、挑戰(zhàn)以及方向,如何在模型大小、算力、數(shù)據(jù)和推理成本間取得平衡。
PPT鏈接:https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
經(jīng)典擴展定律
模型訓(xùn)練中,計算資源的合理利用至關(guān)重要。
假設(shè)有計算資源(C)1000塊H100芯片,運行30天,如何訓(xùn)練出最佳的LLM呢?
這就涉及到模型參數(shù)量(N)和訓(xùn)練token數(shù)量(D)。
對于Transformer,計算量C和N、D之間存在一個近似公式:C≈6×N×D。
MLP是模型的重要組成部分,不同操作的浮點運算量和參數(shù)量有所不同。
比如這個操作,訓(xùn)練時的浮點運算量是6BTDF,參數(shù)量為DF。
把MLP的多個操作加起來,總訓(xùn)練浮點運算量約為18BTDF,參數(shù)數(shù)量達到3DF。
注意力機制的計算更為復(fù)雜。將注意力機制相關(guān)操作的計算量相加,約為12BTSNH=12BT2NH,參數(shù)量為4DNH。
將MLP和注意力機制的計算量合并,就能了解整個模型訓(xùn)練時的計算量情況。
Kaplan定律
2020年,Kaplan等人的研究揭示了模型性能與數(shù)據(jù)量、模型規(guī)模和計算量之間的關(guān)系。
自回歸Transformer模型中,小模型可以用來預(yù)測大模型的性能。
模型性能與算力、參數(shù)量、數(shù)據(jù)量之間存在冪律關(guān)系。當(dāng)計算預(yù)算增加10倍時,模型參數(shù)量應(yīng)增加5.37倍,數(shù)據(jù)量增加1.86倍。
這一結(jié)論在當(dāng)時引起了廣泛關(guān)注,點燃了企業(yè)的「軍備競賽」。
Chinchilla(龍貓)
然而,2022年,DeepMind對Kaplan的觀點提出了質(zhì)疑。
Kaplan的研究在每個模型規(guī)模下僅運行一次訓(xùn)練,并用中間損失來估計不同token訓(xùn)練步數(shù)下的損失。
Chinchilla論文指出,基于單次訓(xùn)練的中間loss點來推斷存在缺陷,通過適當(dāng)?shù)膶W(xué)習(xí)率衰減可以獲得更好的損失值,只有最終的損失值才是最優(yōu)的。
論文采用IsoFlops方法,固定浮點運算量預(yù)算,同時改變模型規(guī)模和訓(xùn)練token數(shù)量。
- 固定總算力C
- 訓(xùn)練多個不同參數(shù)N的模型,對應(yīng)不同數(shù)據(jù)量D(C≈6×N×D)
- 找到loss最低的模型N_opt(C)和D_opt(C)
- 重復(fù)以上步驟,得到不同算力下的最優(yōu)(N,D)點,并擬合
研究發(fā)現(xiàn),模型參數(shù)N和數(shù)據(jù)量D應(yīng)以大致相同的速率(冪律指數(shù)約為0.5)隨算力C增長,這與Kaplan等的結(jié)論大相徑庭。
這意味著,按Kaplan定律訓(xùn)練的模型,可能存在訓(xùn)練不足的情況,數(shù)據(jù)太少,會增加模型后續(xù)部署和使用的成本。
為了進一步優(yōu)化模型訓(xùn)練,研究人員嘗試了多種方法。通過不同的計算場景和擬合方式,得到了更精確的系數(shù)。
混合專家(MoE)模型的擴展定律展現(xiàn)出了獨特的優(yōu)勢。與傳統(tǒng)模型相比,在相同的活躍參數(shù)數(shù)量和固定100B token的情況下,MoE 64E模型的性能更優(yōu)。
然而,MoE模型對token數(shù)據(jù)的需求量較大,互聯(lián)網(wǎng)上的可用數(shù)據(jù)逐漸難以滿足其需求,這成為了發(fā)展瓶頸。
為了解決數(shù)據(jù)不足的問題,研究人員將目光投向了更多的數(shù)據(jù)來源。多模態(tài)數(shù)據(jù),如音頻、視覺、3D 模型、視頻等,為模型訓(xùn)練提供了豐富的信息。
合成數(shù)據(jù)也受到了關(guān)注。實際應(yīng)用中,需要在生成質(zhì)量與篩選成本之間找到平衡。
實時場景的模型選擇
在谷歌的許多應(yīng)用場景中,如免費的Gemini聊天機器人、AIO、AIM、Vertex AI(用于模型微調(diào)、部署)以及AI Studio(提供生成式API)等,推理效率至關(guān)重要。
這些應(yīng)用需要快速給出準(zhǔn)確的響應(yīng),對模型的推理速度和效率要求極高。
就拿實時應(yīng)用來說,Astra和Mariner都需要快速響應(yīng)。
以一個網(wǎng)絡(luò)交互智能體為例,假設(shè)上下文128k,但每次增量只有8k token,解碼需要128 token來生成一個動作,并且動作之間的延遲不超過1秒,其中250毫秒還得用于框架搭建、負載均衡等操作。
用Llama3-70B模型和v5e芯片做實驗,發(fā)現(xiàn)單芯片處理8k token需5.7秒。為了達到0.5秒的API延遲限制,需要搭建4×4 v5e并行。
實時應(yīng)用中,小模型反而更有優(yōu)勢,如Gemini Flash/Flash-lite。
Chinchilla的擴展方法雖然在模型訓(xùn)練的計算優(yōu)化上有效,但它忽略了推理成本。
在實際應(yīng)用中,需要綜合考慮訓(xùn)練和推理的成本,找到更合適的模型和數(shù)據(jù)配置。
推理優(yōu)化擴展定律
《超越Chinchilla最優(yōu):在語言模型擴展定律中考慮推理因素》這篇論文提出了新的推理優(yōu)化Scaling Laws。
核心思想是,不僅最小化訓(xùn)練loss,而是要綜合考慮訓(xùn)練和推理的總計算量,為模型優(yōu)化提供了新的方向。
按照這些公式,在相同計算量下,與Chinchilla最優(yōu)策略相比,應(yīng)該訓(xùn)練更小的模型,并使用更多的數(shù)據(jù),因為推理所需的計算量更少。
當(dāng)然,這也存在新的挑戰(zhàn)。
- 計算資源的非同質(zhì)性:實際應(yīng)用中計算資源存在差異,用于推理優(yōu)化的芯片各不相同,給推理優(yōu)化帶來了困難。
- 推理量D_inf難以預(yù)測:技術(shù)進步提高資源利用效率,反而會增加對該資源的需求(杰文斯悖論)。模型質(zhì)量提升可能會擴大市場,進而影響推理時的token數(shù)量D_inf。
- 擬合效果不佳:不同數(shù)據(jù)集下,相關(guān)參數(shù)的擬合效果存在差異。不同token與參數(shù)比例的數(shù)據(jù)子集,擬合得到的 α、β等參數(shù)不同,和Chinchilla的擬合結(jié)果也有較大差異。
針對這些問題,研究人員采用在數(shù)據(jù)約束下建模的方法。研究引入新維度,即有意區(qū)分數(shù)據(jù),提出新的損失函數(shù)和數(shù)據(jù)規(guī)模公式,這樣訓(xùn)練出來的模型更小,對數(shù)據(jù)重復(fù)的魯棒性更強。
對于推理token數(shù)量的處理,像Llama3模型,有研究指出其8B和70B參數(shù)的模型,在訓(xùn)練到15T token后,性能仍呈對數(shù)線性提升,即D_inf可視為無窮大。
蒸餾的探索與應(yīng)用
除了模型大小、數(shù)據(jù)量和推理成本,知識蒸餾為推理優(yōu)化擴展帶來了新的思路。
知識蒸餾擴展定律公式:
通過調(diào)整這些參數(shù),可以優(yōu)化學(xué)生模型的性能。
不過,知識蒸餾在實際應(yīng)用中也有一些問題,比如趨勢影響不明顯、部分情況考慮不周全等,但可以通過權(quán)重調(diào)整等方法進行改進。
從原理上講,知識蒸餾能降低方差,更好的教師模型能減少偏差,為模型優(yōu)化提供了新途徑。
谷歌Gemini預(yù)訓(xùn)練技術(shù)對經(jīng)典擴展定律和推理優(yōu)化擴展定律都進行了深入研究。
經(jīng)典擴展定律通過探索模型規(guī)模、數(shù)據(jù)量和計算量之間的關(guān)系,不斷優(yōu)化模型訓(xùn)練的資源配置。
推理優(yōu)化擴展定律針對推理成本和效率問題,綜合考慮訓(xùn)練和推理需求,提出新方法,提升模型整體性能。
同時,知識蒸餾等技術(shù)的應(yīng)用也為模型的優(yōu)化提供了更多的途徑。
Vlad Feinberg
Vlad Feinberg畢業(yè)于普林斯頓大學(xué)計算機科學(xué)專業(yè),于加州大學(xué)伯克利分校RISE實驗室攻讀博士學(xué)位。
后來,F(xiàn)einberg加入了一家名為Sisu的初創(chuàng)公司,擔(dān)任機器學(xué)習(xí)主管。他曾任職于谷歌研究院的Cerebra項目,目前在谷歌DeepMind工作。