自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

52頁PPT,谷歌Gemini預(yù)訓(xùn)練負責(zé)人首次揭秘!擴展定律最優(yōu)解

人工智能 新聞
大模型之戰(zhàn)烽火正酣,谷歌Gemini 2.5 Pro卻強勢逆襲!Gemini Flash預(yù)訓(xùn)練負責(zé)人親自揭秘,深挖Gemini預(yù)訓(xùn)練的關(guān)鍵技術(shù),看谷歌如何在模型大小、算力、數(shù)據(jù)和推理成本間找到最優(yōu)解。

谷歌憑借Gemini 2.5 Pro在激烈的大模型競爭中一舉翻盤。

近日,Geimini Flash預(yù)訓(xùn)練負責(zé)人Vlad Feinberg在普林斯頓大學(xué)分享了相關(guān)內(nèi)容。

他深入分析了Gemini預(yù)訓(xùn)練的方法、挑戰(zhàn)以及方向,如何在模型大小、算力、數(shù)據(jù)和推理成本間取得平衡。

圖片

PPT鏈接:https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

經(jīng)典擴展定律

模型訓(xùn)練中,計算資源的合理利用至關(guān)重要。

假設(shè)有計算資源(C)1000塊H100芯片,運行30天,如何訓(xùn)練出最佳的LLM呢?

這就涉及到模型參數(shù)量(N)和訓(xùn)練token數(shù)量(D)。

對于Transformer,計算量C和N、D之間存在一個近似公式:C≈6×N×D。

圖片

MLP是模型的重要組成部分,不同操作的浮點運算量和參數(shù)量有所不同。

比如圖片這個操作,訓(xùn)練時的浮點運算量是6BTDF,參數(shù)量為DF。

把MLP的多個操作加起來,總訓(xùn)練浮點運算量約為18BTDF,參數(shù)數(shù)量達到3DF。

注意力機制的計算更為復(fù)雜。將注意力機制相關(guān)操作的計算量相加,約為12BTSNH=12BT2NH,參數(shù)量為4DNH。

將MLP和注意力機制的計算量合并,就能了解整個模型訓(xùn)練時的計算量情況。

Kaplan定律

2020年,Kaplan等人的研究揭示了模型性能與數(shù)據(jù)量、模型規(guī)模和計算量之間的關(guān)系。

自回歸Transformer模型中,小模型可以用來預(yù)測大模型的性能。

模型性能與算力、參數(shù)量、數(shù)據(jù)量之間存在冪律關(guān)系。當(dāng)計算預(yù)算增加10倍時,模型參數(shù)量應(yīng)增加5.37倍,數(shù)據(jù)量增加1.86倍。

這一結(jié)論在當(dāng)時引起了廣泛關(guān)注,點燃了企業(yè)的「軍備競賽」。

圖片

Chinchilla(龍貓)

然而,2022年,DeepMind對Kaplan的觀點提出了質(zhì)疑。

圖片

Kaplan的研究在每個模型規(guī)模下僅運行一次訓(xùn)練,并用中間損失來估計不同token訓(xùn)練步數(shù)下的損失。

Chinchilla論文指出,基于單次訓(xùn)練的中間loss點來推斷存在缺陷,通過適當(dāng)?shù)膶W(xué)習(xí)率衰減可以獲得更好的損失值,只有最終的損失值才是最優(yōu)的。

論文采用IsoFlops方法,固定浮點運算量預(yù)算,同時改變模型規(guī)模和訓(xùn)練token數(shù)量。

  • 固定總算力C
  • 訓(xùn)練多個不同參數(shù)N的模型,對應(yīng)不同數(shù)據(jù)量D(C≈6×N×D)
  • 找到loss最低的模型N_opt(C)和D_opt(C)
  • 重復(fù)以上步驟,得到不同算力下的最優(yōu)(N,D)點,并擬合

圖片

研究發(fā)現(xiàn),模型參數(shù)N和數(shù)據(jù)量D應(yīng)以大致相同的速率(冪律指數(shù)約為0.5)隨算力C增長,這與Kaplan等的結(jié)論大相徑庭。

這意味著,按Kaplan定律訓(xùn)練的模型,可能存在訓(xùn)練不足的情況,數(shù)據(jù)太少,會增加模型后續(xù)部署和使用的成本。

圖片

為了進一步優(yōu)化模型訓(xùn)練,研究人員嘗試了多種方法。通過不同的計算場景和擬合方式,得到了更精確的系數(shù)。

混合專家(MoE)模型的擴展定律展現(xiàn)出了獨特的優(yōu)勢。與傳統(tǒng)模型相比,在相同的活躍參數(shù)數(shù)量和固定100B token的情況下,MoE 64E模型的性能更優(yōu)。

圖片

然而,MoE模型對token數(shù)據(jù)的需求量較大,互聯(lián)網(wǎng)上的可用數(shù)據(jù)逐漸難以滿足其需求,這成為了發(fā)展瓶頸。

為了解決數(shù)據(jù)不足的問題,研究人員將目光投向了更多的數(shù)據(jù)來源。多模態(tài)數(shù)據(jù),如音頻、視覺、3D 模型、視頻等,為模型訓(xùn)練提供了豐富的信息。

合成數(shù)據(jù)也受到了關(guān)注。實際應(yīng)用中,需要在生成質(zhì)量與篩選成本之間找到平衡。

實時場景的模型選擇

在谷歌的許多應(yīng)用場景中,如免費的Gemini聊天機器人、AIO、AIM、Vertex AI(用于模型微調(diào)、部署)以及AI Studio(提供生成式API)等,推理效率至關(guān)重要。

這些應(yīng)用需要快速給出準(zhǔn)確的響應(yīng),對模型的推理速度和效率要求極高。

就拿實時應(yīng)用來說,Astra和Mariner都需要快速響應(yīng)。

以一個網(wǎng)絡(luò)交互智能體為例,假設(shè)上下文128k,但每次增量只有8k token,解碼需要128 token來生成一個動作,并且動作之間的延遲不超過1秒,其中250毫秒還得用于框架搭建、負載均衡等操作。

用Llama3-70B模型和v5e芯片做實驗,發(fā)現(xiàn)單芯片處理8k token需5.7秒。為了達到0.5秒的API延遲限制,需要搭建4×4 v5e并行。

實時應(yīng)用中,小模型反而更有優(yōu)勢,如Gemini Flash/Flash-lite。

圖片

Chinchilla的擴展方法雖然在模型訓(xùn)練的計算優(yōu)化上有效,但它忽略了推理成本。

在實際應(yīng)用中,需要綜合考慮訓(xùn)練和推理的成本,找到更合適的模型和數(shù)據(jù)配置。

推理優(yōu)化擴展定律

《超越Chinchilla最優(yōu):在語言模型擴展定律中考慮推理因素》這篇論文提出了新的推理優(yōu)化Scaling Laws。

核心思想是,不僅最小化訓(xùn)練loss,而是要綜合考慮訓(xùn)練和推理的總計算量,為模型優(yōu)化提供了新的方向。

圖片

按照這些公式,在相同計算量下,與Chinchilla最優(yōu)策略相比,應(yīng)該訓(xùn)練更小的模型,并使用更多的數(shù)據(jù),因為推理所需的計算量更少。

當(dāng)然,這也存在新的挑戰(zhàn)。

  • 計算資源的非同質(zhì)性:實際應(yīng)用中計算資源存在差異,用于推理優(yōu)化的芯片各不相同,給推理優(yōu)化帶來了困難。
  • 推理量D_inf難以預(yù)測:技術(shù)進步提高資源利用效率,反而會增加對該資源的需求(杰文斯悖論)。模型質(zhì)量提升可能會擴大市場,進而影響推理時的token數(shù)量D_inf。
  • 擬合效果不佳:不同數(shù)據(jù)集下,相關(guān)參數(shù)的擬合效果存在差異。不同token與參數(shù)比例的數(shù)據(jù)子集,擬合得到的 α、β等參數(shù)不同,和Chinchilla的擬合結(jié)果也有較大差異。

針對這些問題,研究人員采用在數(shù)據(jù)約束下建模的方法。研究引入新維度,即有意區(qū)分數(shù)據(jù),提出新的損失函數(shù)和數(shù)據(jù)規(guī)模公式,這樣訓(xùn)練出來的模型更小,對數(shù)據(jù)重復(fù)的魯棒性更強。

圖片

對于推理token數(shù)量的處理,像Llama3模型,有研究指出其8B和70B參數(shù)的模型,在訓(xùn)練到15T token后,性能仍呈對數(shù)線性提升,即D_inf可視為無窮大。

蒸餾的探索與應(yīng)用

除了模型大小、數(shù)據(jù)量和推理成本,知識蒸餾為推理優(yōu)化擴展帶來了新的思路。

知識蒸餾擴展定律公式:

圖片

通過調(diào)整這些參數(shù),可以優(yōu)化學(xué)生模型的性能。

不過,知識蒸餾在實際應(yīng)用中也有一些問題,比如趨勢影響不明顯、部分情況考慮不周全等,但可以通過權(quán)重調(diào)整等方法進行改進。

從原理上講,知識蒸餾能降低方差,更好的教師模型能減少偏差,為模型優(yōu)化提供了新途徑。

谷歌Gemini預(yù)訓(xùn)練技術(shù)對經(jīng)典擴展定律和推理優(yōu)化擴展定律都進行了深入研究。

經(jīng)典擴展定律通過探索模型規(guī)模、數(shù)據(jù)量和計算量之間的關(guān)系,不斷優(yōu)化模型訓(xùn)練的資源配置。

推理優(yōu)化擴展定律針對推理成本和效率問題,綜合考慮訓(xùn)練和推理需求,提出新方法,提升模型整體性能。

同時,知識蒸餾等技術(shù)的應(yīng)用也為模型的優(yōu)化提供了更多的途徑。

Vlad Feinberg

圖片

Vlad Feinberg畢業(yè)于普林斯頓大學(xué)計算機科學(xué)專業(yè),于加州大學(xué)伯克利分校RISE實驗室攻讀博士學(xué)位。

后來,F(xiàn)einberg加入了一家名為Sisu的初創(chuàng)公司,擔(dān)任機器學(xué)習(xí)主管。他曾任職于谷歌研究院的Cerebra項目,目前在谷歌DeepMind工作。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2014-05-21 16:04:38

面試面試規(guī)則

2021-10-13 18:59:42

AI

2024-01-31 13:42:05

模型訓(xùn)練

2012-03-11 15:35:53

Android

2012-05-22 22:00:07

谷歌

2012-09-26 13:44:52

Android谷歌阿里云

2011-08-23 17:02:37

FedoraLinux 20周年

2012-12-13 11:12:24

戴爾

2014-06-27 14:49:41

SDN

2017-03-13 15:30:22

慕尼黑WindowsLiMux

2023-09-11 11:14:54

IT團隊CIO

2011-08-23 18:07:42

QomoLinux 20周年

2009-09-15 10:45:52

Linux驅(qū)動Linux微軟

2016-01-15 10:47:08

技術(shù)團隊能力

2024-04-03 13:05:20

數(shù)據(jù)訓(xùn)練

2015-11-16 10:16:56

技術(shù)蛻變創(chuàng)業(yè)

2009-07-16 08:19:46

魔獸網(wǎng)易

2022-03-28 10:44:26

FuchsiaOSGoogle操作系統(tǒng)

2015-02-09 09:29:00

Docker開源云計算

2022-01-06 15:22:25

虛擬現(xiàn)實MetaAR
點贊
收藏

51CTO技術(shù)棧公眾號