自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="txvp5"></style>

<blockquote id="txvp5"></blockquote>

<var id="txvp5"><button id="txvp5"><center id="txvp5"></center></button></var>

<p id="txvp5"><li id="txvp5"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

52頁PPT，谷歌Gemini預(yù)訓(xùn)練負責(zé)人首次揭秘！擴展定律最優(yōu)解

作者：新智元 2025-04-29 09:16:00

人工智能新聞

大模型之戰(zhàn)烽火正酣，谷歌Gemini 2.5 Pro卻強勢逆襲！Gemini Flash預(yù)訓(xùn)練負責(zé)人親自揭秘，深挖Gemini預(yù)訓(xùn)練的關(guān)鍵技術(shù)，看谷歌如何在模型大小、算力、數(shù)據(jù)和推理成本間找到最優(yōu)解。

谷歌憑借Gemini 2.5 Pro在激烈的大模型競爭中一舉翻盤。

近日，Geimini Flash預(yù)訓(xùn)練負責(zé)人Vlad Feinberg在普林斯頓大學(xué)分享了相關(guān)內(nèi)容。

他深入分析了Gemini預(yù)訓(xùn)練的方法、挑戰(zhàn)以及方向，如何在模型大小、算力、數(shù)據(jù)和推理成本間取得平衡。

PPT鏈接：https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

經(jīng)典擴展定律

模型訓(xùn)練中，計算資源的合理利用至關(guān)重要。

假設(shè)有計算資源（C）1000塊H100芯片，運行30天，如何訓(xùn)練出最佳的LLM呢？

這就涉及到模型參數(shù)量（N）和訓(xùn)練token數(shù)量（D）。

對于Transformer，計算量C和N、D之間存在一個近似公式：C≈6×N×D。

MLP是模型的重要組成部分，不同操作的浮點運算量和參數(shù)量有所不同。

比如這個操作，訓(xùn)練時的浮點運算量是6BTDF，參數(shù)量為DF。

把MLP的多個操作加起來，總訓(xùn)練浮點運算量約為18BTDF，參數(shù)數(shù)量達到3DF。

注意力機制的計算更為復(fù)雜。將注意力機制相關(guān)操作的計算量相加，約為12BTSNH=12BT2NH，參數(shù)量為4DNH。

將MLP和注意力機制的計算量合并，就能了解整個模型訓(xùn)練時的計算量情況。

Kaplan定律

2020年，Kaplan等人的研究揭示了模型性能與數(shù)據(jù)量、模型規(guī)模和計算量之間的關(guān)系。

自回歸Transformer模型中，小模型可以用來預(yù)測大模型的性能。

模型性能與算力、參數(shù)量、數(shù)據(jù)量之間存在冪律關(guān)系。當(dāng)計算預(yù)算增加10倍時，模型參數(shù)量應(yīng)增加5.37倍，數(shù)據(jù)量增加1.86倍。

這一結(jié)論在當(dāng)時引起了廣泛關(guān)注，點燃了企業(yè)的「軍備競賽」。

Chinchilla（龍貓）

然而，2022年，DeepMind對Kaplan的觀點提出了質(zhì)疑。

Kaplan的研究在每個模型規(guī)模下僅運行一次訓(xùn)練，并用中間損失來估計不同token訓(xùn)練步數(shù)下的損失。

Chinchilla論文指出，基于單次訓(xùn)練的中間loss點來推斷存在缺陷，通過適當(dāng)?shù)膶W(xué)習(xí)率衰減可以獲得更好的損失值，只有最終的損失值才是最優(yōu)的。

論文采用IsoFlops方法，固定浮點運算量預(yù)算，同時改變模型規(guī)模和訓(xùn)練token數(shù)量。

固定總算力C
訓(xùn)練多個不同參數(shù)N的模型，對應(yīng)不同數(shù)據(jù)量D（C≈6×N×D）
找到loss最低的模型N_opt（C）和D_opt（C）
重復(fù)以上步驟，得到不同算力下的最優(yōu)（N,D）點，并擬合

研究發(fā)現(xiàn)，模型參數(shù)N和數(shù)據(jù)量D應(yīng)以大致相同的速率（冪律指數(shù)約為0.5）隨算力C增長，這與Kaplan等的結(jié)論大相徑庭。

這意味著，按Kaplan定律訓(xùn)練的模型，可能存在訓(xùn)練不足的情況，數(shù)據(jù)太少，會增加模型后續(xù)部署和使用的成本。

為了進一步優(yōu)化模型訓(xùn)練，研究人員嘗試了多種方法。通過不同的計算場景和擬合方式，得到了更精確的系數(shù)。

混合專家（MoE）模型的擴展定律展現(xiàn)出了獨特的優(yōu)勢。與傳統(tǒng)模型相比，在相同的活躍參數(shù)數(shù)量和固定100B token的情況下，MoE 64E模型的性能更優(yōu)。

然而，MoE模型對token數(shù)據(jù)的需求量較大，互聯(lián)網(wǎng)上的可用數(shù)據(jù)逐漸難以滿足其需求，這成為了發(fā)展瓶頸。

為了解決數(shù)據(jù)不足的問題，研究人員將目光投向了更多的數(shù)據(jù)來源。多模態(tài)數(shù)據(jù)，如音頻、視覺、3D 模型、視頻等，為模型訓(xùn)練提供了豐富的信息。

合成數(shù)據(jù)也受到了關(guān)注。實際應(yīng)用中，需要在生成質(zhì)量與篩選成本之間找到平衡。

實時場景的模型選擇

在谷歌的許多應(yīng)用場景中，如免費的Gemini聊天機器人、AIO、AIM、Vertex AI（用于模型微調(diào)、部署）以及AI Studio（提供生成式API）等，推理效率至關(guān)重要。

這些應(yīng)用需要快速給出準(zhǔn)確的響應(yīng)，對模型的推理速度和效率要求極高。

就拿實時應(yīng)用來說，Astra和Mariner都需要快速響應(yīng)。

以一個網(wǎng)絡(luò)交互智能體為例，假設(shè)上下文128k，但每次增量只有8k token，解碼需要128 token來生成一個動作，并且動作之間的延遲不超過1秒，其中250毫秒還得用于框架搭建、負載均衡等操作。

用Llama3-70B模型和v5e芯片做實驗，發(fā)現(xiàn)單芯片處理8k token需5.7秒。為了達到0.5秒的API延遲限制，需要搭建4×4 v5e并行。

實時應(yīng)用中，小模型反而更有優(yōu)勢，如Gemini Flash/Flash-lite。

Chinchilla的擴展方法雖然在模型訓(xùn)練的計算優(yōu)化上有效，但它忽略了推理成本。

在實際應(yīng)用中，需要綜合考慮訓(xùn)練和推理的成本，找到更合適的模型和數(shù)據(jù)配置。

推理優(yōu)化擴展定律

《超越Chinchilla最優(yōu)：在語言模型擴展定律中考慮推理因素》這篇論文提出了新的推理優(yōu)化Scaling Laws。

核心思想是，不僅最小化訓(xùn)練loss，而是要綜合考慮訓(xùn)練和推理的總計算量，為模型優(yōu)化提供了新的方向。

按照這些公式，在相同計算量下，與Chinchilla最優(yōu)策略相比，應(yīng)該訓(xùn)練更小的模型，并使用更多的數(shù)據(jù)，因為推理所需的計算量更少。

當(dāng)然，這也存在新的挑戰(zhàn)。

計算資源的非同質(zhì)性：實際應(yīng)用中計算資源存在差異，用于推理優(yōu)化的芯片各不相同，給推理優(yōu)化帶來了困難。
推理量D_inf難以預(yù)測：技術(shù)進步提高資源利用效率，反而會增加對該資源的需求（杰文斯悖論）。模型質(zhì)量提升可能會擴大市場，進而影響推理時的token數(shù)量D_inf。
擬合效果不佳：不同數(shù)據(jù)集下，相關(guān)參數(shù)的擬合效果存在差異。不同token與參數(shù)比例的數(shù)據(jù)子集，擬合得到的 α、β等參數(shù)不同，和Chinchilla的擬合結(jié)果也有較大差異。

針對這些問題，研究人員采用在數(shù)據(jù)約束下建模的方法。研究引入新維度，即有意區(qū)分數(shù)據(jù)，提出新的損失函數(shù)和數(shù)據(jù)規(guī)模公式，這樣訓(xùn)練出來的模型更小，對數(shù)據(jù)重復(fù)的魯棒性更強。

對于推理token數(shù)量的處理，像Llama3模型，有研究指出其8B和70B參數(shù)的模型，在訓(xùn)練到15T token后，性能仍呈對數(shù)線性提升，即D_inf可視為無窮大。

蒸餾的探索與應(yīng)用

除了模型大小、數(shù)據(jù)量和推理成本，知識蒸餾為推理優(yōu)化擴展帶來了新的思路。

知識蒸餾擴展定律公式：

通過調(diào)整這些參數(shù)，可以優(yōu)化學(xué)生模型的性能。

不過，知識蒸餾在實際應(yīng)用中也有一些問題，比如趨勢影響不明顯、部分情況考慮不周全等，但可以通過權(quán)重調(diào)整等方法進行改進。

從原理上講，知識蒸餾能降低方差，更好的教師模型能減少偏差，為模型優(yōu)化提供了新途徑。

谷歌Gemini預(yù)訓(xùn)練技術(shù)對經(jīng)典擴展定律和推理優(yōu)化擴展定律都進行了深入研究。

經(jīng)典擴展定律通過探索模型規(guī)模、數(shù)據(jù)量和計算量之間的關(guān)系，不斷優(yōu)化模型訓(xùn)練的資源配置。

推理優(yōu)化擴展定律針對推理成本和效率問題，綜合考慮訓(xùn)練和推理需求，提出新方法，提升模型整體性能。

同時，知識蒸餾等技術(shù)的應(yīng)用也為模型的優(yōu)化提供了更多的途徑。

Vlad Feinberg

Vlad Feinberg畢業(yè)于普林斯頓大學(xué)計算機科學(xué)專業(yè)，于加州大學(xué)伯克利分校RISE實驗室攻讀博士學(xué)位。

后來，F(xiàn)einberg加入了一家名為Sisu的初創(chuàng)公司，擔(dān)任機器學(xué)習(xí)主管。他曾任職于谷歌研究院的Cerebra項目，目前在谷歌DeepMind工作。

責(zé)任編輯：張燕妮來源：新智元

大模型 AI 技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="cmkik"><track id="cmkik"></track></cite>

<sub id="cmkik"></sub>

<blockquote id="cmkik"><rt id="cmkik"></rt></blockquote>