自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="0rjme"><strong id="0rjme"></strong></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

OpenAI史上最硬核技術(shù)播客！系統(tǒng)揭秘GPT4.5誕生，已進(jìn)入數(shù)據(jù)受限時(shí)代！小哥親述大模型修bug血淚史！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-4-11 13:36

瀏覽

0收藏

整理 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

剛剛，奧特曼親自預(yù)熱的那期播客，完整版視頻終于上線啦！??！

這一次，OpenAI 也開始“學(xué)對手”了 —— 正式推出類似 Anthropic 風(fēng)格的硬核技術(shù)播客內(nèi)容。

本期嘉賓陣容豪華，全部來自 OpenAI 核心團(tuán)隊(duì)，首次系統(tǒng)揭秘 GPT-4.5 是怎么誕生的，深入探討它在模型訓(xùn)練、系統(tǒng)架構(gòu)和數(shù)據(jù)效率上的關(guān)鍵突破。

OpenAI史上最硬核技術(shù)播客！系統(tǒng)揭秘GPT4.5誕生，已進(jìn)入數(shù)據(jù)受限時(shí)代！小哥親述大模型修bug血淚史！-AI.x社區(qū) 圖片

不同于OpenAI以往的“營銷味”，這個(gè)播客確實(shí)分享了前沿的訓(xùn)練干貨，讓我有一種想法：在DeepSeek的感化之下，他們也想摘掉CloseAI的帽子了！

據(jù)說，OpenAI的開源大招也提上日程了。今天外網(wǎng)AI博主Tibor轉(zhuǎn)發(fā)了一個(gè)消息，OpenAI在為一個(gè)重磅的開源模型做聽證會(huì)邀請。

OpenAI史上最硬核技術(shù)播客！系統(tǒng)揭秘GPT4.5誕生，已進(jìn)入數(shù)據(jù)受限時(shí)代！小哥親述大模型修bug血淚史！-AI.x社區(qū) 圖片

說回這期博客，我們先來看看參與成員。

OpenAI史上最硬核技術(shù)播客！系統(tǒng)揭秘GPT4.5誕生，已進(jìn)入數(shù)據(jù)受限時(shí)代！小哥親述大模型修bug血淚史！-AI.x社區(qū) 圖片

從左到右分別是：

Sam Altman — OpenAI CEO。
Alex Paino — OpenAI 的研究員，負(fù)責(zé)了GPT-4.5 的預(yù)訓(xùn)練數(shù)據(jù)和機(jī)器學(xué)習(xí)訓(xùn)練工作。
Amin Tootoonchian (@atootoon) — OpenAI 的首席系統(tǒng)架構(gòu)師，負(fù)責(zé)系統(tǒng)層面和網(wǎng)絡(luò)相關(guān)的整體架構(gòu)。
Dan Selsam — OpenAI 的研究員，參與了 OpenAI 的數(shù)學(xué)推理模型開發(fā)，主要研究數(shù)據(jù)效率和算法。

我們先給這波扎實(shí)的技術(shù)干貨畫個(gè)重點(diǎn)：

1.GPT 4.5兩年前就啟動(dòng)了，一開始的目標(biāo)就是做到比 GPT-4 聰明10倍。由于訓(xùn)練中涌現(xiàn)的意外問題，整個(gè)訓(xùn)練過程比預(yù)想的更為耗時(shí)。

2.大模型訓(xùn)練的難點(diǎn)，當(dāng)從1 萬塊 GPU擴(kuò)展到10萬塊GPU規(guī)模時(shí)，會(huì)出現(xiàn)各種“系統(tǒng)波動(dòng)”，“低概率事件”會(huì)升級成“災(zāi)難級問題”。

3.GPT-4只用了5-10人規(guī)模就完成了訓(xùn)練，但GPT 4.5復(fù)雜得多。GPT-4o實(shí)際是在GPT-4.5 的研究過程中誕生的。

4.在 GPT-4 之前，我們基本還處于一個(gè)算力受限的時(shí)代；但從 GPT-4.5 開始，有些領(lǐng)域已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)受限。

5.現(xiàn)在最好的AI算法，距離人類的數(shù)據(jù)效率仍然有云泥之別。不過，隨著數(shù)據(jù)開始成為關(guān)鍵資源，這方面的進(jìn)步會(huì)不斷追上。

6.研究員說GPT 模型訓(xùn)練有些“難以預(yù)料”，隨著測試損失降低，模型更聰明了，但是“聰明在哪里”卻很難提前知曉。

7.目前并沒有發(fā)現(xiàn)更大的預(yù)訓(xùn)練模型和更強(qiáng)的推理能力間有明確關(guān)系，表現(xiàn)得更“跳躍”，只是某些維度提升得更快。

8.預(yù)訓(xùn)練模型其實(shí)是一個(gè)“壓縮器”，即便模型權(quán)重很大，但“可執(zhí)行文件”并不需要存儲所有權(quán)重，這意味著數(shù)據(jù)本身可以用非常少的位數(shù)進(jìn)行編碼。

9.GPT 4.5證明Scaling laws依然有效，從哲學(xué)角度說它是“宇宙的屬性”，訓(xùn)練更大的模型、它就更能“壓縮”，也會(huì)獲得更好的智力水平。

下面就來看看這次博客的完整內(nèi)容吧，enjoy：

訓(xùn)練一個(gè)比GPT-4聰明10倍的模型，為啥這么難？

奧特曼：好吧，我們之前錄這種視頻，一般是為了介紹一個(gè)即將上線的新產(chǎn)品。但這次我們想做點(diǎn)不一樣的事——聊一聊這個(gè)產(chǎn)品背后的研究工作。

我們發(fā)布 GPT-4.5 的時(shí)候，覺得這個(gè)模型大家應(yīng)該會(huì)喜歡，我們自己也很自豪。但沒想到大家比我們想象中更喜歡這個(gè)模型。

很多人會(huì)說：“我從沒想過能跟一個(gè)模型有這種交流體驗(yàn)。” 它和 GPT-4 完全不同，不管是那些顯而易見的提升，還是那些難以描述的微妙差異。

很多人都很好奇 GPT-4.5 是怎么造出來的。

所以今天我們請來了幾個(gè) GPT-4.5 核心團(tuán)隊(duì)的成員，一起來聊聊這個(gè)模型，也聊聊我們從中學(xué)到的東西，以及打造這樣一個(gè)大模型需要什么。

我們不如就從這個(gè)問題開始吧：做出這樣一個(gè)大模型，到底需要什么？

Alex Paino：很多人、很多時(shí)間，還有大量算力。

奧特曼：好，那到底需要什么才能做出這樣一個(gè)模型（GPT 4.5）呢？

Alex Paino：我們這個(gè)項(xiàng)目大概是兩年前啟動(dòng)的。當(dāng)時(shí)我們知道會(huì)有一個(gè)更大的計(jì)算集群上線，遠(yuǎn)處就能看見這件事要發(fā)生了。

我們開始做很多工作，比如確定我們希望在訓(xùn)練中引入哪些功能，做了很多高風(fēng)險(xiǎn)的大型測試，制定了非常長遠(yuǎn)的訓(xùn)練計(jì)劃，涵蓋了從系統(tǒng)到模型的整個(gè)技術(shù)棧。

所以，從正式訓(xùn)練開始前，我們就經(jīng)歷了一整段冗長的準(zhǔn)備過程，而訓(xùn)練本身則是更大規(guī)模的工程。

Amin Tootoonchian：我覺得這其實(shí)是一個(gè)從最初就由系統(tǒng)團(tuán)隊(duì)和模型團(tuán)隊(duì)共同推動(dòng)的過程。直到我們真正確定好要訓(xùn)練的模型后，才啟動(dòng)正式訓(xùn)練。

而我們工作的節(jié)奏非?？?，尤其是在利用最新上線的計(jì)算資源方面，這就導(dǎo)致我們幾乎不可能做到百分百計(jì)劃周全。

所以我們幾乎總是帶著一堆未解決的問題啟動(dòng)訓(xùn)練，不斷推進(jìn)中解決各種挑戰(zhàn)。我們要不斷追加算力、處理一些一開始沒預(yù)料到的問題—— 即使我們在系統(tǒng)側(cè)和模型側(cè)都做了大量預(yù)測。

我們不斷縮小“預(yù)測應(yīng)該發(fā)生的事情”與“實(shí)際發(fā)生的事情”之間的差距。說到底，這是一個(gè)非常龐大的過程，最后階段的執(zhí)行尤其艱難，需要很多人、很多能量和長期的協(xié)作才能完成整個(gè)訓(xùn)練。

奧特曼：那你覺得我們對最終結(jié)果的預(yù)測和現(xiàn)實(shí)差距有多大？

Amin Tootoonchian：從系統(tǒng)角度來看，最開始我們通常距離預(yù)期還挺遠(yuǎn)的。

你總得面臨選擇——是推遲上線，直到更多問題解決，還是邊訓(xùn)練邊解決問題。

這始終是一種權(quán)衡，要盡量別不合理地拖延進(jìn)程。但幾乎總是有些問題在一開始是預(yù)料不到的。

整個(gè)過程的重點(diǎn)就是：盡可能解決我們已知的問題，并規(guī)劃好訓(xùn)練流程，然后在推進(jìn)中不斷應(yīng)對那些未知情況，比如訓(xùn)練是否順利、會(huì)持續(xù)多久等變量。

Alex Paino：從最高層目標(biāo)來看，GPT-4.5 項(xiàng)目一開始的目標(biāo)就是做到比 GPT-4 聰明10倍。

這個(gè)設(shè)想是兩年前我們就定下來的。當(dāng)然在推進(jìn)過程中，我們不斷思考“能不能再好一點(diǎn)？”“會(huì)不會(huì)做不到？” 這是一條極其復(fù)雜的道路。但最終我們做出了一個(gè)模型，確實(shí)在有效計(jì)算量投入方面達(dá)到了“比 GPT-4 強(qiáng)10倍”這個(gè)目標(biāo)。

Amin Tootoonchian：從執(zhí)行層面看，這個(gè)過程當(dāng)然遠(yuǎn)比我們最初預(yù)想的要耗時(shí)。

奧特曼：確實(shí)如此。

Amin Tootoonchian：我們的任務(wù)就是努力壓縮訓(xùn)練周期，使之盡可能接近預(yù)期。

奧特曼：我有個(gè)二合一的問題：為什么從用 1 萬塊 GPU 訓(xùn)練，擴(kuò)展到 10 萬塊 GPU，就會(huì)讓問題變得難上十倍？

Amin Tootoonchian：問題太多了。其實(shí)，如果你觀察得夠仔細(xì)，那些在大規(guī)模才顯著的問題，在小規(guī)模時(shí)就已經(jīng)有蛛絲馬跡。

只是到了大規(guī)模之后，一些“低概率事件”會(huì)變成“災(zāi)難級問題”，尤其是如果你一開始沒預(yù)料到的話。

奧特曼：舉幾個(gè)例子？

Amin Tootoonchian：最常見的問題包括：基礎(chǔ)設(shè)施不穩(wěn)定、故障率增高、故障類型復(fù)雜多樣，我們能觀察到的故障情況，連硬件供應(yīng)商自己都沒見過，因?yàn)槲覀冋{(diào)動(dòng)的是一個(gè)巨大的樣本池。

我們看到了資源執(zhí)行中的全部統(tǒng)計(jì)分布——包括網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)間連接、甚至單個(gè)加速卡的表現(xiàn)。但這也是其中的美感：要想模型最終表現(xiàn)理想，幾乎所有系統(tǒng)部件都必須按預(yù)期運(yùn)行。我們的工作就是盡可能減少這種“系統(tǒng)波動(dòng)”。

奧特曼：這個(gè)問題的下半部分：我們知道在“最前沿規(guī)?！鄙嫌?xùn)練模型很難，但我也注意到，當(dāng)一個(gè)任務(wù)不再位于最前沿時(shí)，它就會(huì)變得容易得多。

比如 GPT-4 的訓(xùn)練曾經(jīng)幾乎動(dòng)用了整個(gè) OpenAI 的資源。如果現(xiàn)在讓你們組一個(gè)最小團(tuán)隊(duì)，從頭重訓(xùn) GPT-4，你們覺得需要多少人？

Alex Paino：我覺得現(xiàn)在要重訓(xùn)一個(gè) GPT-4 級別的模型，大概只需要 5~10 人就夠了。

Amin Tootoonchian：是的，我們確實(shí)是用這個(gè)規(guī)模訓(xùn)練了 GPT-4。

不過 GPT-4.5 是另一種情況——它背后有更復(fù)雜的歷史，也有更多人參與，是完全不同的一次挑戰(zhàn)。

Alex Paino：不過，既然我們已經(jīng)完成了 GPT-4.5，整個(gè)技術(shù)棧其實(shí)已經(jīng)提升了很多。我們也確實(shí)在 GPT-4.5 的研究過程中重新訓(xùn)練了一個(gè) GPT-4 級別的模型，也就是 GPT-4o。

它用了 GPT-4.5 的很多技術(shù)積累，但這次的訓(xùn)練團(tuán)隊(duì)規(guī)模小得多。

奧特曼：那 Dan，你怎么看？為什么大模型訓(xùn)練這么難？

Dan Selsam：我覺得做任何“新的事”本來就難。哪怕后來別人也做成了，這事也會(huì)立刻變簡單許多。

最難的是：你在最開始，必須有堅(jiān)定信念去做一件沒人驗(yàn)證過的事。一旦你知道“它是可能的”，那簡直像開了金手指。

Alex Paino：確實(shí)。我們其實(shí)是在把 GPT 的預(yù)訓(xùn)練規(guī)模往上擴(kuò)了整整 10 倍。

在這個(gè)過程中遇到的問題有很多是你事先根本想不到的。

繼續(xù)Scaling沒有“硬性上限”，重點(diǎn)是提升“數(shù)據(jù)效率”

奧特曼：那我們要繼續(xù)擴(kuò)展 10 倍、甚至 100 倍的訓(xùn)練規(guī)模，還需要什么？

Dan Selsam：數(shù)據(jù)效率。

奧特曼：什么意思？

Dan Selsam：Transformer 和 GPT 的一大優(yōu)勢是能非常高效地吸收數(shù)據(jù)：它能提取信息、能壓縮和泛化這幾乎是它的核心特征。但也有個(gè)“天花板”——它所能從一段數(shù)據(jù)中提取出的“深層洞見”是有限的。

所以當(dāng)你的算力一直增長，而可用數(shù)據(jù)量增長很慢時(shí)，就會(huì)出現(xiàn)“數(shù)據(jù)成為瓶頸”的問題。這時(shí)就需要在算法層面有突破：用更多算力，從同樣數(shù)據(jù)中“學(xué)得更多”。

奧特曼：除了數(shù)據(jù)效率，你覺得還需要什么，才能繼續(xù)擴(kuò)展？

Amin Tootoonchian：從系統(tǒng)角度看，每一代 GPT 的訓(xùn)練其實(shí)都代表著我們在基礎(chǔ)設(shè)施上的大規(guī)模升級。

GPT-4.5 之所以需要?jiǎng)舆@么多人、改這么多東西，正是因?yàn)樗旧淼哪Ｐ鸵?guī)格發(fā)生了質(zhì)變。

我們根本不可能用 GPT-4 的系統(tǒng)架構(gòu)直接來訓(xùn)練 GPT-4.5。

Amin Tootoonchian：比如說狀態(tài)管理，我們對這部分的處理方式也發(fā)生了改變。因?yàn)橐獢U(kuò)展更多算力，而這些算力并不都集中在一個(gè)集群里，所以我們不得不采用多集群訓(xùn)練。你可以想象，這是許許多多不同的工作流，需要在極短的時(shí)間內(nèi)拼接在一起，才能完成這件事。

當(dāng)我們計(jì)劃再做一次 10 倍的突破時(shí)，有些我們之前明知存在的問題，這次為了加快推進(jìn)節(jié)奏選擇跳過了——但下次就必須解決，沒有回避的余地。

這些技術(shù)選擇正是讓“打造完美系統(tǒng)”的時(shí)間線變得更長的原因。我們一直都在妥協(xié)：在“追求完美”與“盡快搞出來”之間尋找平衡。

Amin Tootoonchian：系統(tǒng)本身并不是一個(gè)最終產(chǎn)品，它是為了支撐真正的產(chǎn)品存在。

所以如果我們要做下一個(gè) 10 倍突破，對我來說最重要的是“容錯(cuò)能力”——但不是傳統(tǒng)意義上的容錯(cuò)，而是與工作負(fù)載協(xié)同設(shè)計(jì)出的容錯(cuò)系統(tǒng)，這樣我們就不用再承受龐大訓(xùn)練任務(wù)所帶來的巨大運(yùn)維壓力。

我們以前的系統(tǒng)，在訓(xùn)練 GPT-4.5 的時(shí)候，已經(jīng)到了快跟不上節(jié)奏的極限。

奧特曼：你知道 GPT-4.5 的訓(xùn)練過程中，有多少百分比的訓(xùn)練步驟因?yàn)槟承┙M件故障而失敗了嗎？

Amin Tootoonchian：我現(xiàn)在腦子里沒有準(zhǔn)確數(shù)字。但通常來說，問題是這樣的：新一代硬件剛上線時(shí)，它的一些故障并不是大家一開始就完全理解或研究透的。

我們一邊推進(jìn)訓(xùn)練，一邊解決這些問題。

Amin Tootoonchian：當(dāng)然，訓(xùn)練早期的故障率會(huì)非常顯著。

但也很有可能是：當(dāng)我們找到了問題的根源并修復(fù)之后，故障數(shù)量會(huì)大幅下降。

這幾乎是訓(xùn)練的常態(tài)。我們總是邊干邊學(xué)。

Amin Tootoonchian：你可以把它看作是在做系統(tǒng)“清潔工作”或“基礎(chǔ)問題診斷”。

一旦這些問題搞清楚了，系統(tǒng)穩(wěn)定性就會(huì)大幅提升。但在早期訓(xùn)練階段幾乎總是最痛苦的——我們在探索新故障模式、新硬件帶來的影響，同時(shí)還得繼續(xù)推進(jìn)進(jìn)度。當(dāng)然，到了后期，故障率會(huì)顯著降低，整體運(yùn)行時(shí)間穩(wěn)定性也會(huì)上升。

但問題就在于：你無法提前預(yù)測新一代基礎(chǔ)設(shè)施在“初期階段”的具體表現(xiàn)。如果你只為“穩(wěn)定階段”做設(shè)計(jì)，那在早期訓(xùn)練里可能就會(huì)遇到非常糟糕的可用性問題。

奧特曼：我們都知道推理類模型是未來發(fā)展的關(guān)鍵部分。

但如果暫時(shí)不談推理，只討論“經(jīng)典預(yù)訓(xùn)練模型”這條路線：假設(shè)我們擁有無限的 GPU、無限網(wǎng)絡(luò)資源、無限電力，但依然受限于我們當(dāng)前的系統(tǒng)問題，比如容錯(cuò)機(jī)制還沒搞定、數(shù)據(jù)也就這么多等等。

如果每一代 GPT 的數(shù)字代表一個(gè)“百倍飛躍”，那你覺得現(xiàn)在我們用現(xiàn)有資源，最多能訓(xùn)練到 GPT 多少級別？比如 GPT-5.5？

Alex Paino：從機(jī)器學(xué)習(xí)和算法角度講，我覺得我們還沒遇到什么“硬性上限”。

我們現(xiàn)在才剛剛開始真正挖掘“數(shù)據(jù)效率算法”的潛力，也剛剛找到更有效利用現(xiàn)有數(shù)據(jù)的方法。

有趣的是，在 GPT-4 之前，我們基本還處于一個(gè)算力受限的時(shí)代，研究重點(diǎn)全壓在怎么搞到更多算力。

但從 GPT-4.5 開始，有些領(lǐng)域我們已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)受限，這在某些數(shù)據(jù)維度上是個(gè)重大轉(zhuǎn)折點(diǎn)，也讓這一方向的研究變得更加令人興奮。

奧特曼：這是一個(gè)顛覆性的變化——我覺得整個(gè)世界現(xiàn)在還沒真正意識到：我們已經(jīng)不是在“算力極限”上打造最強(qiáng)模型了。這跟我們過去一直以來賴以生存的技術(shù)現(xiàn)實(shí)，完全不同了。

修bug修到崩潰，一個(gè)最不起眼的bug貫穿模型訓(xùn)練的40%

奧特曼：那你們在訓(xùn)練 GPT-4.5 過程中，有什么最有意思的 ML 方面的發(fā)現(xiàn)可以分享的嗎？

Amin Tootoonchian：我不太確定我能分享多少細(xì)節(jié)，但我可以說：我們最有價(jià)值的經(jīng)驗(yàn)之一就是：當(dāng)模型沒有沿著我們預(yù)測的“性能斜率”前進(jìn)時(shí)，我們必須搞清楚為什么。

Alex Paino：對，我覺得最讓我意外的一點(diǎn)是：我們在模型端做的很多工作，在訓(xùn)練過程中體現(xiàn)出有的能很好擴(kuò)展，有的卻不能。

這些我們很多都是在實(shí)戰(zhàn)中才發(fā)現(xiàn)的，這個(gè)過程確實(shí)讓我們學(xué)到了很多。

Dan Selsam：我覺得 GPT 模型訓(xùn)練最具代表性的兩個(gè)特征就是：你可以預(yù)測測試損失（test loss）；而且它的擴(kuò)展性非?！吧衿妗薄獪y試損失降低，智能就會(huì)上升，體現(xiàn)在一系列不可思議、難以預(yù)料的方面。

奧特曼：你是這方面的“極致信徒”嗎？你完全相信這個(gè)關(guān)系成立？

Dan Selsam：可以這么說吧。我們在 GPT-4.5 上做過重新測試，發(fā)現(xiàn)模型擁有很多極其細(xì)膩的能力，這些都不在任何人的預(yù)測清單里。

我們唯一的信念就是：這個(gè)模型會(huì)更聰明，但“聰明在哪里”其實(shí)很難提前定義。可一旦你上線使用，就會(huì)發(fā)現(xiàn)它在很多細(xì)微的地方都變聰明了—— 它的常識更強(qiáng)、理解更細(xì)膩、語境處理能力也更好了。

這就是“多出那一點(diǎn)點(diǎn) test loss 帶來的神奇魔法”。我覺得這種“隨著 test loss 降低，能力變強(qiáng)”的擴(kuò)展規(guī)律依然是成立的。

奧特曼：那訓(xùn)練過程中有沒有什么最積極、最讓你感動(dòng)的瞬間？雖然過程充滿痛苦，但總得有個(gè)美好記憶吧？

Alex Paino：我有一個(gè)瞬間印象挺深的。

我們在訓(xùn)練期間還持續(xù)在調(diào)模型的 ML 層設(shè)計(jì)，而且訓(xùn)練中期的一些改動(dòng)居然效果比預(yù)期好很多。那一刻我們非常激動(dòng)。

Amin Tootoonchian：對我來說，這應(yīng)該是我投入“IC 時(shí)間”（獨(dú)立貢獻(xiàn)者的時(shí)間）最多的一次訓(xùn)練過程。

我們一邊訓(xùn)練，一邊還在并行搭建系統(tǒng)，為了提速而極度并行地推進(jìn)各項(xiàng)工作。我們都相信這些努力會(huì)有結(jié)果——只要撐過某個(gè)性能瓶頸，模型就能恢復(fù)可訓(xùn)練性，否則訓(xùn)練時(shí)間會(huì)無限拉長。我們有明確的計(jì)劃，每個(gè)人都在執(zhí)行。但過程真的比我預(yù)想的難得多，時(shí)間也拖得更久。

最讓我感動(dòng)的是：當(dāng)幾個(gè)關(guān)鍵問題被解決后，性能突然躍升了一大截。那一刻你能感覺到整個(gè)團(tuán)隊(duì)的氛圍都變了。

奧特曼：你還記得那個(gè)瞬間嗎？

Amin Tootoonchian：當(dāng)然，大家的精氣神都不一樣了，情緒被點(diǎn)燃了，動(dòng)力更足了。那種感覺很神奇。

Alex Paino：我們的任務(wù)狀態(tài)追蹤器也從之前的“卡殼”，變成了“進(jìn)度條瘋漲”。

Amin Tootoonchian：是的，這種狀態(tài)變化對士氣的推動(dòng)太重要了。還有一點(diǎn)我特別想提的是：ML 端的協(xié)同并沒有在模型上線那天就結(jié)束。

很多本來打算“上線后再修”的問題，大家在上線后也持續(xù)在優(yōu)化。每個(gè)人都主動(dòng)出手，不再是“我做完交接就不管了”。團(tuán)隊(duì)協(xié)作的這種精神，非常強(qiáng)大。

Dan Selsam：我們剛才一直在強(qiáng)調(diào)這個(gè)訓(xùn)練過程多難、預(yù)測多不準(zhǔn)——但其實(shí)背后是巨量的高質(zhì)量規(guī)劃。

Amin Tootoonchian：沒錯(cuò)。

Dan Selsam：你們要不要展開講講？

Alex Paino：這確實(shí)是我們有史以來計(jì)劃最充分的一次訓(xùn)練。我們在正式訓(xùn)練前就已經(jīng)籌備了差不多一年時(shí)間，做了多輪超大規(guī)模的風(fēng)險(xiǎn)測試（de-risking runs）。

我們非常小心地安排每一個(gè)變更，始終從“高置信度、已驗(yàn)證配置”出發(fā)——

比如 GPT-4 這種我們非常熟悉的配置，在這個(gè)基礎(chǔ)上一點(diǎn)點(diǎn)迭代、加入新功能，

而且每次都要認(rèn)真評估每項(xiàng)變更的可擴(kuò)展性。

不是說看到一個(gè)功能在小規(guī)模下有效果就夠了——我們要確保這個(gè)效果在大規(guī)模下也同樣成立、不會(huì)衰減。很多東西在小模型上看起來不錯(cuò)，但放大之后就失效了。

所以我們整個(gè)流程都極度謹(jǐn)慎，同時(shí)也在不斷完善“擴(kuò)展法則（scaling laws）”的方法論。

這也是我們未來訓(xùn)練更多 GPT 模型的核心參考。

Amin Tootoonchian：你剛才說的那個(gè)有趣瞬間，讓我想起了另一個(gè)特別有意思的片段。

這個(gè)故事有點(diǎn)“Torch Do Sum”（指bug既基礎(chǔ)又莫名其妙）的味道（笑）。你可以想象，我們上線一個(gè)這么復(fù)雜的系統(tǒng)，它肯定會(huì)有 bug——各種各樣的 bug，這是“默認(rèn)值”。

但同時(shí)我們也要繼續(xù)推進(jìn)，要保證整個(gè)訓(xùn)練流程是在正確的軌道上運(yùn)行。雖然我們非常清楚有些 bug 的確很嚴(yán)重，但我們也構(gòu)建了很多系統(tǒng)，來幫助我們區(qū)分問題來源：

是硬件故障嗎？
是哪類硬件的問題？
是數(shù)據(jù)損壞？
還是某種潛在的機(jī)器學(xué)習(xí) bug？比如我們代碼里的某種錯(cuò)誤？

當(dāng)時(shí)，我們手上同時(shí)有好幾個(gè)開放的“未解線程”，都有不同的癥狀，都是模型正確性相關(guān)的問題。我們當(dāng)然也找到了一些 bug 并修復(fù)了它們。

我們一度陷入了一個(gè)狀態(tài)：這些看似不同的問題，到底是多個(gè) bug 造成的，還是其實(shí)只源自一個(gè) bug？所以我們坐在會(huì)議室里，每個(gè)人投票：你覺得是哪一個(gè)因素導(dǎo)致了這些問題？

結(jié)果——真正的那個(gè) bug 是得票最少的選項(xiàng)！

那個(gè) bug 是在 torch.sum 函數(shù)中的一個(gè)非常簡單的加法實(shí)現(xiàn)錯(cuò)誤，位于上游代碼中。特別搞笑的是：我們其實(shí)主要是在用 Triton 和 XLA，但在某些邊緣情況、某些無關(guān)緊要的算子上，我們就會(huì)回退到 PyTorch 默認(rèn)實(shí)現(xiàn)。

而其中一段數(shù)據(jù)剛好觸發(fā)了 PyTorch 的這個(gè)錯(cuò)誤路徑，造成了一個(gè)非常低頻的 bug，具體表現(xiàn)是非法內(nèi)存訪問，內(nèi)存偏移計(jì)算錯(cuò)了。

最精彩的是：當(dāng)我們工程師找到這個(gè) bug 時(shí)，他說：“我定位到了，是這一行代碼。我們打個(gè)補(bǔ)丁看看是不是能解決所有問題。”

結(jié)果——所有奇怪的 bug 全都解決了。

這些癥狀之前看起來完全不一樣，結(jié)果源頭是一個(gè)代碼路徑。我們當(dāng)時(shí)還把 Slack 里幾個(gè)“多假設(shè)討論頻道”都重命名成了“單 bug 理論頻道”，那一刻真的特別有趣！

奧特曼：這個(gè)事是訓(xùn)練流程中什么時(shí)候發(fā)生的？我記不太清了。

Amin Tootoonchian：其實(shí)這個(gè) bug 從訓(xùn)練早期就一直存在，大概覆蓋了整個(gè)訓(xùn)練的 40%。

奧特曼：你們還記得是誰發(fā)現(xiàn)的嗎？

Amin Tootoonchian：我記得當(dāng)時(shí)我們在分析一連串的 kernel 執(zhí)行序列，其中第 2 個(gè) kernel 總是觸發(fā)非法內(nèi)存訪問。

那是一個(gè)我們寫的非常復(fù)雜的 kernel，大家都以為 bug 肯定在里面。于是很多很聰明的同事，一行一行看這個(gè) kernel，最終確實(shí)找到了 bug，修復(fù)之后解決了一部分問題，但還有一些 bug 仍然存在。

結(jié)果有一天，有個(gè)工程師注意到：喂，這個(gè) kernel 的輸入之一，居然來自 PyTorch 的一個(gè)很偏門的代碼路徑。而我們剛好觸發(fā)了這個(gè)幾乎沒人會(huì)觸發(fā)的代碼分支。

于是他說：“是這里有問題?！?我們沒有什么復(fù)雜驗(yàn)證手段，只能“修個(gè)補(bǔ)丁，看崩潰還在不在”。

結(jié)果一修所有崩潰都沒了。

我們才知道：這個(gè)超低頻 bug，其實(shí)一直在造成非常嚴(yán)重的隱患—— 大概每 100 次、甚至 1000 次訓(xùn)練步驟才崩一次，容易被忽略。

但我們有個(gè)信條就是：不該讓任何已知問題在訓(xùn)練中混過去。所以我們堅(jiān)持追查到底。

這個(gè)故事的重點(diǎn)就是：堅(jiān)持不放棄，哪怕是一個(gè)微不足道的 bug。

預(yù)訓(xùn)練人員，在正式訓(xùn)練后還有啥工作？

奧特曼：Alex，我知道大家可能能想象你訓(xùn)練前的生活很忙，但訓(xùn)練開始后，你的日常是什么樣？是在那兒“盯著 loss curve （損失曲線：模型在訓(xùn)練時(shí)會(huì)不斷試圖最小化損失函數(shù)）看”嗎？你怎么安排？

Alex Paino：對，真的有很多時(shí)間都在看 loss curve（笑），我們大家都干了很多這個(gè)事。

當(dāng)然除了看 loss，還有很多工作：

和系統(tǒng)團(tuán)隊(duì)一起協(xié)作，把沒趕上上線的一些改進(jìn)盡快合入；
持續(xù)監(jiān)控訓(xùn)練過程，看有沒有什么異常趨勢，比如某些統(tǒng)計(jì)指標(biāo)走偏了；
機(jī)器學(xué)習(xí)這邊也不斷在想辦法優(yōu)化訓(xùn)練效果；
數(shù)據(jù)這塊上線之后稍微輕松一點(diǎn)，但其他方面仍然很忙。

Amin Tootoonchian：我們在 ML 層面也承擔(dān)了很多模型正確性的判斷任務(wù)。

你可以想象，早期的信號往往非常嘈雜，有時(shí)候感覺就像在“讀茶葉渣”預(yù)測未來一樣（笑）。

有些問題，你要等很久才能驗(yàn)證到底健康不健康——但我們有責(zé)任提前判斷。

奧特曼：那你們碰到“虛驚一場”的概率高嗎？就是看上去很糟，但其實(shí)沒事的情況？

Alex Paino：這種情況相當(dāng)常見，我覺得大概有一半時(shí)候是虛驚吧。我們這群人真的挺焦慮的，所以我們傾向于“盯得更緊一點(diǎn)”。

人類的“數(shù)據(jù)效率”碾壓AI，算法與人類仍有“天文數(shù)字”之差

奧特曼：好，我來幾個(gè)快問快答：如果你能在下一次大訓(xùn)練前解決一個(gè) ML 問題，你最希望搞清楚什么？

Alex Paino：我最想知道的是：在數(shù)據(jù)有限的特定領(lǐng)域里，我們該使用什么算法。

這個(gè)問題很大，答案也很復(fù)雜。

奧特曼：那如果你能對現(xiàn)有硬件做出一個(gè)改變，比如發(fā)明一種新的網(wǎng)絡(luò)結(jié)構(gòu)或者芯片架構(gòu)，系統(tǒng)瓶頸現(xiàn)在卡在哪？

Amin Tootoonchian：我希望是在傳輸層或網(wǎng)絡(luò)層做改變?，F(xiàn)在很多錯(cuò)誤，其實(shí)是可以在“應(yīng)用層之下”就處理掉的。

我希望網(wǎng)絡(luò)傳輸能自己干好自己的事，別讓我擔(dān)心它的帶寬、可用性或者中斷問題。

奧特曼：那這個(gè)方向上，現(xiàn)在有沒有什么比較 promising 的方案？

Amin Tootoonchian：有的。

奧特曼：那我們線下聊（笑）。接下來兩個(gè)問題問 Dan：我們剛才談到“數(shù)據(jù)效率”，人類雖然在很多方面不完美，但我們學(xué)得超級快。

你覺得，我們現(xiàn)在最好的算法，距離人類的數(shù)據(jù)效率還差多遠(yuǎn)？

Dan Selsam：這個(gè)問題很難“蘋果對蘋果”地比較。

奧特曼：那你就憑直覺說說吧。

Dan Selsam：如果按語言理解來說，那差距是天文數(shù)字級別的遠(yuǎn)。

奧特曼：十萬倍那種？

Dan Selsam：對，差不多就那個(gè)量級吧。

當(dāng)然取決于你怎么定義“信息單位”，比如你要是把人類視神經(jīng)接收的每一位像素都算上，那算法上我們根本還沒搞清楚怎么從這些信息中抽象到“人類級別的文本理解”。

所以總結(jié)一下——我們算法上離人類還有很遠(yuǎn)的距離。

奧特曼：那第二個(gè)問題：你覺得我們目前這條技術(shù)路徑（比如 transformer +大數(shù)據(jù)訓(xùn)練）未來能實(shí)現(xiàn)人類級別的數(shù)據(jù)效率嗎？

還是說這條路根本到不了，也沒必要去到？

Dan Selsam：我覺得過去幾十年，深度學(xué)習(xí)的核心優(yōu)勢一直是算力效率。

除了數(shù)據(jù)和算力的增長，真正神奇的是：算法的微小進(jìn)步可以很好地“疊加”。

世界各地的研究者會(huì)陸續(xù)發(fā)現(xiàn)某個(gè)技巧能提升 10%、20%，然后這些技巧可以像“積木”一樣組合起來。

但我們在數(shù)據(jù)效率這塊，還沒有出現(xiàn)這種“全球范圍的 mobilization（大規(guī)模動(dòng)員）”。

主要原因是：之前不值得做這件事——數(shù)據(jù)夠多、算力才是瓶頸，搞數(shù)據(jù)效率意義不大。但現(xiàn)在我們進(jìn)入了一個(gè)新階段：數(shù)據(jù)開始成為關(guān)鍵資源，我們也會(huì)開始積累這方面的勝利：10% 這里，20% 那里，一步步前進(jìn)。

我覺得我們現(xiàn)在去預(yù)測是否會(huì)撞上某個(gè)“上限”，其實(shí)有點(diǎn)武斷。畢竟我們還沒有任何確切證據(jù)表明會(huì)撞墻。但可以肯定的是，人腦的運(yùn)行機(jī)制和我們現(xiàn)在做的任何微調(diào)算法都完全不同，所以我們必須持一點(diǎn)保留態(tài)度。不過我仍然認(rèn)為，我們有很多理由保持樂觀。

預(yù)訓(xùn)練Scaling帶來了強(qiáng)泛化，但不一定帶來強(qiáng)推理

奧特曼：下一個(gè)問題給你們?nèi)齻€(gè)，回答可以是“是/否”或者補(bǔ)充解釋：人類未來會(huì)不會(huì)進(jìn)行一次同步使用一千萬張 GPU 的預(yù)訓(xùn)練任務(wù)？

Alex Paino：我不確定那會(huì)不會(huì)是個(gè)“預(yù)訓(xùn)練”任務(wù)，但我覺得一定會(huì)有那種規(guī)模的訓(xùn)練任務(wù)。

奧特曼：也就是說，會(huì)有“一千萬張 GPU 同時(shí)工作的訓(xùn)練任務(wù)”？

Alex Paino：對，雖然可能和我們現(xiàn)在的訓(xùn)練方式完全不同，但一定會(huì)有某種形式的無監(jiān)督學(xué)習(xí)達(dá)到那種規(guī)模。

Amin Tootoonchian：我覺得我們可以稱之為“半同步（semi-synchronous）”，那個(gè)規(guī)模聽起來很誘人，我希望能看到。

奧特曼：你剛才用的是“半同步”這個(gè)說法，是吧？

Amin Tootoonchian：對，我覺得不會(huì)是完全同步的——畢竟自然法則擺在那里，不可能完全違背。

Dan Selsam：我覺得更可能的是一個(gè)“去中心化”的形態(tài)?？隙〞?huì)有一千萬張 GPU 一起工作在某個(gè) AI 系統(tǒng)上，讓它學(xué)習(xí)和執(zhí)行任務(wù)。但就像大腦的不同部分不會(huì)同時(shí)溝通一樣，它們可能不會(huì)彼此時(shí)時(shí)通信。

奧特曼：合理。那么我們有沒有發(fā)現(xiàn)：更大的預(yù)訓(xùn)練模型和更強(qiáng)的推理能力之間，有什么明顯的關(guān)聯(lián)？

Alex Paino：我們觀察到，更好的預(yù)訓(xùn)練往往可以整體抬升模型的智能水平，而且也有助于泛化能力的提升。而推理能力呢，它可能表現(xiàn)得更“跳躍”一些，或者說某些維度提升得更快。

這兩者其實(shí)是很好的互補(bǔ)。

奧特曼：那我再追問一點(diǎn)：你們有沒有覺得有點(diǎn)奇怪——為什么預(yù)訓(xùn)練的泛化能力那么強(qiáng)，幾乎能學(xué)到所有東西；但一旦我們專門教模型“推理”，它卻往往只在一個(gè)任務(wù)上表現(xiàn)突出？

Alex Paino：是的，這點(diǎn)挺有趣，但也不意外。

因?yàn)槟憧矗覀冇?xùn)練預(yù)訓(xùn)練模型的時(shí)候，用的是非常廣泛、多樣化的數(shù)據(jù)，目標(biāo)本身就是“覆蓋盡可能多的領(lǐng)域”。但推理模型，尤其是強(qiáng)化學(xué)習(xí)類型，往往是在非常受限的環(huán)境中訓(xùn)練，你很難獲得穩(wěn)定的獎(jiǎng)勵(lì)信號和廣泛的訓(xùn)練場景。

Dan Selsam：我同意，而且我覺得還有一個(gè)關(guān)鍵差別是：預(yù)訓(xùn)練本質(zhì)上是一種壓縮過程。

壓縮意味著模型要識別數(shù)據(jù)中的聯(lián)系、類比和抽象結(jié)構(gòu)。而推理是對某個(gè)具體問題的處理，它有一種“思維的技藝”。

當(dāng)你訓(xùn)練模型去壓縮跨領(lǐng)域的數(shù)據(jù)時(shí)，其實(shí)是在學(xué)更高層次的抽象，這正是預(yù)訓(xùn)練帶來的“廣義智能”。

系統(tǒng)擴(kuò)展的關(guān)鍵：不斷優(yōu)化聯(lián)合設(shè)計(jì)、更好地分配資源

奧特曼：說得好！我臨時(shí)想換個(gè)問題：未來系統(tǒng)擴(kuò)展的主要瓶頸會(huì)是什么？芯片？處理器？內(nèi)存？網(wǎng)絡(luò)？還是電力？

Amin Tootoonchian：系統(tǒng)的美妙之處在于：如果你進(jìn)行聯(lián)合設(shè)計(jì)（co-design），那么工作負(fù)載其實(shí)可以適應(yīng)你所構(gòu)建的基礎(chǔ)設(shè)施。

所以我們不能簡單說“網(wǎng)絡(luò)就是瓶頸”或“內(nèi)存帶寬是瓶頸”——我們可以調(diào)整資源需求分配，去構(gòu)建一個(gè)更加均衡的系統(tǒng)。

當(dāng)然，預(yù)訓(xùn)練和推理階段的答案可能也不同。

不過話說回來，內(nèi)存越多肯定越好。這是一個(gè)很難給出“單一答案”的問題。

奧特曼：那說到這個(gè)，在準(zhǔn)備 GPT-4.5 的訓(xùn)練任務(wù)時(shí)，你們的團(tuán)隊(duì)在模型規(guī)格設(shè)計(jì)上合作密切嗎？

Alex Paino：非常密切，甚至到我們希望用的矩陣尺寸都要一起優(yōu)化。

在這個(gè)項(xiàng)目中，從訓(xùn)練前的六到九個(gè)月開始，我們就在做系統(tǒng)和模型之間的深度協(xié)同設(shè)計(jì)。我們還專門做了一次大規(guī)模 de-risking run，目標(biāo)就是驗(yàn)證系統(tǒng)-ML 的協(xié)同在規(guī)?；?xùn)練中是否有效。

我覺得這是我們第一次在“協(xié)同設(shè)計(jì)”上投入這么大的精力，而且非常關(guān)鍵。

Amin Tootoonchian：沒錯(cuò)，這是我們第一次真正意義上的系統(tǒng)-模型聯(lián)合架構(gòu)設(shè)計(jì)。

關(guān)鍵不是“微調(diào)哪個(gè)部分”，而是你必須主動(dòng)讓系統(tǒng)去“長出”你想要的性質(zhì)，這些特性不會(huì)憑空出現(xiàn)。協(xié)同設(shè)計(jì)的過程決定了整個(gè)架構(gòu)的構(gòu)成方式，是系統(tǒng)側(cè)與模型側(cè)之間的連接橋梁。

Amin Tootoonchian：理想情況下，我當(dāng)然希望系統(tǒng)和模型完全解耦，各做各的，但現(xiàn)實(shí)中有時(shí)你必須為基礎(chǔ)設(shè)施的約束去做出結(jié)構(gòu)妥協(xié)。

很多時(shí)候我們追求的其實(shí)是一個(gè)“對稱型系統(tǒng)”——通信均衡、資源分配合理。

在這種情況下，協(xié)同設(shè)計(jì)就是我們最有力的工具。

奧特曼：那你覺得我們離你理想中的系統(tǒng)還有多遠(yuǎn)？你有沒有那種“我終于滿意了”的時(shí)刻？

Amin Tootoonchian：我們離理想還遠(yuǎn)得很，說實(shí)話。但這正是系統(tǒng)建設(shè)的樂趣：你總有一個(gè)理想藍(lán)圖，然后努力逼近它。我們不是為了空談理論，而是想盡辦法讓它變得現(xiàn)實(shí)，盡量貼近那個(gè)理想目標(biāo)。

說實(shí)話，這可能是做系統(tǒng)最令人興奮的階段了。你能提出假設(shè)，然后很快驗(yàn)證自己的設(shè)計(jì)是不是對的。過去，我們做出一個(gè)“優(yōu)雅系統(tǒng)設(shè)計(jì)”，要靠時(shí)間慢慢驗(yàn)證；現(xiàn)在，我們手上有算力、有目標(biāo)、有問題，我們可以迅速去驗(yàn)證自己的決策是否有效。

奧特曼：那你們團(tuán)隊(duì)在規(guī)劃一次訓(xùn)練時(shí)，會(huì)有多少精力放在“系統(tǒng)設(shè)計(jì)約束”上？

Alex Paino：非常多。我覺得從 GPT-4.5 開始，我們在模型架構(gòu)方面就已經(jīng)進(jìn)入一個(gè)新階段。

我們不斷有新的探索，繼續(xù)推進(jìn)協(xié)同設(shè)計(jì)，也在考慮如何為下一代硬件預(yù)留空間。

其實(shí)現(xiàn)在已經(jīng)有不少令人振奮的成果了。

奧特曼：好，換一個(gè)問題：為什么無監(jiān)督學(xué)習(xí)有效？

Dan Selsam：因?yàn)樗举|(zhì)上是“壓縮”。你可以用一個(gè)更哲學(xué)的理論來解釋：Solomonoff 歸納法。

它認(rèn)為，一個(gè)理想智能體不知道自己身處哪種宇宙，所以它會(huì)考慮所有可能的宇宙，其中越簡單的宇宙被賦予更高概率。它是完全貝葉斯的，每次獲取新信息時(shí)都會(huì)更新自己的信念。

而預(yù)訓(xùn)練模型在做的，其實(shí)就是在試圖找出一個(gè)“最短程序”來解釋人類世界中的所有數(shù)據(jù)，這是一種對理想智能行為的近似。

奧特曼：那為什么“預(yù)測下一個(gè) token”可以實(shí)現(xiàn)這種壓縮呢？

Dan Selsam：這個(gè)問題其實(shí)挺微妙的。統(tǒng)計(jì)學(xué)上曾經(jīng)有個(gè)類似的悖論：為什么深度網(wǎng)絡(luò)能泛化，而它們看上去并沒有壓縮數(shù)據(jù)？

你看，傳統(tǒng)統(tǒng)計(jì)里，模型小、數(shù)據(jù)多，模型能擬合數(shù)據(jù)，說明它“壓縮”了信息。

但現(xiàn)在的預(yù)訓(xùn)練模型本身非常龐大，甚至跟數(shù)據(jù)量是同級別的，那它到底是在壓縮、還是只是記憶？這就是核心謎題。

Dan Selsam：當(dāng)然，也有批評者會(huì)說，預(yù)訓(xùn)練只是記憶和插值，是表層的、不智能的。

但其實(shí)有一種角度可以讓我們看到：預(yù)訓(xùn)練模型其實(shí)是一個(gè)“壓縮器”，雖然是不那么直觀的方式。

這個(gè)思路叫做 Prequel Compression（前向壓縮）。它的核心觀點(diǎn)是：如果一個(gè)模型能在訓(xùn)練中學(xué)得很快，就說明它其實(shí)是個(gè)優(yōu)秀的壓縮器。

即便模型權(quán)重很大，但“可執(zhí)行文件”并不需要存儲所有權(quán)重 —— 它可以從零開始預(yù)訓(xùn)練出一個(gè)“解壓器”。這意味著數(shù)據(jù)本身可以用非常少的位數(shù)進(jìn)行編碼。

所以從這個(gè)角度看，預(yù)訓(xùn)練確實(shí)是一個(gè)非常有效的壓縮過程，也正是它能帶來智能的原因。

奧特曼：你們還有什么想補(bǔ)充的嗎？

Alex Paino：沒有了，很精彩。

Amin Tootoonchian：我也是，謝謝你。

再談Scaling Laws:為何有效、為何這是符合宇宙規(guī)律的

Dan Selsam：我想順便提一個(gè)我們之前沒提到的點(diǎn)：“度量指標(biāo)的選擇”是一個(gè)極其重要的學(xué)科。

你在做 scaling laws（擴(kuò)展法則）和機(jī)器學(xué)習(xí)實(shí)驗(yàn)時(shí)，最后的結(jié)果高度依賴于你選用的度量方式。

奧特曼：你具體指什么？能展開說說嗎？

Dan Selsam：你要不要來講講？

Alex Paino：我們說的“度量”，其實(shí)主要是：你在哪個(gè)測試集上去評估模型的“困惑度（perplexity）”。

Dan Selsam：是的，如果你光看 perplexity，很多人會(huì)誤以為我們是在看什么“大學(xué)測試題”。

Alex Paino：對，我們要不要解釋一下什么是 perplexity？

Dan Selsam：值得說說。

我們總是很想用人類可讀的測試來評估模型的智能——但如果你這么做，可能反而會(huì)鼓勵(lì)模型靠記憶取勝，而不是變聰明。

市面上幾乎所有測試題，在互聯(lián)網(wǎng)上都能找到類似版本。而如果你訓(xùn)練數(shù)據(jù)包含了整個(gè)互聯(lián)網(wǎng)，那模型考這些題其實(shí)就不算本事了。

所以目前業(yè)內(nèi)更主流的做法是：看模型在一組“高質(zhì)量、未見過的數(shù)據(jù)”上的壓縮效果。但就算這樣，如果你對這個(gè)“held-out 數(shù)據(jù)集”選擇不夠嚴(yán)格，而它又跟訓(xùn)練集太像，那優(yōu)化訓(xùn)練算法只會(huì)讓模型更容易記憶，從而假裝自己變聰明了。

Alex Paino：是的，我們不想只測“記憶能力”，我們追求的是泛化能力。

特別是“分布外泛化”（Out-of-distribution generalization）。所以我們對驗(yàn)證集的要求非常高：哪怕它和訓(xùn)練集有一點(diǎn)點(diǎn)重合，都會(huì)毀掉我們的 scaling laws 分析。

這點(diǎn)特別關(guān)鍵。

奧特曼：那你覺得目前我們手頭最好的測試集是哪一個(gè)？

Alex Paino：我們自己的內(nèi)部代碼庫。我們知道它不在外網(wǎng)，很適合當(dāng)驗(yàn)證集。

奧特曼：這個(gè)驗(yàn)證集也被用于很多實(shí)驗(yàn)吧？它還是最穩(wěn)的嗎？

Dan Selsam：是的，依然是最有效的工具。我們甚至開玩笑說，一個(gè)模型的“靈魂”就藏在它壓縮“內(nèi)部代碼庫”的能力里。

奧特曼：這聽起來像是一種“自指的、遞歸的哲學(xué)問題”……

Dan Selsam：一個(gè)模型如果在“內(nèi)部代碼庫”上的 loss 很低，那你就能預(yù)測它未來會(huì)有怎樣的表現(xiàn)。這甚至可以告訴你，它在“哲學(xué)系研究生”的眼中，會(huì)展現(xiàn)出怎樣的細(xì)膩理解力（笑）。

奧特曼：確實(shí)不可思議！說到這里，我想問個(gè)“收尾大問題”：整個(gè) GPT-4.5 的訓(xùn)練，投入了巨大人力、時(shí)間、金錢……

它其實(shí)就是在驗(yàn)證一件事：Scaling Laws 真的有效嗎？能走多遠(yuǎn)？

現(xiàn)在看來，它確實(shí)有效，而且可能還能繼續(xù)有效很久。我已經(jīng)把 scaling laws 當(dāng)成類似“量子力學(xué)”那樣的規(guī)律接受了—— 但我還是搞不懂，為什么 scaling laws 是宇宙的屬性？

Amin Tootoonchian：我可以先說一點(diǎn)。

Dan Selsam：從哲學(xué)角度講，“壓縮越多，智能越強(qiáng)”這件事是有堅(jiān)實(shí)理論基礎(chǔ)的。但問題在于：為什么你訓(xùn)練更大的模型、更久，它就能“壓縮”得更多？我最喜歡的一個(gè)解釋是：這個(gè)世界的數(shù)據(jù)中，有用的概念其實(shí)是稀疏分布的，而且這是一種冪律分布：比如最重要的前 100 個(gè)概念，只在大約 1% 的文檔中出現(xiàn)。這說明世界是“長尾”的。

奧特曼：那是不是說，如果我們能構(gòu)建一個(gè)完美的數(shù)據(jù)集，再配上高效算法，Amin 就可以回家退休了？

Dan Selsam：也許可以（笑）。這意味著，只要你在“數(shù)據(jù)選擇”上變得更聰明，就有可能獲得指數(shù)級的算力節(jié)省。

但現(xiàn)實(shí)中，我們還是主要在“被動(dòng)地?fù)茢?shù)據(jù)”。如果你只是海量采集數(shù)據(jù)，你每擴(kuò)充 10 倍的訓(xùn)練規(guī)模，可能只能挖掘“尾部新增”的幾個(gè)知識點(diǎn)。而那個(gè)尾巴還在不斷延伸。不過——正如你說的，我們確實(shí)有可能用更聰明的方式去挖它。

奧特曼：我覺得我們就停在這吧，非常感謝你們。太棒了，很有趣！

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：伊風(fēng)

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

OpenAI神秘搞事，GPT-4.5默默上線？推理碾壓GPT-4網(wǎng)友震驚，奧特曼笑而不語

duhorse ? 3030瀏覽 ? 1回復(fù)
OpenAI神秘gpt2正在A/B測試，奧特曼搶先劇透，網(wǎng)友已玩嗨

Crystalcxt ? 2048瀏覽 ? 0回復(fù)
OpenAI顛覆世界：GPT-4o完全免費(fèi)，實(shí)時(shí)語音視頻交互震撼全場，直接進(jìn)入科幻時(shí)代

輕薄滴假象 ? 2902瀏覽 ? 0回復(fù)
大模型開始進(jìn)入收益遞減的時(shí)代？

lintoms ? 2343瀏覽 ? 0回復(fù)
OpenAI聯(lián)合創(chuàng)始人John Schulman：OpenAI 大模型史，RLHF，AGI 2027 ...

lintoms ? 3345瀏覽 ? 0回復(fù)
Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù)

玄姐聊AGI ? 2088瀏覽 ? 0回復(fù)
OpenAI官方揭秘GPT-4的秘密武器- 指令的藝術(shù)

ermulong ? 2032瀏覽 ? 0回復(fù)
大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個(gè)方面介紹大模型

AI探索時(shí)代 ? 1.4w瀏覽 ? 0回復(fù)
7大頂尖AI修bug系統(tǒng)大PK，誰才是"代碼醫(yī)生"？ | 法語版BERT CamemBERT 2.0讓AI更懂"法式幽默"

sbf_2000 ? 1884瀏覽 ? 0回復(fù)
OpenAI發(fā)布GPT-4.5：功能非常特殊，推理很貴

Aceryt ? 3087瀏覽 ? 0回復(fù)
OpenAI自爆：GPT-4.5 并非前沿模型！奧特曼稱OpenAI的GPU已用光，還透露了一個(gè)“轉(zhuǎn)型”思路？

51CTO技術(shù)棧 ? 1669瀏覽 ? 0回復(fù)
OpenAI GPT-4.5 系統(tǒng)卡片

AIRoobt ? 2464瀏覽 ? 0回復(fù)
OpenAI 發(fā)布GPT-4.5：更大規(guī)模、更知識淵博的模型，預(yù)訓(xùn)練的巔峰之作，COT升級為COD

Syrupup ? 2680瀏覽 ? 0回復(fù)
如何正確看待GPT4.5

熵減AI ? 1388瀏覽 ? 0回復(fù)
如何利用人工智能和事件驅(qū)動(dòng)設(shè)計(jì)實(shí)現(xiàn)播客推廣的自動(dòng)化

51CTO內(nèi)容精選 ? 738瀏覽 ? 0回復(fù)
模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修

51CTO技術(shù)棧 ? 808瀏覽 ? 0回復(fù)
圖像編輯進(jìn)入“精修時(shí)代”！“指哪改哪”！北交&美圖發(fā)布DCEdit：改圖不傷背景的終極方案

angel ? 1170瀏覽 ? 0回復(fù)
OpenAI正式發(fā)布GPT-4.1：直接干碎自家GPT-4.5，全方位碾壓GPT-4o！

算家計(jì)算 ? 817瀏覽 ? 0回復(fù)
OpenAI史上最強(qiáng)、最智能模型

Aceryt ? 1204瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：剛剛！谷歌最強(qiáng)AI全家桶上線！自家主干網(wǎng)絡(luò)都要公開對外用了！黃仁勛站臺，最新TPU性能猛漲3600倍

下一篇：微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode

社區(qū)精華內(nèi)容

目錄