自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI史上最硬核技術(shù)播客!系統(tǒng)揭秘GPT4.5誕生,已進(jìn)入數(shù)據(jù)受限時(shí)代!小哥親述大模型修bug血淚史! 原創(chuàng)

發(fā)布于 2025-4-11 13:36
瀏覽
0收藏

整理 | 伊風(fēng)

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

剛剛,奧特曼親自預(yù)熱的那期播客,完整版視頻終于上線啦!??!

這一次,OpenAI 也開始“學(xué)對手”了 —— 正式推出類似 Anthropic 風(fēng)格的硬核技術(shù)播客內(nèi)容。

本期嘉賓陣容豪華,全部來自 OpenAI 核心團(tuán)隊(duì),首次系統(tǒng)揭秘 GPT-4.5 是怎么誕生的,深入探討它在模型訓(xùn)練、系統(tǒng)架構(gòu)和數(shù)據(jù)效率上的關(guān)鍵突破。

OpenAI史上最硬核技術(shù)播客!系統(tǒng)揭秘GPT4.5誕生,已進(jìn)入數(shù)據(jù)受限時(shí)代!小哥親述大模型修bug血淚史!-AI.x社區(qū)圖片

不同于OpenAI以往的“營銷味”,這個(gè)播客確實(shí)分享了前沿的訓(xùn)練干貨,讓我有一種想法:在DeepSeek的感化之下,他們也想摘掉CloseAI的帽子了!

據(jù)說,OpenAI的開源大招也提上日程了。今天外網(wǎng)AI博主Tibor轉(zhuǎn)發(fā)了一個(gè)消息,OpenAI在為一個(gè)重磅的開源模型做聽證會(huì)邀請。

OpenAI史上最硬核技術(shù)播客!系統(tǒng)揭秘GPT4.5誕生,已進(jìn)入數(shù)據(jù)受限時(shí)代!小哥親述大模型修bug血淚史!-AI.x社區(qū)圖片

說回這期博客,我們先來看看參與成員。

OpenAI史上最硬核技術(shù)播客!系統(tǒng)揭秘GPT4.5誕生,已進(jìn)入數(shù)據(jù)受限時(shí)代!小哥親述大模型修bug血淚史!-AI.x社區(qū)圖片

從左到右分別是:

  • Sam Altman — OpenAI CEO。
  • Alex Paino —  OpenAI 的研究員, 負(fù)責(zé)了GPT-4.5 的預(yù)訓(xùn)練數(shù)據(jù)和機(jī)器學(xué)習(xí)訓(xùn)練工作。
  • Amin Tootoonchian (@atootoon) —  OpenAI 的首席系統(tǒng)架構(gòu)師,負(fù)責(zé)系統(tǒng)層面和網(wǎng)絡(luò)相關(guān)的整體架構(gòu)。
  • Dan Selsam — OpenAI 的研究員,參與了 OpenAI 的數(shù)學(xué)推理模型開發(fā),主要研究數(shù)據(jù)效率和算法。

我們先給這波扎實(shí)的技術(shù)干貨畫個(gè)重點(diǎn):

1.GPT 4.5兩年前就啟動(dòng)了,一開始的目標(biāo)就是做到比 GPT-4 聰明10倍。由于訓(xùn)練中涌現(xiàn)的意外問題,整個(gè)訓(xùn)練過程比預(yù)想的更為耗時(shí)。

2.大模型訓(xùn)練的難點(diǎn),當(dāng)從1 萬塊 GPU擴(kuò)展到10萬塊GPU規(guī)模時(shí),會(huì)出現(xiàn)各種“系統(tǒng)波動(dòng)”,“低概率事件”會(huì)升級成“災(zāi)難級問題”。

3.GPT-4只用了5-10人規(guī)模就完成了訓(xùn)練,但GPT 4.5復(fù)雜得多。GPT-4o實(shí)際是在GPT-4.5 的研究過程中誕生的。

4.在 GPT-4 之前,我們基本還處于一個(gè)算力受限的時(shí)代;但從 GPT-4.5 開始,有些領(lǐng)域已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)受限。

5.現(xiàn)在最好的AI算法,距離人類的數(shù)據(jù)效率仍然有云泥之別。不過,隨著數(shù)據(jù)開始成為關(guān)鍵資源,這方面的進(jìn)步會(huì)不斷追上。

6.研究員說GPT 模型訓(xùn)練有些“難以預(yù)料”,隨著測試損失降低,模型更聰明了,但是“聰明在哪里”卻很難提前知曉。

7.目前并沒有發(fā)現(xiàn)更大的預(yù)訓(xùn)練模型和更強(qiáng)的推理能力間有明確關(guān)系,表現(xiàn)得更“跳躍”,只是某些維度提升得更快。

8.預(yù)訓(xùn)練模型其實(shí)是一個(gè)“壓縮器”,即便模型權(quán)重很大,但“可執(zhí)行文件”并不需要存儲所有權(quán)重,這意味著數(shù)據(jù)本身可以用非常少的位數(shù)進(jìn)行編碼。

9.GPT 4.5證明Scaling laws依然有效,從哲學(xué)角度說它是“宇宙的屬性”,訓(xùn)練更大的模型、它就更能“壓縮”,也會(huì)獲得更好的智力水平。

下面就來看看這次博客的完整內(nèi)容吧,enjoy:

訓(xùn)練一個(gè)比GPT-4聰明10倍的模型,為啥這么難?

奧特曼:好吧,我們之前錄這種視頻,一般是為了介紹一個(gè)即將上線的新產(chǎn)品。但這次我們想做點(diǎn)不一樣的事——聊一聊這個(gè)產(chǎn)品背后的研究工作。

我們發(fā)布 GPT-4.5 的時(shí)候,覺得這個(gè)模型大家應(yīng)該會(huì)喜歡,我們自己也很自豪。但沒想到大家比我們想象中更喜歡這個(gè)模型。

很多人會(huì)說:“我從沒想過能跟一個(gè)模型有這種交流體驗(yàn)。” 它和 GPT-4 完全不同,不管是那些顯而易見的提升,還是那些難以描述的微妙差異。

很多人都很好奇 GPT-4.5 是怎么造出來的。

所以今天我們請來了幾個(gè) GPT-4.5 核心團(tuán)隊(duì)的成員,一起來聊聊這個(gè)模型,也聊聊我們從中學(xué)到的東西,以及打造這樣一個(gè)大模型需要什么。

我們不如就從這個(gè)問題開始吧:做出這樣一個(gè)大模型,到底需要什么?

Alex Paino:很多人、很多時(shí)間,還有大量算力。

奧特曼:好,那到底需要什么才能做出這樣一個(gè)模型(GPT 4.5)呢?

Alex Paino:我們這個(gè)項(xiàng)目大概是兩年前啟動(dòng)的。當(dāng)時(shí)我們知道會(huì)有一個(gè)更大的計(jì)算集群上線,遠(yuǎn)處就能看見這件事要發(fā)生了。

我們開始做很多工作,比如確定我們希望在訓(xùn)練中引入哪些功能,做了很多高風(fēng)險(xiǎn)的大型測試,制定了非常長遠(yuǎn)的訓(xùn)練計(jì)劃,涵蓋了從系統(tǒng)到模型的整個(gè)技術(shù)棧。

所以,從正式訓(xùn)練開始前,我們就經(jīng)歷了一整段冗長的準(zhǔn)備過程,而訓(xùn)練本身則是更大規(guī)模的工程。

Amin Tootoonchian:我覺得這其實(shí)是一個(gè)從最初就由系統(tǒng)團(tuán)隊(duì)和模型團(tuán)隊(duì)共同推動(dòng)的過程。直到我們真正確定好要訓(xùn)練的模型后,才啟動(dòng)正式訓(xùn)練。

而我們工作的節(jié)奏非???,尤其是在利用最新上線的計(jì)算資源方面,這就導(dǎo)致我們幾乎不可能做到百分百計(jì)劃周全。

所以我們幾乎總是帶著一堆未解決的問題啟動(dòng)訓(xùn)練,不斷推進(jìn)中解決各種挑戰(zhàn)。我們要不斷追加算力、處理一些一開始沒預(yù)料到的問題—— 即使我們在系統(tǒng)側(cè)和模型側(cè)都做了大量預(yù)測。

我們不斷縮小“預(yù)測應(yīng)該發(fā)生的事情”與“實(shí)際發(fā)生的事情”之間的差距。說到底,這是一個(gè)非常龐大的過程,最后階段的執(zhí)行尤其艱難,需要很多人、很多能量和長期的協(xié)作才能完成整個(gè)訓(xùn)練。

奧特曼:那你覺得我們對最終結(jié)果的預(yù)測和現(xiàn)實(shí)差距有多大?

Amin Tootoonchian:從系統(tǒng)角度來看,最開始我們通常距離預(yù)期還挺遠(yuǎn)的。

你總得面臨選擇——是推遲上線,直到更多問題解決,還是邊訓(xùn)練邊解決問題。

這始終是一種權(quán)衡,要盡量別不合理地拖延進(jìn)程。但幾乎總是有些問題在一開始是預(yù)料不到的。

整個(gè)過程的重點(diǎn)就是:盡可能解決我們已知的問題,并規(guī)劃好訓(xùn)練流程,然后在推進(jìn)中不斷應(yīng)對那些未知情況,比如訓(xùn)練是否順利、會(huì)持續(xù)多久等變量。

Alex Paino:從最高層目標(biāo)來看,GPT-4.5 項(xiàng)目一開始的目標(biāo)就是做到比 GPT-4 聰明10倍。

這個(gè)設(shè)想是兩年前我們就定下來的。當(dāng)然在推進(jìn)過程中,我們不斷思考“能不能再好一點(diǎn)?”“會(huì)不會(huì)做不到?” 這是一條極其復(fù)雜的道路。但最終我們做出了一個(gè)模型,確實(shí)在有效計(jì)算量投入方面達(dá)到了“比 GPT-4 強(qiáng)10倍”這個(gè)目標(biāo)。

Amin Tootoonchian:從執(zhí)行層面看,這個(gè)過程當(dāng)然遠(yuǎn)比我們最初預(yù)想的要耗時(shí)。

奧特曼:確實(shí)如此。

Amin Tootoonchian:我們的任務(wù)就是努力壓縮訓(xùn)練周期,使之盡可能接近預(yù)期。

奧特曼:我有個(gè)二合一的問題:為什么從用 1 萬塊 GPU 訓(xùn)練,擴(kuò)展到 10 萬塊 GPU,就會(huì)讓問題變得難上十倍?

Amin Tootoonchian:問題太多了。其實(shí),如果你觀察得夠仔細(xì),那些在大規(guī)模才顯著的問題,在小規(guī)模時(shí)就已經(jīng)有蛛絲馬跡。

只是到了大規(guī)模之后,一些“低概率事件”會(huì)變成“災(zāi)難級問題”,尤其是如果你一開始沒預(yù)料到的話。

奧特曼:舉幾個(gè)例子?

Amin Tootoonchian:最常見的問題包括:基礎(chǔ)設(shè)施不穩(wěn)定、 故障率增高、故障類型復(fù)雜多樣,我們能觀察到的故障情況,連硬件供應(yīng)商自己都沒見過,因?yàn)槲覀冋{(diào)動(dòng)的是一個(gè)巨大的樣本池。

我們看到了資源執(zhí)行中的全部統(tǒng)計(jì)分布——包括網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)間連接、甚至單個(gè)加速卡的表現(xiàn)。但這也是其中的美感:要想模型最終表現(xiàn)理想,幾乎所有系統(tǒng)部件都必須按預(yù)期運(yùn)行。我們的工作就是盡可能減少這種“系統(tǒng)波動(dòng)”。

奧特曼:這個(gè)問題的下半部分:我們知道在“最前沿規(guī)?!鄙嫌?xùn)練模型很難,但我也注意到,當(dāng)一個(gè)任務(wù)不再位于最前沿時(shí),它就會(huì)變得容易得多。

比如 GPT-4 的訓(xùn)練曾經(jīng)幾乎動(dòng)用了整個(gè) OpenAI 的資源。如果現(xiàn)在讓你們組一個(gè)最小團(tuán)隊(duì),從頭重訓(xùn) GPT-4,你們覺得需要多少人?

Alex Paino:我覺得現(xiàn)在要重訓(xùn)一個(gè) GPT-4 級別的模型,大概只需要 5~10 人就夠了。

Amin Tootoonchian:是的,我們確實(shí)是用這個(gè)規(guī)模訓(xùn)練了 GPT-4。

不過 GPT-4.5 是另一種情況——它背后有更復(fù)雜的歷史,也有更多人參與,是完全不同的一次挑戰(zhàn)。

Alex Paino:不過,既然我們已經(jīng)完成了 GPT-4.5,整個(gè)技術(shù)棧其實(shí)已經(jīng)提升了很多。我們也確實(shí)在 GPT-4.5 的研究過程中重新訓(xùn)練了一個(gè) GPT-4 級別的模型,也就是 GPT-4o。

它用了 GPT-4.5 的很多技術(shù)積累,但這次的訓(xùn)練團(tuán)隊(duì)規(guī)模小得多。

奧特曼:那 Dan,你怎么看?為什么大模型訓(xùn)練這么難?

Dan Selsam:我覺得做任何“新的事”本來就難。哪怕后來別人也做成了,這事也會(huì)立刻變簡單許多。

最難的是:你在最開始,必須有堅(jiān)定信念去做一件沒人驗(yàn)證過的事。一旦你知道“它是可能的”,那簡直像開了金手指。

Alex Paino:確實(shí)。我們其實(shí)是在把 GPT 的預(yù)訓(xùn)練規(guī)模往上擴(kuò)了整整 10 倍。

在這個(gè)過程中遇到的問題有很多是你事先根本想不到的。

繼續(xù)Scaling沒有“硬性上限”,重點(diǎn)是提升“數(shù)據(jù)效率”

奧特曼:那我們要繼續(xù)擴(kuò)展 10 倍、甚至 100 倍的訓(xùn)練規(guī)模,還需要什么?

Dan Selsam:數(shù)據(jù)效率。

奧特曼:什么意思?

Dan Selsam:Transformer 和 GPT 的一大優(yōu)勢是能非常高效地吸收數(shù)據(jù):它能提取信息、能壓縮和泛化 這幾乎是它的核心特征。但也有個(gè)“天花板”——它所能從一段數(shù)據(jù)中提取出的“深層洞見”是有限的。

所以當(dāng)你的算力一直增長,而可用數(shù)據(jù)量增長很慢時(shí),就會(huì)出現(xiàn)“數(shù)據(jù)成為瓶頸”的問題。這時(shí)就需要在算法層面有突破:用更多算力,從同樣數(shù)據(jù)中“學(xué)得更多”。

奧特曼:除了數(shù)據(jù)效率,你覺得還需要什么,才能繼續(xù)擴(kuò)展?

Amin Tootoonchian:從系統(tǒng)角度看,每一代 GPT 的訓(xùn)練其實(shí)都代表著我們在基礎(chǔ)設(shè)施上的大規(guī)模升級。

GPT-4.5 之所以需要?jiǎng)舆@么多人、改這么多東西,正是因?yàn)樗旧淼哪P鸵?guī)格發(fā)生了質(zhì)變。

我們根本不可能用 GPT-4 的系統(tǒng)架構(gòu)直接來訓(xùn)練 GPT-4.5。

Amin Tootoonchian:比如說狀態(tài)管理,我們對這部分的處理方式也發(fā)生了改變。因?yàn)橐獢U(kuò)展更多算力,而這些算力并不都集中在一個(gè)集群里,所以我們不得不采用多集群訓(xùn)練。你可以想象,這是許許多多不同的工作流,需要在極短的時(shí)間內(nèi)拼接在一起,才能完成這件事。

當(dāng)我們計(jì)劃再做一次 10 倍的突破時(shí),有些我們之前明知存在的問題,這次為了加快推進(jìn)節(jié)奏選擇跳過了——但下次就必須解決,沒有回避的余地。

這些技術(shù)選擇正是讓“打造完美系統(tǒng)”的時(shí)間線變得更長的原因。我們一直都在妥協(xié):在“追求完美”與“盡快搞出來”之間尋找平衡。

Amin Tootoonchian:系統(tǒng)本身并不是一個(gè)最終產(chǎn)品,它是為了支撐真正的產(chǎn)品存在。

所以如果我們要做下一個(gè) 10 倍突破,對我來說最重要的是“容錯(cuò)能力”——但不是傳統(tǒng)意義上的容錯(cuò),而是與工作負(fù)載協(xié)同設(shè)計(jì)出的容錯(cuò)系統(tǒng),這樣我們就不用再承受龐大訓(xùn)練任務(wù)所帶來的巨大運(yùn)維壓力。

我們以前的系統(tǒng),在訓(xùn)練 GPT-4.5 的時(shí)候,已經(jīng)到了快跟不上節(jié)奏的極限。

奧特曼:你知道 GPT-4.5 的訓(xùn)練過程中,有多少百分比的訓(xùn)練步驟因?yàn)槟承┙M件故障而失敗了嗎?

Amin Tootoonchian:我現(xiàn)在腦子里沒有準(zhǔn)確數(shù)字。但通常來說,問題是這樣的:新一代硬件剛上線時(shí),它的一些故障并不是大家一開始就完全理解或研究透的。

我們一邊推進(jìn)訓(xùn)練,一邊解決這些問題。

Amin Tootoonchian:當(dāng)然,訓(xùn)練早期的故障率會(huì)非常顯著。

但也很有可能是:當(dāng)我們找到了問題的根源并修復(fù)之后,故障數(shù)量會(huì)大幅下降。

這幾乎是訓(xùn)練的常態(tài)。我們總是邊干邊學(xué)。

Amin Tootoonchian:你可以把它看作是在做系統(tǒng)“清潔工作”或“基礎(chǔ)問題診斷”。

一旦這些問題搞清楚了,系統(tǒng)穩(wěn)定性就會(huì)大幅提升。但在早期訓(xùn)練階段幾乎總是最痛苦的——我們在探索新故障模式、新硬件帶來的影響,同時(shí)還得繼續(xù)推進(jìn)進(jìn)度。當(dāng)然,到了后期,故障率會(huì)顯著降低,整體運(yùn)行時(shí)間穩(wěn)定性也會(huì)上升。

但問題就在于:你無法提前預(yù)測新一代基礎(chǔ)設(shè)施在“初期階段”的具體表現(xiàn)。如果你只為“穩(wěn)定階段”做設(shè)計(jì),那在早期訓(xùn)練里可能就會(huì)遇到非常糟糕的可用性問題。

奧特曼:我們都知道推理類模型是未來發(fā)展的關(guān)鍵部分。

但如果暫時(shí)不談推理,只討論“經(jīng)典預(yù)訓(xùn)練模型”這條路線:假設(shè)我們擁有無限的 GPU、無限網(wǎng)絡(luò)資源、無限電力,但依然受限于我們當(dāng)前的系統(tǒng)問題,比如容錯(cuò)機(jī)制還沒搞定、數(shù)據(jù)也就這么多等等。

如果每一代 GPT 的數(shù)字代表一個(gè)“百倍飛躍”,那你覺得現(xiàn)在我們用現(xiàn)有資源,最多能訓(xùn)練到 GPT 多少級別?比如 GPT-5.5?

Alex Paino:從機(jī)器學(xué)習(xí)和算法角度講,我覺得我們還沒遇到什么“硬性上限”。

我們現(xiàn)在才剛剛開始真正挖掘“數(shù)據(jù)效率算法”的潛力,也剛剛找到更有效利用現(xiàn)有數(shù)據(jù)的方法。

有趣的是,在 GPT-4 之前,我們基本還處于一個(gè)算力受限的時(shí)代,研究重點(diǎn)全壓在怎么搞到更多算力。

但從 GPT-4.5 開始,有些領(lǐng)域我們已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)受限,這在某些數(shù)據(jù)維度上是個(gè)重大轉(zhuǎn)折點(diǎn),也讓這一方向的研究變得更加令人興奮。

奧特曼:這是一個(gè)顛覆性的變化——我覺得整個(gè)世界現(xiàn)在還沒真正意識到:我們已經(jīng)不是在“算力極限”上打造最強(qiáng)模型了。這跟我們過去一直以來賴以生存的技術(shù)現(xiàn)實(shí),完全不同了。

修bug修到崩潰,一個(gè)最不起眼的bug貫穿模型訓(xùn)練的40%

奧特曼:那你們在訓(xùn)練 GPT-4.5 過程中,有什么最有意思的 ML 方面的發(fā)現(xiàn)可以分享的嗎?

Amin Tootoonchian:我不太確定我能分享多少細(xì)節(jié),但我可以說:我們最有價(jià)值的經(jīng)驗(yàn)之一就是:當(dāng)模型沒有沿著我們預(yù)測的“性能斜率”前進(jìn)時(shí),我們必須搞清楚為什么。

Alex Paino:對,我覺得最讓我意外的一點(diǎn)是:我們在模型端做的很多工作,在訓(xùn)練過程中體現(xiàn)出有的能很好擴(kuò)展,有的卻不能。

這些我們很多都是在實(shí)戰(zhàn)中才發(fā)現(xiàn)的,這個(gè)過程確實(shí)讓我們學(xué)到了很多。

Dan Selsam:我覺得 GPT 模型訓(xùn)練最具代表性的兩個(gè)特征就是:你可以預(yù)測測試損失(test loss); 而且它的擴(kuò)展性非?!吧衿妗薄獪y試損失降低,智能就會(huì)上升,體現(xiàn)在一系列不可思議、難以預(yù)料的方面。

奧特曼:你是這方面的“極致信徒”嗎?你完全相信這個(gè)關(guān)系成立?

Dan Selsam:可以這么說吧。我們在 GPT-4.5 上做過重新測試,發(fā)現(xiàn)模型擁有很多極其細(xì)膩的能力,這些都不在任何人的預(yù)測清單里。

我們唯一的信念就是:這個(gè)模型會(huì)更聰明,但“聰明在哪里”其實(shí)很難提前定義。可一旦你上線使用,就會(huì)發(fā)現(xiàn)它在很多細(xì)微的地方都變聰明了—— 它的常識更強(qiáng)、理解更細(xì)膩、語境處理能力也更好了。

這就是“多出那一點(diǎn)點(diǎn) test loss 帶來的神奇魔法”。我覺得這種“隨著 test loss 降低,能力變強(qiáng)”的擴(kuò)展規(guī)律依然是成立的。

奧特曼:那訓(xùn)練過程中有沒有什么最積極、最讓你感動(dòng)的瞬間?雖然過程充滿痛苦,但總得有個(gè)美好記憶吧?

Alex Paino:我有一個(gè)瞬間印象挺深的。

我們在訓(xùn)練期間還持續(xù)在調(diào)模型的 ML 層設(shè)計(jì),而且訓(xùn)練中期的一些改動(dòng)居然效果比預(yù)期好很多。那一刻我們非常激動(dòng)。

Amin Tootoonchian:對我來說,這應(yīng)該是我投入“IC 時(shí)間”(獨(dú)立貢獻(xiàn)者的時(shí)間)最多的一次訓(xùn)練過程。

我們一邊訓(xùn)練,一邊還在并行搭建系統(tǒng),為了提速而極度并行地推進(jìn)各項(xiàng)工作。我們都相信這些努力會(huì)有結(jié)果——只要撐過某個(gè)性能瓶頸,模型就能恢復(fù)可訓(xùn)練性,否則訓(xùn)練時(shí)間會(huì)無限拉長。我們有明確的計(jì)劃,每個(gè)人都在執(zhí)行。但過程真的比我預(yù)想的難得多,時(shí)間也拖得更久。

最讓我感動(dòng)的是:當(dāng)幾個(gè)關(guān)鍵問題被解決后,性能突然躍升了一大截。那一刻你能感覺到整個(gè)團(tuán)隊(duì)的氛圍都變了。

奧特曼:你還記得那個(gè)瞬間嗎?

Amin Tootoonchian:當(dāng)然,大家的精氣神都不一樣了,情緒被點(diǎn)燃了,動(dòng)力更足了。那種感覺很神奇。

Alex Paino:我們的任務(wù)狀態(tài)追蹤器也從之前的“卡殼”,變成了“進(jìn)度條瘋漲”。

Amin Tootoonchian:是的,這種狀態(tài)變化對士氣的推動(dòng)太重要了。還有一點(diǎn)我特別想提的是:ML 端的協(xié)同并沒有在模型上線那天就結(jié)束。

很多本來打算“上線后再修”的問題,大家在上線后也持續(xù)在優(yōu)化。每個(gè)人都主動(dòng)出手,不再是“我做完交接就不管了”。團(tuán)隊(duì)協(xié)作的這種精神,非常強(qiáng)大。

Dan Selsam:我們剛才一直在強(qiáng)調(diào)這個(gè)訓(xùn)練過程多難、預(yù)測多不準(zhǔn)——但其實(shí)背后是巨量的高質(zhì)量規(guī)劃。

Amin Tootoonchian:沒錯(cuò)。

Dan Selsam:你們要不要展開講講?

Alex Paino:這確實(shí)是我們有史以來計(jì)劃最充分的一次訓(xùn)練。我們在正式訓(xùn)練前就已經(jīng)籌備了差不多一年時(shí)間,做了多輪超大規(guī)模的風(fēng)險(xiǎn)測試(de-risking runs)。

我們非常小心地安排每一個(gè)變更,始終從“高置信度、已驗(yàn)證配置”出發(fā)——

比如 GPT-4 這種我們非常熟悉的配置,在這個(gè)基礎(chǔ)上一點(diǎn)點(diǎn)迭代、加入新功能,

而且每次都要認(rèn)真評估每項(xiàng)變更的可擴(kuò)展性。

不是說看到一個(gè)功能在小規(guī)模下有效果就夠了——我們要確保這個(gè)效果在大規(guī)模下也同樣成立、不會(huì)衰減。很多東西在小模型上看起來不錯(cuò),但放大之后就失效了。

所以我們整個(gè)流程都極度謹(jǐn)慎,同時(shí)也在不斷完善“擴(kuò)展法則(scaling laws)”的方法論。

這也是我們未來訓(xùn)練更多 GPT 模型的核心參考。

Amin Tootoonchian:你剛才說的那個(gè)有趣瞬間,讓我想起了另一個(gè)特別有意思的片段。

這個(gè)故事有點(diǎn)“Torch Do Sum”(指bug既基礎(chǔ)又莫名其妙)的味道(笑)。你可以想象,我們上線一個(gè)這么復(fù)雜的系統(tǒng),它肯定會(huì)有 bug——各種各樣的 bug,這是“默認(rèn)值”。

但同時(shí)我們也要繼續(xù)推進(jìn),要保證整個(gè)訓(xùn)練流程是在正確的軌道上運(yùn)行。雖然我們非常清楚有些 bug 的確很嚴(yán)重,但我們也構(gòu)建了很多系統(tǒng),來幫助我們區(qū)分問題來源:

  • 是硬件故障嗎?
  • 是哪類硬件的問題?
  • 是數(shù)據(jù)損壞?
  • 還是某種潛在的機(jī)器學(xué)習(xí) bug?比如我們代碼里的某種錯(cuò)誤?

當(dāng)時(shí),我們手上同時(shí)有好幾個(gè)開放的“未解線程”,都有不同的癥狀,都是模型正確性相關(guān)的問題。我們當(dāng)然也找到了一些 bug 并修復(fù)了它們。

我們一度陷入了一個(gè)狀態(tài):這些看似不同的問題,到底是多個(gè) bug 造成的,還是其實(shí)只源自一個(gè) bug?所以我們坐在會(huì)議室里,每個(gè)人投票:你覺得是哪一個(gè)因素導(dǎo)致了這些問題?

結(jié)果——真正的那個(gè) bug 是得票最少的選項(xiàng)!

那個(gè) bug 是在 torch.sum 函數(shù)中的一個(gè)非常簡單的加法實(shí)現(xiàn)錯(cuò)誤,位于上游代碼中。特別搞笑的是:我們其實(shí)主要是在用 Triton 和 XLA,但在某些邊緣情況、某些無關(guān)緊要的算子上,我們就會(huì)回退到 PyTorch 默認(rèn)實(shí)現(xiàn)。

而其中一段數(shù)據(jù)剛好觸發(fā)了 PyTorch 的這個(gè)錯(cuò)誤路徑,造成了一個(gè)非常低頻的 bug,具體表現(xiàn)是非法內(nèi)存訪問,內(nèi)存偏移計(jì)算錯(cuò)了。

最精彩的是:當(dāng)我們工程師找到這個(gè) bug 時(shí),他說:“我定位到了,是這一行代碼。我們打個(gè)補(bǔ)丁看看是不是能解決所有問題。”

結(jié)果——所有奇怪的 bug 全都解決了。

這些癥狀之前看起來完全不一樣,結(jié)果源頭是一個(gè)代碼路徑。我們當(dāng)時(shí)還把 Slack 里幾個(gè)“多假設(shè)討論頻道”都重命名成了“單 bug 理論頻道”,那一刻真的特別有趣!

奧特曼:這個(gè)事是訓(xùn)練流程中什么時(shí)候發(fā)生的?我記不太清了。

Amin Tootoonchian:其實(shí)這個(gè) bug 從訓(xùn)練早期就一直存在,大概覆蓋了整個(gè)訓(xùn)練的 40%。

奧特曼:你們還記得是誰發(fā)現(xiàn)的嗎?

Amin Tootoonchian:我記得當(dāng)時(shí)我們在分析一連串的 kernel 執(zhí)行序列,其中第 2 個(gè) kernel 總是觸發(fā)非法內(nèi)存訪問。

那是一個(gè)我們寫的非常復(fù)雜的 kernel,大家都以為 bug 肯定在里面。于是很多很聰明的同事,一行一行看這個(gè) kernel,最終確實(shí)找到了 bug,修復(fù)之后解決了一部分問題,但還有一些 bug 仍然存在。

結(jié)果有一天,有個(gè)工程師注意到:喂,這個(gè) kernel 的輸入之一,居然來自 PyTorch 的一個(gè)很偏門的代碼路徑。而我們剛好觸發(fā)了這個(gè)幾乎沒人會(huì)觸發(fā)的代碼分支。

于是他說:“是這里有問題?!?我們沒有什么復(fù)雜驗(yàn)證手段,只能“修個(gè)補(bǔ)丁,看崩潰還在不在”。

結(jié)果一修所有崩潰都沒了。

我們才知道:這個(gè)超低頻 bug,其實(shí)一直在造成非常嚴(yán)重的隱患—— 大概每 100 次、甚至 1000 次訓(xùn)練步驟才崩一次,容易被忽略。

但我們有個(gè)信條就是:不該讓任何已知問題在訓(xùn)練中混過去。所以我們堅(jiān)持追查到底。

這個(gè)故事的重點(diǎn)就是:堅(jiān)持不放棄,哪怕是一個(gè)微不足道的 bug。

預(yù)訓(xùn)練人員,在正式訓(xùn)練后還有啥工作?

奧特曼:Alex,我知道大家可能能想象你訓(xùn)練前的生活很忙,但訓(xùn)練開始后,你的日常是什么樣?是在那兒“盯著 loss curve (損失曲線:模型在訓(xùn)練時(shí)會(huì)不斷試圖最小化損失函數(shù))看”嗎?你怎么安排?

Alex Paino:對,真的有很多時(shí)間都在看 loss curve(笑),我們大家都干了很多這個(gè)事。

當(dāng)然除了看 loss,還有很多工作:

  • 和系統(tǒng)團(tuán)隊(duì)一起協(xié)作,把沒趕上上線的一些改進(jìn)盡快合入;
  • 持續(xù)監(jiān)控訓(xùn)練過程,看有沒有什么異常趨勢,比如某些統(tǒng)計(jì)指標(biāo)走偏了;
  • 機(jī)器學(xué)習(xí)這邊也不斷在想辦法優(yōu)化訓(xùn)練效果;
  • 數(shù)據(jù)這塊上線之后稍微輕松一點(diǎn),但其他方面仍然很忙。

Amin Tootoonchian:我們在 ML 層面也承擔(dān)了很多模型正確性的判斷任務(wù)。

你可以想象,早期的信號往往非常嘈雜,有時(shí)候感覺就像在“讀茶葉渣”預(yù)測未來一樣(笑)。

有些問題,你要等很久才能驗(yàn)證到底健康不健康——但我們有責(zé)任提前判斷。

奧特曼:那你們碰到“虛驚一場”的概率高嗎?就是看上去很糟,但其實(shí)沒事的情況?

Alex Paino:這種情況相當(dāng)常見,我覺得大概有一半時(shí)候是虛驚吧。我們這群人真的挺焦慮的,所以我們傾向于“盯得更緊一點(diǎn)”。

人類的“數(shù)據(jù)效率”碾壓AI,算法與人類仍有“天文數(shù)字”之差

奧特曼:好,我來幾個(gè)快問快答:如果你能在下一次大訓(xùn)練前解決一個(gè) ML 問題,你最希望搞清楚什么?

Alex Paino:我最想知道的是:在數(shù)據(jù)有限的特定領(lǐng)域里,我們該使用什么算法。

這個(gè)問題很大,答案也很復(fù)雜。

奧特曼:那如果你能對現(xiàn)有硬件做出一個(gè)改變,比如發(fā)明一種新的網(wǎng)絡(luò)結(jié)構(gòu)或者芯片架構(gòu),系統(tǒng)瓶頸現(xiàn)在卡在哪?

Amin Tootoonchian:我希望是在傳輸層或網(wǎng)絡(luò)層做改變?,F(xiàn)在很多錯(cuò)誤,其實(shí)是可以在“應(yīng)用層之下”就處理掉的。

我希望網(wǎng)絡(luò)傳輸能自己干好自己的事,別讓我擔(dān)心它的帶寬、可用性或者中斷問題。

奧特曼:那這個(gè)方向上,現(xiàn)在有沒有什么比較 promising 的方案?

Amin Tootoonchian:有的。

奧特曼:那我們線下聊(笑)。接下來兩個(gè)問題問 Dan:我們剛才談到“數(shù)據(jù)效率”,人類雖然在很多方面不完美,但我們學(xué)得超級快。

你覺得,我們現(xiàn)在最好的算法,距離人類的數(shù)據(jù)效率還差多遠(yuǎn)?

Dan Selsam:這個(gè)問題很難“蘋果對蘋果”地比較。

奧特曼:那你就憑直覺說說吧。

Dan Selsam:如果按語言理解來說,那差距是天文數(shù)字級別的遠(yuǎn)。

奧特曼:十萬倍那種?

Dan Selsam:對,差不多就那個(gè)量級吧。

當(dāng)然取決于你怎么定義“信息單位”,比如你要是把人類視神經(jīng)接收的每一位像素都算上,那算法上我們根本還沒搞清楚怎么從這些信息中抽象到“人類級別的文本理解”。

所以總結(jié)一下——我們算法上離人類還有很遠(yuǎn)的距離。

奧特曼:那第二個(gè)問題:你覺得我們目前這條技術(shù)路徑(比如 transformer +大數(shù)據(jù)訓(xùn)練)未來能實(shí)現(xiàn)人類級別的數(shù)據(jù)效率嗎?

還是說這條路根本到不了,也沒必要去到?

Dan Selsam:我覺得過去幾十年,深度學(xué)習(xí)的核心優(yōu)勢一直是算力效率。

除了數(shù)據(jù)和算力的增長,真正神奇的是:算法的微小進(jìn)步可以很好地“疊加”。

世界各地的研究者會(huì)陸續(xù)發(fā)現(xiàn)某個(gè)技巧能提升 10%、20%,然后這些技巧可以像“積木”一樣組合起來。

但我們在數(shù)據(jù)效率這塊,還沒有出現(xiàn)這種“全球范圍的 mobilization(大規(guī)模動(dòng)員)”。

主要原因是:之前不值得做這件事——數(shù)據(jù)夠多、算力才是瓶頸,搞數(shù)據(jù)效率意義不大。但現(xiàn)在我們進(jìn)入了一個(gè)新階段:數(shù)據(jù)開始成為關(guān)鍵資源,我們也會(huì)開始積累這方面的勝利:10% 這里,20% 那里,一步步前進(jìn)。

我覺得我們現(xiàn)在去預(yù)測是否會(huì)撞上某個(gè)“上限”,其實(shí)有點(diǎn)武斷。畢竟我們還沒有任何確切證據(jù)表明會(huì)撞墻。但可以肯定的是,人腦的運(yùn)行機(jī)制和我們現(xiàn)在做的任何微調(diào)算法都完全不同,所以我們必須持一點(diǎn)保留態(tài)度。不過我仍然認(rèn)為,我們有很多理由保持樂觀。

預(yù)訓(xùn)練Scaling帶來了強(qiáng)泛化,但不一定帶來強(qiáng)推理

奧特曼:下一個(gè)問題給你們?nèi)齻€(gè),回答可以是“是/否”或者補(bǔ)充解釋:人類未來會(huì)不會(huì)進(jìn)行一次同步使用一千萬張 GPU 的預(yù)訓(xùn)練任務(wù)?

Alex Paino:我不確定那會(huì)不會(huì)是個(gè)“預(yù)訓(xùn)練”任務(wù),但我覺得一定會(huì)有那種規(guī)模的訓(xùn)練任務(wù)。

奧特曼:也就是說,會(huì)有“一千萬張 GPU 同時(shí)工作的訓(xùn)練任務(wù)”?

Alex Paino:對,雖然可能和我們現(xiàn)在的訓(xùn)練方式完全不同,但一定會(huì)有某種形式的無監(jiān)督學(xué)習(xí)達(dá)到那種規(guī)模。

Amin Tootoonchian:我覺得我們可以稱之為“半同步(semi-synchronous)”,那個(gè)規(guī)模聽起來很誘人,我希望能看到。

奧特曼:你剛才用的是“半同步”這個(gè)說法,是吧?

Amin Tootoonchian:對,我覺得不會(huì)是完全同步的——畢竟自然法則擺在那里,不可能完全違背。

Dan Selsam:我覺得更可能的是一個(gè)“去中心化”的形態(tài)??隙〞?huì)有一千萬張 GPU 一起工作在某個(gè) AI 系統(tǒng)上,讓它學(xué)習(xí)和執(zhí)行任務(wù)。但就像大腦的不同部分不會(huì)同時(shí)溝通一樣,它們可能不會(huì)彼此時(shí)時(shí)通信。

奧特曼:合理。那么我們有沒有發(fā)現(xiàn):更大的預(yù)訓(xùn)練模型和更強(qiáng)的推理能力之間,有什么明顯的關(guān)聯(lián)?

Alex Paino:我們觀察到,更好的預(yù)訓(xùn)練往往可以整體抬升模型的智能水平,而且也有助于泛化能力的提升。而推理能力呢,它可能表現(xiàn)得更“跳躍”一些,或者說某些維度提升得更快。

這兩者其實(shí)是很好的互補(bǔ)。

奧特曼:那我再追問一點(diǎn):你們有沒有覺得有點(diǎn)奇怪——為什么預(yù)訓(xùn)練的泛化能力那么強(qiáng),幾乎能學(xué)到所有東西;但一旦我們專門教模型“推理”,它卻往往只在一個(gè)任務(wù)上表現(xiàn)突出?

Alex Paino:是的,這點(diǎn)挺有趣,但也不意外。

因?yàn)槟憧矗覀冇?xùn)練預(yù)訓(xùn)練模型的時(shí)候,用的是非常廣泛、多樣化的數(shù)據(jù),目標(biāo)本身就是“覆蓋盡可能多的領(lǐng)域”。但推理模型,尤其是強(qiáng)化學(xué)習(xí)類型,往往是在非常受限的環(huán)境中訓(xùn)練,你很難獲得穩(wěn)定的獎(jiǎng)勵(lì)信號和廣泛的訓(xùn)練場景。

Dan Selsam:我同意,而且我覺得還有一個(gè)關(guān)鍵差別是:預(yù)訓(xùn)練本質(zhì)上是一種壓縮過程。

壓縮意味著模型要識別數(shù)據(jù)中的聯(lián)系、類比和抽象結(jié)構(gòu)。而推理是對某個(gè)具體問題的處理,它有一種“思維的技藝”。

當(dāng)你訓(xùn)練模型去壓縮跨領(lǐng)域的數(shù)據(jù)時(shí),其實(shí)是在學(xué)更高層次的抽象,這正是預(yù)訓(xùn)練帶來的“廣義智能”。

系統(tǒng)擴(kuò)展的關(guān)鍵:不斷優(yōu)化聯(lián)合設(shè)計(jì)、更好地分配資源

奧特曼:說得好!我臨時(shí)想換個(gè)問題:未來系統(tǒng)擴(kuò)展的主要瓶頸會(huì)是什么?芯片?處理器?內(nèi)存?網(wǎng)絡(luò)?還是電力?

Amin Tootoonchian:系統(tǒng)的美妙之處在于:如果你進(jìn)行聯(lián)合設(shè)計(jì)(co-design),那么工作負(fù)載其實(shí)可以適應(yīng)你所構(gòu)建的基礎(chǔ)設(shè)施。

所以我們不能簡單說“網(wǎng)絡(luò)就是瓶頸”或“內(nèi)存帶寬是瓶頸”——我們可以調(diào)整資源需求分配,去構(gòu)建一個(gè)更加均衡的系統(tǒng)。

當(dāng)然,預(yù)訓(xùn)練和推理階段的答案可能也不同。

不過話說回來,內(nèi)存越多肯定越好。這是一個(gè)很難給出“單一答案”的問題。

奧特曼:那說到這個(gè),在準(zhǔn)備 GPT-4.5 的訓(xùn)練任務(wù)時(shí),你們的團(tuán)隊(duì)在模型規(guī)格設(shè)計(jì)上合作密切嗎?

Alex Paino:非常密切,甚至到我們希望用的矩陣尺寸都要一起優(yōu)化。

在這個(gè)項(xiàng)目中,從訓(xùn)練前的六到九個(gè)月開始,我們就在做系統(tǒng)和模型之間的深度協(xié)同設(shè)計(jì)。我們還專門做了一次大規(guī)模 de-risking run,目標(biāo)就是驗(yàn)證系統(tǒng)-ML 的協(xié)同在規(guī)?;?xùn)練中是否有效。

我覺得這是我們第一次在“協(xié)同設(shè)計(jì)”上投入這么大的精力,而且非常關(guān)鍵。

Amin Tootoonchian:沒錯(cuò),這是我們第一次真正意義上的系統(tǒng)-模型聯(lián)合架構(gòu)設(shè)計(jì)。

關(guān)鍵不是“微調(diào)哪個(gè)部分”,而是你必須主動(dòng)讓系統(tǒng)去“長出”你想要的性質(zhì),這些特性不會(huì)憑空出現(xiàn)。協(xié)同設(shè)計(jì)的過程決定了整個(gè)架構(gòu)的構(gòu)成方式,是系統(tǒng)側(cè)與模型側(cè)之間的連接橋梁。

Amin Tootoonchian:理想情況下,我當(dāng)然希望系統(tǒng)和模型完全解耦,各做各的,但現(xiàn)實(shí)中有時(shí)你必須為基礎(chǔ)設(shè)施的約束去做出結(jié)構(gòu)妥協(xié)。

很多時(shí)候我們追求的其實(shí)是一個(gè)“對稱型系統(tǒng)”——通信均衡、資源分配合理。

在這種情況下,協(xié)同設(shè)計(jì)就是我們最有力的工具。

奧特曼:那你覺得我們離你理想中的系統(tǒng)還有多遠(yuǎn)?你有沒有那種“我終于滿意了”的時(shí)刻?

Amin Tootoonchian:我們離理想還遠(yuǎn)得很,說實(shí)話。但這正是系統(tǒng)建設(shè)的樂趣:你總有一個(gè)理想藍(lán)圖,然后努力逼近它。我們不是為了空談理論,而是想盡辦法讓它變得現(xiàn)實(shí),盡量貼近那個(gè)理想目標(biāo)。

說實(shí)話,這可能是做系統(tǒng)最令人興奮的階段了。你能提出假設(shè),然后很快驗(yàn)證自己的設(shè)計(jì)是不是對的。過去,我們做出一個(gè)“優(yōu)雅系統(tǒng)設(shè)計(jì)”,要靠時(shí)間慢慢驗(yàn)證;現(xiàn)在,我們手上有算力、有目標(biāo)、有問題,我們可以迅速去驗(yàn)證自己的決策是否有效。

奧特曼:那你們團(tuán)隊(duì)在規(guī)劃一次訓(xùn)練時(shí),會(huì)有多少精力放在“系統(tǒng)設(shè)計(jì)約束”上?

Alex Paino:非常多。我覺得從 GPT-4.5 開始,我們在模型架構(gòu)方面就已經(jīng)進(jìn)入一個(gè)新階段。

我們不斷有新的探索,繼續(xù)推進(jìn)協(xié)同設(shè)計(jì),也在考慮如何為下一代硬件預(yù)留空間。

其實(shí)現(xiàn)在已經(jīng)有不少令人振奮的成果了。

奧特曼:好,換一個(gè)問題:為什么無監(jiān)督學(xué)習(xí)有效?

Dan Selsam:因?yàn)樗举|(zhì)上是“壓縮”。你可以用一個(gè)更哲學(xué)的理論來解釋:Solomonoff 歸納法。

它認(rèn)為,一個(gè)理想智能體不知道自己身處哪種宇宙,所以它會(huì)考慮所有可能的宇宙,其中越簡單的宇宙被賦予更高概率。它是完全貝葉斯的,每次獲取新信息時(shí)都會(huì)更新自己的信念。

而預(yù)訓(xùn)練模型在做的,其實(shí)就是在試圖找出一個(gè)“最短程序”來解釋人類世界中的所有數(shù)據(jù),這是一種對理想智能行為的近似。

奧特曼:那為什么“預(yù)測下一個(gè) token”可以實(shí)現(xiàn)這種壓縮呢?

Dan Selsam:這個(gè)問題其實(shí)挺微妙的。統(tǒng)計(jì)學(xué)上曾經(jīng)有個(gè)類似的悖論:為什么深度網(wǎng)絡(luò)能泛化,而它們看上去并沒有壓縮數(shù)據(jù)?

你看,傳統(tǒng)統(tǒng)計(jì)里,模型小、數(shù)據(jù)多,模型能擬合數(shù)據(jù),說明它“壓縮”了信息。

但現(xiàn)在的預(yù)訓(xùn)練模型本身非常龐大,甚至跟數(shù)據(jù)量是同級別的, 那它到底是在壓縮、還是只是記憶?這就是核心謎題。

Dan Selsam:當(dāng)然,也有批評者會(huì)說,預(yù)訓(xùn)練只是記憶和插值,是表層的、不智能的。

但其實(shí)有一種角度可以讓我們看到:預(yù)訓(xùn)練模型其實(shí)是一個(gè)“壓縮器”,雖然是不那么直觀的方式。

這個(gè)思路叫做 Prequel Compression(前向壓縮)。它的核心觀點(diǎn)是:如果一個(gè)模型能在訓(xùn)練中學(xué)得很快,就說明它其實(shí)是個(gè)優(yōu)秀的壓縮器。

即便模型權(quán)重很大,但“可執(zhí)行文件”并不需要存儲所有權(quán)重 —— 它可以從零開始預(yù)訓(xùn)練出一個(gè)“解壓器”。這意味著數(shù)據(jù)本身可以用非常少的位數(shù)進(jìn)行編碼。

所以從這個(gè)角度看,預(yù)訓(xùn)練確實(shí)是一個(gè)非常有效的壓縮過程,也正是它能帶來智能的原因。

奧特曼:你們還有什么想補(bǔ)充的嗎?

Alex Paino:沒有了,很精彩。

Amin Tootoonchian:我也是,謝謝你。 

再談Scaling Laws:為何有效、為何這是符合宇宙規(guī)律的

Dan Selsam:我想順便提一個(gè)我們之前沒提到的點(diǎn):“度量指標(biāo)的選擇”是一個(gè)極其重要的學(xué)科。

你在做 scaling laws(擴(kuò)展法則)和機(jī)器學(xué)習(xí)實(shí)驗(yàn)時(shí),最后的結(jié)果高度依賴于你選用的度量方式。

奧特曼:你具體指什么?能展開說說嗎?

Dan Selsam:你要不要來講講?

Alex Paino:我們說的“度量”,其實(shí)主要是:你在哪個(gè)測試集上去評估模型的“困惑度(perplexity)”。

Dan Selsam:是的,如果你光看 perplexity,很多人會(huì)誤以為我們是在看什么“大學(xué)測試題”。

Alex Paino:對,我們要不要解釋一下什么是 perplexity?

Dan Selsam:值得說說。

我們總是很想用人類可讀的測試來評估模型的智能——但如果你這么做,可能反而會(huì)鼓勵(lì)模型靠記憶取勝,而不是變聰明。

市面上幾乎所有測試題,在互聯(lián)網(wǎng)上都能找到類似版本。而如果你訓(xùn)練數(shù)據(jù)包含了整個(gè)互聯(lián)網(wǎng),那模型考這些題其實(shí)就不算本事了。

所以目前業(yè)內(nèi)更主流的做法是:看模型在一組“高質(zhì)量、未見過的數(shù)據(jù)”上的壓縮效果。但就算這樣,如果你對這個(gè)“held-out 數(shù)據(jù)集”選擇不夠嚴(yán)格, 而它又跟訓(xùn)練集太像,那優(yōu)化訓(xùn)練算法只會(huì)讓模型更容易記憶,從而假裝自己變聰明了。

Alex Paino:是的,我們不想只測“記憶能力”,我們追求的是泛化能力。

特別是“分布外泛化”(Out-of-distribution generalization)。所以我們對驗(yàn)證集的要求非常高:哪怕它和訓(xùn)練集有一點(diǎn)點(diǎn)重合,都會(huì)毀掉我們的 scaling laws 分析。

這點(diǎn)特別關(guān)鍵。

奧特曼:那你覺得目前我們手頭最好的測試集是哪一個(gè)?

Alex Paino:我們自己的內(nèi)部代碼庫。我們知道它不在外網(wǎng),很適合當(dāng)驗(yàn)證集。

奧特曼:這個(gè)驗(yàn)證集也被用于很多實(shí)驗(yàn)吧?它還是最穩(wěn)的嗎?

Dan Selsam:是的,依然是最有效的工具。我們甚至開玩笑說,一個(gè)模型的“靈魂”就藏在它壓縮“內(nèi)部代碼庫”的能力里。

奧特曼:這聽起來像是一種“自指的、遞歸的哲學(xué)問題”……

Dan Selsam:一個(gè)模型如果在“內(nèi)部代碼庫”上的 loss 很低,那你就能預(yù)測它未來會(huì)有怎樣的表現(xiàn)。這甚至可以告訴你,它在“哲學(xué)系研究生”的眼中,會(huì)展現(xiàn)出怎樣的細(xì)膩理解力(笑)。

奧特曼:確實(shí)不可思議!說到這里,我想問個(gè)“收尾大問題”:整個(gè) GPT-4.5 的訓(xùn)練,投入了巨大人力、時(shí)間、金錢……

它其實(shí)就是在驗(yàn)證一件事:Scaling Laws 真的有效嗎?能走多遠(yuǎn)?

現(xiàn)在看來,它確實(shí)有效,而且可能還能繼續(xù)有效很久。我已經(jīng)把 scaling laws 當(dāng)成類似“量子力學(xué)”那樣的規(guī)律接受了—— 但我還是搞不懂,為什么 scaling laws 是宇宙的屬性?

Amin Tootoonchian:我可以先說一點(diǎn)。

Dan Selsam:從哲學(xué)角度講,“壓縮越多,智能越強(qiáng)”這件事是有堅(jiān)實(shí)理論基礎(chǔ)的。但問題在于:為什么你訓(xùn)練更大的模型、更久,它就能“壓縮”得更多?我最喜歡的一個(gè)解釋是:這個(gè)世界的數(shù)據(jù)中,有用的概念其實(shí)是稀疏分布的,而且這是一種冪律分布:比如最重要的前 100 個(gè)概念,只在大約 1% 的文檔中出現(xiàn)。這說明世界是“長尾”的。

奧特曼:那是不是說,如果我們能構(gòu)建一個(gè)完美的數(shù)據(jù)集,再配上高效算法,Amin 就可以回家退休了?

Dan Selsam:也許可以(笑)。這意味著,只要你在“數(shù)據(jù)選擇”上變得更聰明,就有可能獲得指數(shù)級的算力節(jié)省。

但現(xiàn)實(shí)中,我們還是主要在“被動(dòng)地?fù)茢?shù)據(jù)”。如果你只是海量采集數(shù)據(jù),你每擴(kuò)充 10 倍的訓(xùn)練規(guī)模,可能只能挖掘“尾部新增”的幾個(gè)知識點(diǎn)。而那個(gè)尾巴還在不斷延伸。不過——正如你說的,我們確實(shí)有可能用更聰明的方式去挖它。

奧特曼:我覺得我們就停在這吧,非常感謝你們。太棒了,很有趣!

 本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦