GPT-4.5發(fā)布了,參數(shù)規(guī)模可能在3-5萬億之間,宣稱是最好的聊天模型,但有“強(qiáng)弩之末”的感覺
2月28日OpenAI發(fā)布了GPT-4.5,OpenAI稱這是其迄今為止最大的預(yù)訓(xùn)練模型。我有點(diǎn)期待GPT-4.5會(huì)帶來令人振奮的突破。然而,從官方披露的信息以及實(shí)際表現(xiàn)來看,GPT-4.5沒有展現(xiàn)出超越前代模型的顯著優(yōu)勢。有點(diǎn)“強(qiáng)弩之末”的感覺??赡茉俅悟?yàn)證了業(yè)界比較廣泛的認(rèn)知:“單純擴(kuò)大模型參數(shù)規(guī)模,對(duì)性能提升的邊際效應(yīng)正在遞減” 。接下來分幾個(gè)章節(jié),談?wù)勎业母惺堋?/p>
期待與現(xiàn)實(shí)的落差
GPT-4.5 被 OpenAI 定位為“our largest and best model for chat yet”,暗示其在規(guī)模和技術(shù)能力上的重要進(jìn)展。然而,與兩年前 GPT-4發(fā)布時(shí)的轟動(dòng)效應(yīng)相比,GPT-4.5 的亮相顯得低調(diào)(奧特曼沒有參加)。官方文章提到,其核心進(jìn)步在于通過擴(kuò)展無監(jiān)督學(xué)習(xí)(unsupervised learning,可以理解為“預(yù)訓(xùn)練”)提升了知識(shí)廣度和可靠性,但并未強(qiáng)調(diào)推理能力的顯著增強(qiáng)。我認(rèn)為,盡管 GPT-4.5 在某些領(lǐng)域(如減少幻覺)有所改進(jìn),但整體表現(xiàn)并未帶來顛覆性的驚喜。
GPT-4.5 的技術(shù)細(xì)節(jié)與參數(shù)規(guī)模估測
OpenAI 未公開 GPT-4.5 的具體參數(shù)數(shù)量,但從其描述和行業(yè)趨勢來看,我們推測一下。
- 基準(zhǔn)參考GPT-4的參數(shù)規(guī)模據(jù)推測約為1.76萬億(https://en.wikipedia.org/wiki/GPT-4)。
- 計(jì)算資源官方文件提到GPT-4.5在Microsoft Azure AI超級(jí)計(jì)算機(jī)上訓(xùn)練,這表明其計(jì)算需求可能遠(yuǎn)超GPT-4。
- 模型架構(gòu)假設(shè)GPT-4.5可能延續(xù)了Mixture of Experts(MoE)架構(gòu)(https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ ),MoE架構(gòu)能在參數(shù)規(guī)模增加的同時(shí)優(yōu)化計(jì)算效率。結(jié)合MoE模型的參數(shù)分布特點(diǎn),我推測 GPT-4.5 的參數(shù)規(guī)模在3萬億至5萬億之間。
- 性能反饋驗(yàn)證官方數(shù)據(jù)表明,GPT-4.5在SimpleQA準(zhǔn)確率上為62.5%,相較GPT-4o略有提升。暗示參數(shù)規(guī)模的增長未帶來比例相當(dāng)?shù)男阅茉鲆妫С制湟?guī)??赡茉?萬億至5萬億的假設(shè)——足夠大,但未達(dá)天文數(shù)字。
更大規(guī)模為何未帶來耀眼表現(xiàn)?
GPT-4.5 的訓(xùn)練聚焦于擴(kuò)展無監(jiān)督學(xué)習(xí),通過增加計(jì)算資源和數(shù)據(jù)量提升模型的“世界知識(shí)深度”(deeper world knowledge)。官方稱其在知識(shí)問答中的幻覺率降低,且在日常查詢(63.2% 勝率)和專業(yè)查詢(56.8% 勝率)中優(yōu)于 GPT-4o。此外,GPT-4.5 未引入顯著的推理增強(qiáng)機(jī)制,而是強(qiáng)化了與人類的協(xié)作能力(如更高的“EQ”和 steerability)。這些特點(diǎn)表明,OpenAI 在GPT-4.5中選擇了“廣度優(yōu)先”的發(fā)展路徑,而非“深度突破”。
盡管 GPT-4.5 的參數(shù)規(guī)模可能達(dá)到 3 萬億,其性能提升卻遠(yuǎn)不如預(yù)期。例如,在學(xué)術(shù)基準(zhǔn)測試中,GPT-4.5 的 AIME 2024(數(shù)學(xué)競賽)得分僅為 36.7%,雖高于 GPT-4o 的 9.3%,但遠(yuǎn)不及推理模型 OpenAI o1 的 87.3%。同樣,在 SWE-Bench Verified(編碼任務(wù))中,GPT-4.5 的 38.0% 表現(xiàn)雖優(yōu)于 GPT-4o(30.7%),但并未展現(xiàn)出壓倒性優(yōu)勢。這種“規(guī)模大、增益小”的現(xiàn)象可能源于以下原因:
- 數(shù)據(jù)質(zhì)量瓶頸訓(xùn)練數(shù)據(jù)的總量雖增加,但其中人類有效知識(shí)的比例可能不足。GPT-4.5 在SimpleQA上幻覺率降低,表明其知識(shí)記憶更準(zhǔn)確,但推理能力未見顯著增強(qiáng)。這可能因?yàn)閿?shù)據(jù)中缺乏足夠的高質(zhì)量邏輯推理樣本,導(dǎo)致模型在“記憶”上進(jìn)步,卻在“思考”上停滯。
- 架構(gòu)效率限制我們可以用圖書館來類比Transformer架構(gòu)的大模型。參數(shù)規(guī)??梢砸暈閳D書館的書架數(shù)量。通常來說,書架越多,能容納的書籍(知識(shí))就越多。但當(dāng)參數(shù)規(guī)模擴(kuò)大到一定程度時(shí),可能會(huì)出現(xiàn)效率遞減的情況。這就好比,一味地?cái)U(kuò)建圖書館、增加書架,但如果新增加的書籍大多是內(nèi)容重復(fù)的,或者是質(zhì)量低劣、雜亂無章的,那么讀者并不會(huì)因?yàn)閳D書館變大了就變得更聰明——模型的輸出質(zhì)量也不會(huì)因此顯著提升。
反過來,如果模型參數(shù)規(guī)模過小,則其知識(shí)記憶能力會(huì)相對(duì)較差。 仍然以圖書館為例:如果一個(gè)圖書館很小,書架數(shù)量有限,卻要容納海量的書籍,那么很可能只能將每本書的內(nèi)容進(jìn)行大幅精簡,甚至只保留核心概要。這樣一來,很多知識(shí)的細(xì)節(jié)就會(huì)丟失,讀者也就無法獲取全面、深入的信息。但是有必要說明的是,很多小模型的推理能力不差,原因是“推理”與概念體系更相關(guān),概念體系更容易通過知識(shí)點(diǎn)的壓縮來達(dá)到,這也是之前Ilya為什么說:Compression is Intelligence!
轉(zhuǎn)向Testing Time Computing Scaling Law
面對(duì)預(yù)訓(xùn)練的局限,業(yè)界已經(jīng)將目光轉(zhuǎn)向Testing Time Computing Scaling Law,即通過推理時(shí)增加計(jì)算量提升性能。這種趨勢在DeepSeekmR1, OpenAI的o1/o3,Qwen QwQ等模型中已有體現(xiàn),它們通過更長的思維鏈推理(chain-of-thought)顯著提高了復(fù)雜任務(wù)的解決能力。
本文轉(zhuǎn)載自??后向傳播??,作者: 張發(fā)恩 ????
