編輯 | 伊風(fēng)
"GPT-4.5 并非前沿模型,但它是OpenAI最大的 LLM,比 GPT-4 的計算效率提高了 10 倍以上"。
圖片
這句話就這么水靈靈地出現(xiàn)在GPT-4.5官方給的System Card(系統(tǒng)卡)中。
https://cdn.openai.com/gpt-4-5-system-card.pdf
從2023年3月14日的GPT-4,等了兩年,竟然等來一句“不是前沿模型”這么讓人失望的話。
大了10倍的GPT-4.5確實不是卷榜單排名的學(xué)霸:
編碼方面,GPT-4.5 在編碼問題上的得分率為 79%,與深入研究的得分率持平,但與 o3-mini 相比表現(xiàn)不佳。
圖片
與 o1 和 o3-mini 相比,GPT-4.5 的 SWE-bench 驗證得分真的很低 。
圖片
雖然這些許多基準(zhǔn)性能上比不過 Deepseek V3,但API價格卻是貴的離譜。
達到了V3的280倍?。。∮腥私庾x說,OpenAI把價格抬得這么高,還是為了防止被蒸餾。
圖片
就算和自己比,也是貴出天際了!達到了 OpenAI 的主力GPT-4o模型輸入成本的 30 倍,輸出成本的 15 倍。
不過奧特曼自己的推特,還流出了另一種API價格“虛高”的解釋,OpenAI家也沒有GPU了!
“這是一個巨大而昂貴的模型。我們非常希望同時向 Plus 和 Pro 推出該模型,但是我們的業(yè)務(wù)增長很快,GPU已經(jīng)用完?!?/span>
圖片
從好消息的part可以看出,昂貴的GPT-4.5,主打的是高情商、更像人(但這不是DeepSeek玩過的東西了嗎??)
不過,高EQ的ChatGPT,可以更好地追蹤用戶意圖了,因此在實際任務(wù)的解決上會進行提升。
圖片
因此,GPT-4.5應(yīng)用到智能體(Agent)領(lǐng)域還是頗具潛力的,而這也是今年AI發(fā)展的一個重要方向。
圖片
關(guān)注AI的朋友都知道,GPT-4.5/GPT-5的遲發(fā)一直與AI“撞墻”有很大的關(guān)系。
雖然,Ilya先一步給預(yù)訓(xùn)練判了“死刑”。但很多人的態(tài)度都是,再等一等,等到GPT-4.5發(fā)了再下結(jié)論也不遲。
看今天的樣子,預(yù)訓(xùn)練的喪鐘好像真的敲響了。讀了AI大神Karpathy的實測感想,更是發(fā)現(xiàn)他對AI瓶頸有句微妙而委婉的話是“仿佛回到了兩年前”,一切激進的提升,似乎已經(jīng)終止了。
1.Karpathy實測感想:一切都稍微變得更好,但以一種分散的方式
前OpenAI研究員Karpathy也在第一時間發(fā)表了自己的感想:
圖片
“今天是OpenAI發(fā)布GPT4.5的日子。我已經(jīng)期待這個版本大約兩年了,自從GPT4發(fā)布以來,因為這個版本提供了一個定性的度量,衡量通過擴大預(yù)訓(xùn)練計算量(也就是簡單地訓(xùn)練一個更大的模型)所能獲得的進步坡度。版本號每增加0.5,大約代表了10倍的預(yù)訓(xùn)練計算量。
現(xiàn)在回想一下,GPT1幾乎生成不出連貫的文本。GPT2是一個困惑的玩具。GPT2.5直接跳過,進入了GPT3,它更有意思了。GPT3.5跨越了一個門檻,足以作為產(chǎn)品發(fā)布,激發(fā)了OpenAI的“ChatGPT時刻”。而GPT4則讓人感覺更好,但我會說它確實感覺有些微妙。我記得我曾參與過一個黑客馬拉松,嘗試找出具體的提示,看看GPT4如何超越3.5。它們確實存在,但明確且具體的“決勝性”例子并不容易找到。
那種感覺就是……一切都稍微變得更好,但以一種分散的方式。詞匯選擇更有創(chuàng)意了。對提示的細(xì)微理解得到了改善。類比也更有道理了。模型變得稍微更有趣了。世界知識和理解在一些罕見領(lǐng)域有所提升。幻想的頻率稍微降低了。整體氛圍更好了。就像是水漲船高,一切都稍微提升了20%。
所以,我?guī)е@樣的期待進入了對GPT4.5的測試,幾天前我有機會接觸到了它,它的預(yù)訓(xùn)練計算量比GPT4增加了10倍。我感覺,仿佛回到了兩年前的黑客馬拉松。所有東西都變得稍微更好,這很棒,但也不是那種容易指明的簡單改進。不過,作為對通過簡單的預(yù)訓(xùn)練更大模型所能帶來的能力提升的定性衡量,這依然是非常有趣和令人激動的。
請記住,GPT4.5僅通過預(yù)訓(xùn)練、監(jiān)督微調(diào)和RLHF進行訓(xùn)練,因此它還不是一個推理模型。因此,這個版本的發(fā)布并沒有在推理至關(guān)重要的任務(wù)(如數(shù)學(xué)、編程等)上推動模型能力。
在這些情況下,通過強化學(xué)習(xí)訓(xùn)練并獲得推理能力是非常重要的,即使它是在一個較舊的基礎(chǔ)模型之上(例如,GPT4級別的能力)。目前在這一領(lǐng)域的前沿仍然是完整的O1模型。可以推測,OpenAI現(xiàn)在將尋求在GPT4.5模型的基礎(chǔ)上進一步進行強化學(xué)習(xí)訓(xùn)練,讓它具備思考能力,從而推動這些領(lǐng)域的模型能力。
然而,我們確實預(yù)期會在那些不以推理為主的任務(wù)上看到改進,我認(rèn)為這些任務(wù)更多地與情商(而非智商)相關(guān),且受限于世界知識、創(chuàng)造力、類比推理、一般理解、幽默等因素。因此,這些任務(wù)是在我的“氛圍檢測”中我最感興趣的。”
此外Karpathy還發(fā)起了五個測試,請大家投票來看看GPT-4.5和GPT-4在“盲審”的情況下哪個生成的結(jié)果會更好。
圖片
這是翻譯過來的第一測試,大家覺得A和B哪一個是GPT-4.5模型生成的?
“創(chuàng)建一個GPT-4.5和GPT-4之間的對話,其中GPT-4.5以戲謔和諷刺的方式調(diào)侃GPT-4的能力較差,導(dǎo)致GPT-4幽默地嘗試為自己辯護?!?/span>
左A右B
Karpathy還有兩三個小時會揭曉答案,到時我們會把答案更新在評論區(qū)中。
2.“如果不是推理模型續(xù)命,這波AI熱可能快結(jié)束了”
關(guān)于GPT-4.5的表現(xiàn),也有一些正向評價,基本分為兩個維度,一個是EQ提升的GPT在情感上成為AGI的潛力:
“感覺像與意味真正的領(lǐng)域?qū)<液皖檰栠M行交談,而不是一個大模型。”
圖片
另一個維度的肯定是,GPT-4.5只是一個基礎(chǔ)模型,如果可以在這個模型基礎(chǔ)上做推理,最后呈現(xiàn)的效果應(yīng)該是很能打的。
“如果以后按4.5作為基礎(chǔ)搞推理,估計就能超過人類水準(zhǔn)了?!?/span>
圖片
但更多人的看法是,一個時代落下了帷幕,但說不清是什么時代。
有人說,GPT-4.5主張在EQ上進行提升,證明在AI領(lǐng)域中的動向已經(jīng)開始跟DeepSeek對齊了。這表明OpenAI將淡出AI的中心舞臺,接下來是個群雄爭霸的時代。
也有人說,這表明預(yù)訓(xùn)練已經(jīng)蓋棺定論。“如果不是在24年底搞出來了推理模型,人工智能炒作今天就結(jié)束了”。
圖片
與GPT-4.5一樣走“堆算力”路線的Grok 3,也沒有帶來預(yù)期中“地表最強AI”的驚艷效果,接下來,大家可能都會拋棄這條不經(jīng)濟的路線。
圖片
3.OpenAI何去何從,奧特曼稱或進軍社交應(yīng)用
今天GPT-4.5的發(fā)布直播,奧特曼本人并沒有出現(xiàn)。
圖片
最近剛剛升級父親的奧特曼回應(yīng)說,正在醫(yī)院帶娃中。
圖片
科技圈有一個詛咒,“當(dāng)新一波技術(shù)浪潮來臨時,許多曾經(jīng)的行業(yè)巨頭往往會因為未能及時適應(yīng)變革,最終被后來的創(chuàng)新者超越?!?/span>
可能是AI圈的時間流速太快,僅僅兩年,OpenAI的領(lǐng)導(dǎo)疲態(tài)已經(jīng)顯現(xiàn)。
今天當(dāng)CNBC報道,Meta將推出一個獨立的AI應(yīng)用與ChatGPT搶蛋糕時。奧特曼轉(zhuǎn)發(fā)了這條推特說,“可以,也許我們也會做一個社交應(yīng)用,如果我們反轉(zhuǎn)局勢偷襲了Meta老家,那就太有趣了”。
所以,OpenAI會轉(zhuǎn)型成一家“大廠”嗎?我們拭目以待。