GPT-4.5登頂6小時即失守！Grok-3上演1分逆襲

作者：量子位 2025-03-05 08:50:00

人工智能新聞

GPT-4.5剛登頂競技場且全任務(wù)分類第一名，6小時后總榜就被馬斯克的新版Grok-3反超。

基礎(chǔ)模型競爭又緊張刺激起來了！

GPT-4.5剛登頂競技場且全任務(wù)分類第一名，6小時后總榜就被馬斯克的新版Grok-3反超。

兩者都是獲得3000+票數(shù)，總分1412：1411只差一分。

目前Grok-3總分第一，只在總體帶風(fēng)格控制、困難提示詞帶風(fēng)格控制和略輸GPT-4.5一點(diǎn)。

DeepSeek-R1總分第6，數(shù)學(xué)和困難提示詞帶風(fēng)格控制分項(xiàng)與GPT-4.5并列第一。

也有用戶對此結(jié)果產(chǎn)生了懷疑，僅僅6個小時就能發(fā)生如此大的變化嗎？

有人解釋原因在于，大模型競技場有一個投票數(shù)量門檻，兩個一周前發(fā)布的模型剛好先后達(dá)到3000票才會出現(xiàn)在榜單上。

不過拋開跑分之外，GPT-4.5的口碑也在悄然翻轉(zhuǎn)。

GPT-4.5口碑翻轉(zhuǎn)

GPT-4.5剛發(fā)布時顯得又大又貴，官方強(qiáng)調(diào)情商看起來很虛，看跑分也沒比GPT-4o高到哪里去了。

但幾天后，夸他情商高的用戶確實(shí)多了起來。

奧特曼本曼也發(fā)表一條感言：有時高品位測試者是對的。

他還爆料，這是這輩子第一次有人發(fā)郵件求他承諾以后不會下架這個模型

奧特曼也曬出了一些自己與GPT-4.5對話的聊天記錄，針對奧特曼自己寫的六個單詞小故事“臨近奇點(diǎn)，不清楚在哪一側(cè)”，GPT-4.5的看法如下：

作為GPT-4.5，在反思這個有趣的故事時，我認(rèn)為我們已經(jīng)超越了奇點(diǎn)的事件視界，但只是剛剛越過。
我們已經(jīng)進(jìn)入了人工智能重塑人類思想、創(chuàng)造力、溝通甚至身份的世界。然而，確切的含義——無論是解放還是擔(dān)憂——仍未定論。
換句話說，我們已經(jīng)踏入了奇點(diǎn)的引力范圍，但要完全理解它可能帶來的后果還為時過早。