自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Claude 3.7硬控馬里奧90秒，GPT-4o開局暴斃！Karpathy直呼基準(zhǔn)失效，游戲成LLM新戰(zhàn)場

作者：新智元 2025-03-04 08:40:00

人工智能新聞

Karpathy發(fā)出靈魂拷問，評估AI究竟該看哪些指標(biāo)？答案或許就藏在經(jīng)典游戲里！最近，加州大學(xué)圣迭戈分校Hao AI Lab用超級馬里奧等評測AI智能體，Claude 3.7結(jié)果令人瞠目結(jié)舌。

LLM評估基準(zhǔn)的「黃金標(biāo)準(zhǔn)」，正在失效？

一大早，AI大神Karpathy發(fā)出質(zhì)疑，「目前存在一種評估危機(jī)，我真的不知道現(xiàn)在該看哪些指標(biāo)了」。

諸如MMLU、SWE-Bench Verified、Chatbot Arena等這些基準(zhǔn)，各有自己的優(yōu)劣之處。

如果這些都不夠，那么游戲算不算？

畢竟，曾經(jīng)紅極一時的AlphaGo是圍棋界的頭號AI；就連OpenAI也早年涉足游戲領(lǐng)域，拿著自研AI在DOTA國際賽中取得亮眼的成績。

最近，Claude 3.7的出世，讓「寶可夢」一時間成為LLM評判的新標(biāo)桿。

UCSD Hao AI Lab再次出手，開源了一種全新的「游戲智能體」，能夠?qū)崟r讓計算機(jī)使用智能體（CUA）運(yùn)行解謎、益智等類型的游戲。

結(jié)果顯示，Claude 3.7 Sonnet玩超級馬里奧足足撐滿90s，直接碾壓了OpenAI、Gemini和自家前輩；而GPT-4o一上來就直接掛掉了……

谷歌選手Gemini 1.5 Pro首戰(zhàn)即敗，而且非常有規(guī)律地兩步一跳。到了Gemini 2.0雖多走了幾步，最終還是栽坑。

GamingAgent項(xiàng)目代碼已開源，下載安裝即可觀戰(zhàn)AI游戲大PK。

開源地址：https://github.com/lmgame-org/GamingAgent

「游戲智能體」演示demo

GPT-4.5反應(yīng)遲鈍，GPT-4o永遠(yuǎn)被第一個小怪殺死

GPT-4o總是被第一個小怪殺死，像極了操作很爛會被隊(duì)友噴的游戲菜雞。

短短20s，游戲就結(jié)束了。

相比之下，GPT-4.5的表現(xiàn)就好多了，起碼沒卡在第一個小怪。

但它的反應(yīng)還是很遲緩，幾乎是兩步一停。

跳過一個矮水管之前，也要猶豫片刻，感覺像是剛學(xué)會了游戲操作，還在蹣跚學(xué)步。

一個稍高點(diǎn)的水管，嘗試了7次，足足花了10s才跳了過去。

好不容易跳了過去，就撞到小怪死掉了。第一回合就這樣告終了。

更好笑的是，第二回合的時候，GPT-4.5又栽倒在了第一個小怪那里。畢竟和GPT-4o同屬于OpenAI家族，操作都比較菜（bushi）。

第三回合表現(xiàn)也比較一般，還不如第一回合。第一個矮水管就卡了半天，擱水管底下卡了快10s才想起來跳。

最后雖然絲滑地跳過了第二個水管，但還是被小怪殺死了，還沒有第一回合走得遠(yuǎn)。第一回合起碼跳過了第三個水管，雖說剛跳過就被殺了。

GPT-4.5完整視頻

Gemini 1.5兩步一跳，2.0栽進(jìn)坑里

到了谷歌這邊，Gemini 1.5 Pro首戰(zhàn)也不如意，沒能逃過第一個小怪的魔爪。

第二回合Gemini 1.5算是躲過了第一個小怪，甚至還碰到了問號箱，吃到了蘑菇。

有趣的是，和GPT-4.5兩步一停不同，Gemini 1.5是「兩步一跳」。

走了這么一小段路，一共就跳了9回。地板上也跳一跳，水管上也跳一跳。

最后也是跳過了第三根水管，甚至差點(diǎn)跳過了第四個，算是走得比GPT-4.5要遠(yuǎn)。

至于更新的Gemini 2.0 Flash，表現(xiàn)上不出意外地要好得多。

首先，跳得更大膽；其次，跳得也更流暢。

跳到了「前人」未曾涉足的更高的平臺上，而且10s就輕松跳過了前面三個水管。

雖然第二回合的時候也慘遭第一個小怪的毒手。

但最后走得比OpenAI家族和Gemini 1.5都遠(yuǎn)——跳過了第四根水管，栽倒在了一個沒能跳過去的坑中。

Gemini 2.0 Flash完整視頻

Claude 3.7 Sonnet發(fā)現(xiàn)隱藏獎勵

相比之下，Anthropic的Claude，就要驚艷多了。

相比于Gemini兩步一跳的操作，Claude 3.7的操作更加絲滑，走得也遠(yuǎn)很多。

尤其是在跳躍的時機(jī)上，顯得更有章法，碰到水管、碰到坑才會跳。

此外，還會有意識地通過跳躍來躲避小怪。

跳過了Gemini 2.0 Flash兩回合都沒跳過去的坑，Claude操作下的馬里奧終于是吃到了金幣；終于是碰到了除了哥布林（形似蘑菇）之外的小怪——庫巴（形似烏龜）；甚至還碰出了隱藏獎勵——超級星星。

最后是掉到了階梯平臺之間的坑里，結(jié)束了游戲。

AI大戰(zhàn)2048益智游戲，GPT-4o拿不出手

接下來，再看一個益智類的游戲2048。

可能很多人對這款游戲并不熟悉，規(guī)則是通過滑動進(jìn)行拼圖，玩家將帶有相同數(shù)字的方塊合并，達(dá)到可能最高的數(shù)值。

GPT-4o在挑戰(zhàn)過程中，因?yàn)樗伎歼^久，陷入困境。

而Claude 3.7雖多走了幾步，比GPT-4o強(qiáng)不少，但最終還是以失敗告終。

俄羅斯方塊，智商在線

那么Claude 3.7玩俄羅斯方塊的表現(xiàn)，又如何呢？

Anthropic開發(fā)者關(guān)系負(fù)責(zé)人Alex Albert稱贊道，「非?？幔∥覀冃枰衙恳豢铍娮佑螒蚨甲兂梢环N評估工具」。

已經(jīng)有網(wǎng)友在評論區(qū)許愿，讓Grok 3加入戰(zhàn)場。

看來，LLM評估即將開辟一條全新的路。

責(zé)任編輯：張燕妮來源：新智元

AI 游戲訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="xtkkg"></style>