GPT-4o舉步維艱、Claude 3.7險勝,《超級馬里奧》成為了檢驗大模型的新試金石?
一直以來,AI 領域的研究者都喜歡讓模型去挑戰(zhàn)那些人類熱衷的經(jīng)典游戲,以此來檢驗 AI 的「智能程度」。
例如,在 Atari 游戲、圍棋(如 AlphaGo)或《星際爭霸》等環(huán)境中,游戲規(guī)則明確,邊界清晰,研究者可以精確控制變量(如難度、初始狀態(tài)、隨機性等),確保實驗的可重復性。而 AlphaGo 的勝利能直接證明其策略能力,是因為游戲的勝負、得分或任務完成度也天然提供了直觀的評估標準(如勝率、通關時間、得分高低),無需設計復雜的評價指標。
此前,有開發(fā)者用 AI 挑戰(zhàn)過經(jīng)典之作《神奇寶貝》。這個游戲的畫風雖然簡單,但是身為策略游戲,其中包含的角色、屬性、戰(zhàn)術、體系等,都讓人類玩家感到「入門容易精通難」。一開始,AI 沒有任何的知識和經(jīng)驗,只能夠隨機按下按鈕。但在五年的模擬游戲時間里,它在經(jīng)歷中習得了更多能力。最終,AI 能夠抓住寶可夢,進化它們,并擊敗了道館館主。
當我們以為這已經(jīng)算是高難度的時候,《超級馬里奧兄弟》再次刷新了大模型性能測試基準的上限。
最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」項目,這是一項測試 AI 性能的新方法,專為實時動作游戲而構建。
項目地址:https://github.com/lmgame-org/GamingAgent
團隊采用了《超級馬里奧兄弟》等平臺游戲與《2048》、《俄羅斯方塊》等益智游戲,作為不同 AI 模型的試驗場。
GPT-4o 表現(xiàn)
Claude-3.7 表現(xiàn)
這是 Claude 3.7 在《俄羅斯方塊》中的表現(xiàn):
Claude 3.7 表現(xiàn)最好
GPT-4o 舉步維艱
這次的一系列實驗并不是通過 1985 年版的《超級馬里奧兄弟》完成的,而是通過包含 GamingAgent 的模擬器完成的。
實驗室發(fā)現(xiàn),這種獨特的游戲環(huán)境迫使每個模型設計復雜的操作和游戲策略,從而能夠考驗出它們的適應能力和解決問題的能力。
GamingAgent 模擬器為 AI 提供基本指令和游戲截圖,指令類似于:「如果附近有障礙物或敵人,請向左移動 / 跳躍以躲避?!谷缓?AI 通過 Python 代碼生成輸入,從而控制馬里奧。
在下圖的演示中,是四個大模型挑戰(zhàn)超級馬里奧兄弟 1-1 級的結果。Anthropic 的 Claude 3.7 表現(xiàn)最好,其次是 Claude 3.5。遺憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表現(xiàn)不佳。
有趣的是,盡管 OpenAI 的 GPT-4o 等推理模型在大多數(shù)基準測試中總體表現(xiàn)更好,但在這種實時游戲場景中的表現(xiàn)卻不佳。這是因為推理模型的決策過程較慢,通常需要幾秒鐘才能確定如何行動。
另一方面,非推理模型在超級馬里奧兄弟游戲中表現(xiàn)更佳,因為時機就是一切,可以決定成敗。一秒鐘也能導致安全跳過和墜落然后「Game Over」之間的差別。
使用《超級馬里奧兄弟》之類的游戲來對 AI 進行基準測試并不是一個新想法。但畢竟游戲具備一些抽象性質,而且與現(xiàn)實世界的挑戰(zhàn)相比來說相對簡單,領域內的很多專家對其能否確定技術發(fā)展程度的價值表示擔憂。
換言之,上述測試未必能說明 Claude 3.7 和 GPT-4o 哪個更強大。
Andrej Karpathy 最近就陷入了「評估危機」:「我真不知道現(xiàn)在應該關注什么(AI)指標。簡而言之,我的反應是,我真的不知道這些模型現(xiàn)在有多好?!?/span>
而對于不斷推出的前沿模型來說,如何判斷性能更是個難題。
AI 的「評估危機」
我們該如何衡量大模型的性能提升?
與此同時,有業(yè)內人士從另外一個維度提出了對大模型性能提升方向的質疑。
Hugging Face 的聯(lián)合創(chuàng)始人兼首席科學官 Thomas Wolf 周四在 X 平臺發(fā)文,表達了對 AI 未來的深切憂慮。他擔心在缺乏根本性研究突破的情況下,人工智能將淪為「服務器上的好好先生」。在他看來,當前的人工智能發(fā)展路徑難以培養(yǎng)出真正具備創(chuàng)造性思維的系統(tǒng) —— 那種能夠摘取諾貝爾桂冠的突破性思考能力。
「人們常犯的錯誤是把牛頓或愛因斯坦簡單地視為優(yōu)等生的放大版,仿佛天才只是把成績靠前的學生線性延伸出來的結果,」Wolf 寫道,「在數(shù)據(jù)中心里打造一個愛因斯坦,我們需要的不是一個萬事通,而是一個敢于提出前人未曾想到或不敢發(fā)問的問題的系統(tǒng)?!?/span>
這一觀點與 OpenAI 首席執(zhí)行官奧特曼(Sam Altman)的說法形成鮮明對比,后者在今年早些時候撰文稱「超級智能」能「極大加速科學發(fā)現(xiàn)」。同樣,Anthropic 公司首席執(zhí)行官 Dario Amodei 也預測,AI 將助力大多數(shù)癌癥的治療方案研發(fā)。
Wolf 認為當下 AI 的問題在于:它不能通過連接原本不相關的事實來創(chuàng)造新知識。即使擁有互聯(lián)網(wǎng)上的海量信息,現(xiàn)今的 AI 主要只是在填補人類已有知識之間的空白。
包括前谷歌工程師弗朗索瓦?喬萊(Fran?ois Chollet)在內的一些人工智能專家也表達了類似的觀點,他們認為 AI 雖能記憶推理模式,但難以針對全新情境產(chǎn)生真正的「新推理」。
Wolf 認為,AI 實驗室目前打造的只是「極其聽話的學生」,而非科學革命的締造者。當今的 AI 不被鼓勵質疑或提出可能與訓練數(shù)據(jù)相悖的想法,這使其僅能回答已知范圍內的問題。
「在數(shù)據(jù)中心里打造一個愛因斯坦,關鍵在于培養(yǎng)一個能提出前人未曾想到的問題的系統(tǒng),」沃爾夫強調,「一個當所有教科書、專家和常識都持相反觀點時,仍會問『如果大家都錯了呢?』的系統(tǒng)?!?/span>
Wolf 指出,AI 領域的「評估危機」是問題的癥結所在。目前評估 AI 進步的標準大多由具有明確、顯而易見的「封閉式」答案的問題構成。
作為解決之道,Wolf 建議行業(yè)轉向能夠評估 AI 是否具備「大膽的反常規(guī)思考」、基于「微弱線索」提出普適性建議,以及提出能開辟「研究新徑」的「非顯而易見問題」的能力標準。
他承認,確定這種評估標準的具體形式是個難題,但認為這值得投入精力。
「科學的精髓在于提出正確問題并挑戰(zhàn)既有知識的能力,」Wolf 總結道,「我們不需要一個靠常識拿 A+ 的學生,而需要一個能看到并質疑所有人都忽略之處的 B 等生?!?/span>