異議!頂流AI決戰(zhàn)「逆轉(zhuǎn)裁判」:o1險(xiǎn)勝Gemini 2.5登頂、Llama 4零分墊底
當(dāng)談到AI為何能從「預(yù)測(cè)下一個(gè)詞」中誕生智慧時(shí),Ilya Sutskever曾用一個(gè)生動(dòng)的比喻來(lái)解釋。
想象你在讀一本懸疑小說(shuō),如果僅憑前面的線索就能在最后一頁(yè)推斷出罪犯是誰(shuí),那么你對(duì)這個(gè)故事的理解無(wú)疑是深刻的。
同樣,AI通過(guò)學(xué)習(xí)海量文本,掌握了從字面到語(yǔ)義的「線索」,展現(xiàn)出驚人的智能。
受此啟發(fā),UCSD的華人研究者用游戲《逆轉(zhuǎn)裁判》(Ace Attorney)測(cè)試AI的推理能力。
《逆轉(zhuǎn)裁判》以錯(cuò)綜復(fù)雜的故事情節(jié)和扣人心弦的法庭對(duì)決著稱。
這款游戲堪稱測(cè)試模型的完美舞臺(tái):AI化身偵探,收集線索、揭露矛盾,最終挖掘真相。
研究者讓當(dāng)前最頂尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆轉(zhuǎn)裁判》中接受考驗(yàn),看它們能否喊出「反對(duì)!」,扭轉(zhuǎn)案情,揭開(kāi)謊言背后的真相。
和偵小說(shuō)一樣,模型玩家得把線索、證據(jù)串起來(lái),揭露證詞中的矛盾,抓住真兇。
測(cè)試中,AI模型要參與緊張的法庭盤問(wèn)環(huán)節(jié)。它要敏銳地找出證詞中的漏洞,拿出正確的證據(jù)進(jìn)行反駁。每個(gè)關(guān)卡有5次機(jī)會(huì),犯錯(cuò)空間有限。
團(tuán)隊(duì)測(cè)試了多款頂尖的AI多模態(tài)模型,包括o1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。
結(jié)果顯示,o1和Gemini 2.5 Pro表現(xiàn)最佳,均晉級(jí)第4關(guān)。雖然未能通關(guān),但o1在應(yīng)對(duì)最復(fù)雜案件時(shí),略勝Gemini 2.5 Pro一籌。
GPT-4.1與Claude 3.5表現(xiàn)相當(dāng)。盡管GPT-4.1據(jù)稱比GPT-4o有所提升,但這次測(cè)試中的表現(xiàn)與其持平。
Llama-4 Maverick一次沒(méi)對(duì),零分墊底!
為什么它很難?
《逆轉(zhuǎn)裁判》游戲?qū)I模型十分困難,主要是因?yàn)槟P托枰幸韵履芰Γ?/span>
- 長(zhǎng)文本推理:需要比對(duì)之前的對(duì)話和證據(jù),發(fā)現(xiàn)證詞中的矛盾點(diǎn)。
- 視覺(jué)理解:準(zhǔn)確識(shí)別能反駁虛假陳述的圖片。
- 策略決策(游戲設(shè)計(jì)):動(dòng)態(tài)變化的案件中,決定何時(shí)追問(wèn)、出示證據(jù)或暫不行動(dòng)。不僅要給出答案,還要在正確時(shí)機(jī)采取行動(dòng)。
游戲設(shè)計(jì)要求AI把理解轉(zhuǎn)化為有情境依據(jù)的行動(dòng),讓它不只局限于處理文本或視覺(jué)任務(wù)。
因?yàn)锳I需要推理情境化的行動(dòng)空間,而非簡(jiǎn)單死記硬背,所以更不容易出現(xiàn)過(guò)擬合。
性價(jià)比哪家強(qiáng)
Gemini 2.5 Pro重新定義了性價(jià)比。
在性能相當(dāng)?shù)那闆r下,Gemini 2.5 Pro比o1-2024-12-17便宜6-15倍,甚至比GPT-4.1還便宜一點(diǎn)。
通過(guò)第1關(guān)的模型成本對(duì)比中,o1的API調(diào)用次數(shù)最少,總成本卻是最高的。
調(diào)用次數(shù)體現(xiàn)的是策略,而非推理能力。因?yàn)樯钊胪诰蜃C詞,自然會(huì)觸發(fā)更多請(qǐng)求。
進(jìn)入更高關(guān)卡后,隨著對(duì)話篇幅增加,o1的成本激增。
在第2關(guān)(一個(gè)很長(zhǎng)的案例)中,o1的成本超過(guò)$45.75,而Gemini 2.5 Pro僅需$7.89,差距驚人!
注意:
- Gemini 2.5 Pro使用內(nèi)置token計(jì)數(shù)方法,將所有圖片都按258個(gè)token計(jì)算,因此實(shí)際成本可能略高。
- o1隱藏推理內(nèi)容存在不確定性,其輸出成本也可能被低估了。
目前團(tuán)隊(duì)已將項(xiàng)目開(kāi)源,可以在里面查看如何設(shè)置游戲和LLM。
項(xiàng)目地址:https://github.com/lmgame-org/GamingAgent
除此之外,項(xiàng)目中還有更多經(jīng)典游戲能測(cè)試AI模型的性能。
推箱子游戲
推箱子(Sokoban)是一款經(jīng)典的單人游戲,以深邃的策略性著稱。
推箱子的玩法簡(jiǎn)單直觀,但挑戰(zhàn)性極高。
玩家在一個(gè)由方格組成的迷宮中操作角色,通過(guò)邏輯思考和規(guī)劃,將箱子推到目標(biāo)位置。
2048游戲
這是一款數(shù)字益智游戲,玩家通過(guò)滑動(dòng)方塊合并相同數(shù)字,最終目標(biāo)是合成2048方塊。
策略上,應(yīng)該優(yōu)先保持最大數(shù)字在角落,規(guī)劃滑動(dòng)方向以避免方塊堆積,靈活調(diào)整以應(yīng)對(duì)隨機(jī)出現(xiàn)的數(shù)字。
下圖可以看出,Claude 3.7 玩起2048來(lái)還是挺絲滑的,能持續(xù)玩很多步。相比之下,GPT 4o不知道為什么,玩上幾步就開(kāi)始卡上了。
俄羅斯方塊
俄羅斯方塊是一款風(fēng)靡全球的經(jīng)典游戲。
玩家需通過(guò)移動(dòng)和旋轉(zhuǎn)方塊,拼湊完整橫行以消除得分,盡可能延長(zhǎng)游戲時(shí)間或獲得高分。
此外,還有超級(jí)馬里奧、糖果粉碎傳奇等多款游戲。