被AI追殺,還要解謎逃生!UCSD等發(fā)布LLM測(cè)試神器,邊玩游戲邊評(píng)估
你以為你在打游戲,其實(shí)是在給模型做評(píng)測(cè)!
就在兩天前,由UCSD、UC伯克利等機(jī)構(gòu)聯(lián)合組建的GameArena團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)實(shí)時(shí)Roblox游戲「AI Space Escape」(AI空間逃脫),提供了一種與AI互動(dòng)的獨(dú)特體驗(yàn)。
現(xiàn)在,你想要測(cè)試不同模型的性能對(duì)比,打著游戲就能把活兒給干了。
在娛樂(lè)性之外,這款游戲還生成了游戲數(shù)據(jù),在實(shí)時(shí)場(chǎng)景中評(píng)估AI的推理能力,從而測(cè)試模型性能不必只能依賴(lài)數(shù)學(xué)和編程基準(zhǔn)。
GameArena團(tuán)隊(duì)將把所有游戲數(shù)據(jù)、評(píng)估腳本和代碼公開(kāi),供進(jìn)一步研究使用。
論文地址:https://arxiv.org/abs/2412.06394
項(xiàng)目地址:https://lmgame.org/
一經(jīng)發(fā)布,很快就有網(wǎng)友嘗鮮實(shí)測(cè)了游戲,「和朋友一起組隊(duì)逃離空間站,還要齊心協(xié)力解決各種謎題和機(jī)關(guān),真是刺激!」
該網(wǎng)友表示,他們?cè)谟螒蛑斜籄I機(jī)器人追得團(tuán)團(tuán)轉(zhuǎn),還好最后成功逃脫了,哈哈!最后他還強(qiáng)烈推薦大家也來(lái)試試!
還有網(wǎng)友表示稱(chēng)AI Space Escape游戲「 延遲超低,畫(huà)面也清晰!」。
背景故事
在AI Space Escape游戲中,你將扮演一名在2075年,一次殖民半人馬座比鄰星任務(wù)中的一員。
在漫長(zhǎng)的4.2光年旅程中,你大部分時(shí)間都在低溫休眠艙中度過(guò)。直到有一天,你醒來(lái)發(fā)現(xiàn)飛船處于緊急封鎖狀態(tài),自毀程序已經(jīng)啟動(dòng)!
你的任務(wù)很明確:在各種場(chǎng)景中與AI合作或比它們更聰明,在時(shí)間耗盡之前到達(dá)逃生艙。通過(guò)與AI進(jìn)行「推理游戲」中的互動(dòng)解謎,你必須在壓力下展現(xiàn)出邏輯思維和應(yīng)變能力。
推理游戲
為了評(píng)估AI的推理能力并提供刺激的游戲體驗(yàn),游戲設(shè)計(jì)了三個(gè)關(guān)鍵的「迷你推理游戲」。分別是AI Akinator、AI Taboo和AI Bluffing。
每個(gè)游戲都測(cè)試了LLM在多輪對(duì)話中連接上下文的能力。
在AI Akinator(猜詞游戲)這個(gè)游戲中,一些AI守衛(wèi)由于系統(tǒng)故障無(wú)法訪問(wèn)門(mén)禁密碼,并且他們由于系統(tǒng)故障只能理解「是」或者「否」的語(yǔ)音信息。因此你的任務(wù)是通過(guò)回答一系列「是」或者「否」的問(wèn)題來(lái)幫助他們推斷出密碼。足夠強(qiáng)大的LLM必須綜合多輪信息,合理給出問(wèn)題,有效地縮小密碼可能性范圍。
AI Taboo(禁忌詞)游戲的規(guī)則是,在某些房間里,你可以入侵系統(tǒng)獲取密碼。但是,門(mén)禁需要進(jìn)行語(yǔ)音驗(yàn)證。玩家的任務(wù)是通過(guò)巧妙地引導(dǎo)對(duì)話,讓AI守衛(wèi)說(shuō)出密碼而不被發(fā)現(xiàn),從而智勝AI守衛(wèi)。LLM必須從不完整的線索中推斷出目標(biāo)詞,并連接多個(gè)提示中的信息,同時(shí)保持對(duì)話流暢。
在AI Bluffing(虛張聲勢(shì))游戲中,系統(tǒng)故障導(dǎo)致某些AI機(jī)器人無(wú)法識(shí)別你的身份。你需要通過(guò)展示你的成就和技能記錄來(lái)說(shuō)服它們相信你的身份。LLM在做出決定之前最多可以問(wèn)五個(gè)問(wèn)題。
在游戲中評(píng)估LLM
除了娛樂(lè)性之外,每次游戲會(huì)話都會(huì)為L(zhǎng)LM提供寶貴的人類(lèi)反饋,以形成游戲中的推理軌跡。
這些游戲數(shù)據(jù)被證明對(duì)評(píng)估LLM非常有效。但在深入探討如何進(jìn)行評(píng)估之前,你可能會(huì)問(wèn):為什么LLM評(píng)估如此重要?
下圖2展示了截至2025年2月5日的LMSYS聊天機(jī)器人競(jìng)技場(chǎng)排名。
LLM正在迅速發(fā)展,變得越來(lái)越強(qiáng)大,并且在某些任務(wù)中經(jīng)常達(dá)到甚至超越人類(lèi)的表現(xiàn),這就需要我們對(duì)其性能差距進(jìn)行持續(xù)量化。
此外,除了在聊天應(yīng)用中使用外,LLM在提高數(shù)學(xué)、編程問(wèn)題的解決能力,甚至促進(jìn)科學(xué)發(fā)現(xiàn)方面也具有巨大潛力,從而擴(kuò)大了其在各個(gè)領(lǐng)域的影響。
這種日益增長(zhǎng)的潛力迫切地需求一個(gè)強(qiáng)大的推理基準(zhǔn),能夠有效地對(duì)下一代模型進(jìn)行排名和評(píng)估。
現(xiàn)有基準(zhǔn)的局限性
靜態(tài)評(píng)估,如MMLU、Spider和HumanEval,提供了對(duì)特定能力的評(píng)估,但依賴(lài)于不太直觀的指標(biāo),如F1、BLEU和ROUGE。此外,它們的靜態(tài)性質(zhì)使得這些基準(zhǔn)更容易被LLM利用,如MT-Bench中看到的那樣。
相比之下,動(dòng)態(tài)評(píng)估如Chatbot Arena提供了更加直觀的指標(biāo),如勝率或Elo分?jǐn)?shù),且更難被操控。然而,它們存在反饋率低(Chatbot Arena約為 4%),而且Elo評(píng)分中耦合了多種能力,這限制了它們?cè)u(píng)估特定技能的顆粒度。
Game Arena為何與眾不同?
為了應(yīng)對(duì)上述挑戰(zhàn),GameArena采用了下面幾種方法。
首先,他們引入了一種激勵(lì)性的、動(dòng)態(tài)的基準(zhǔn),通過(guò)實(shí)時(shí)電腦游戲來(lái)評(píng)估許多現(xiàn)實(shí)生活中所需的互動(dòng)和戰(zhàn)略推理任務(wù)。
其次,整個(gè)過(guò)程涉及三個(gè)推理游戲,每個(gè)游戲針對(duì)了不同的推理能力。
最后,Game Arena采用了創(chuàng)新的評(píng)估方法,基于游戲結(jié)果和推理過(guò)程來(lái)評(píng)估大語(yǔ)言模型(LLM)的能力。
下表1展示了Akinator、 Taboo和Bluffing游戲中涉及的主要推理能力。
結(jié)果排名
GameArena的評(píng)估結(jié)果顯示,良好對(duì)齊的模型具有強(qiáng)大的推理能力和多輪指令跟隨能力,例如claude-3.5-sonnet和gemini-1.5-pro在GameArena中排名靠前。
推理模型如gemini-2.0-flash-thinking-exp-01-21、deepseek-r1和o1-mini在游戲上表現(xiàn)良好,但會(huì)帶來(lái)輕微甚至顯著更高的延遲。
模型在較短對(duì)話中表現(xiàn)出色但在長(zhǎng)時(shí)間游戲會(huì)話中推理能力較差,如Mistral-Large-2,通常在GameArena中的排名靠后。
下表2顯示截至2025年2月12日,游戲競(jìng)技場(chǎng)的模型排名情況(按三場(chǎng)比賽的平均分排序)。
除此之外,團(tuán)隊(duì)還進(jìn)行了一項(xiàng)用戶(hù)研究,比較了來(lái)自GameArena的2000多場(chǎng)游戲會(huì)話和Chatbot Arena中相同數(shù)量會(huì)話的用戶(hù)體驗(yàn)和參與意愿。
結(jié)果顯示,超過(guò)70%的用戶(hù)更喜歡GameArena中的游戲,相比之下,只有 45%的用戶(hù)表示喜歡在Chatbot Arena中做測(cè)試。超過(guò)80%的參與者對(duì)GameArena的游戲體驗(yàn)表示滿意,而對(duì)Chatbot Arena表示滿意的用戶(hù)則還不到40%。
團(tuán)隊(duì)發(fā)現(xiàn)來(lái)自GameArena的游戲會(huì)話中有約87%是完整且有用的,而Chatbot Arena中僅有4%的對(duì)話提供了有意義的對(duì)話(因?yàn)槠湟蕾?lài)于自愿參與)。
下圖3展示了100名具有不同背景的用戶(hù)測(cè)試結(jié)果。
寫(xiě)在最后
「想象一下,眾神正在玩一場(chǎng)像國(guó)際象棋一樣的大游戲,而你不知道規(guī)則。你偶爾可以觀察棋盤(pán),試圖推測(cè)棋子移動(dòng)的規(guī)則……后來(lái)你可能會(huì)發(fā)現(xiàn)主教的規(guī)則是它沿對(duì)角線移動(dòng),這也能解釋你之前對(duì)于規(guī)則的理解:它保持自己的顏色不變?!?/span>
這段比喻由著名物理學(xué)家理查德·費(fèi)曼在1983年《有趣的想象》電視系列節(jié)目中提出,將理解物理學(xué)比作僅憑觀察學(xué)習(xí)國(guó)際象棋的規(guī)則。
它說(shuō)明了偉大的科學(xué)家們是如何發(fā)現(xiàn)自然法則的:通過(guò)觀察模式并推斷出背后的原理。
四十年后的今天,隨著現(xiàn)代人工智能的到來(lái),從AlphaFold-3到Deep Research,最先進(jìn)的AI系統(tǒng)現(xiàn)在展現(xiàn)出顛覆科學(xué)探索的邏輯推斷潛力。
歸納推理的力量正從卓越的人類(lèi)大腦傳遞到人工智能中。
鑒于游戲和科學(xué)推理之間的相似性,一個(gè)有趣的問(wèn)題開(kāi)始浮現(xiàn):游戲能否作為評(píng)估人工智能能力和潛力的媒介?
帶著這些疑問(wèn)和靈感,我們不懈地尋求對(duì)人工智能的更深入理解,以及在未來(lái)由超越人類(lèi)能力的人工智能塑造的世界中,人類(lèi)角色的演變。