17款大模型PK八款棋牌游戲,o3-mini勝出,DeepSeek R1輸在中間步驟
AI社區(qū)掀起用大模型玩游戲之風(fēng)!
例如國(guó)外知名博主讓DeepSeek和Chatgpt下國(guó)際象棋的視頻在Youtube上就獲得百萬(wàn)播放,ARC Prize組織最近也發(fā)布了一個(gè)貪吃蛇LLM評(píng)測(cè)基準(zhǔn)SnakeBench。
針對(duì)這一場(chǎng)景,來(lái)自港大、劍橋和北大的研究人員發(fā)布了一個(gè)更全面、客觀可信的LLM評(píng)測(cè)基準(zhǔn):GameBoT。
讓大模型在8個(gè)游戲中互相PK,評(píng)測(cè)各主流大模型的推理能力。游戲PK避免模型“背答案”;除了輸贏之外,GameBoT還評(píng)估大模型輸出的中間步驟,實(shí)現(xiàn)更細(xì)粒度和客觀的測(cè)評(píng)。
通過(guò)游戲來(lái)評(píng)估 LLM
傳統(tǒng)的LLM benchmark面臨著兩個(gè)挑戰(zhàn):性能飽和與數(shù)據(jù)污染。性能飽和指的是榜單分?jǐn)?shù)已經(jīng)被刷的很高,幾乎沒(méi)有進(jìn)一步提升的空間。例如,Qwen2-Math-72B-Instruct在GSM8k上已達(dá)到了96.7%的準(zhǔn)確率。數(shù)據(jù)污染是指由于語(yǔ)言模型在大規(guī)模網(wǎng)絡(luò)語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,它們可能會(huì)無(wú)意中遇到并記住這些基準(zhǔn)測(cè)試中的測(cè)試實(shí)例。因此,LLM可能會(huì)獲得虛高的性能分?jǐn)?shù)。
而通過(guò)游戲來(lái)評(píng)測(cè),正好既具有挑戰(zhàn)性,又能夠通過(guò)動(dòng)態(tài)的游戲環(huán)境來(lái)避免模型提前記住“試卷答案”。
中間步驟評(píng)測(cè)
相較于其他一樣用游戲來(lái)評(píng)測(cè)LLM的benchmark,GameBoT有何不同呢?
其他的benchmark往往只根據(jù)游戲最終的輸贏作為標(biāo)準(zhǔn),然而一次比賽可能有幾十上百個(gè)回合,一個(gè)回合的決策就有可能直接決定輸贏,這帶來(lái)了很大偶然性;除此之外,LLM經(jīng)常會(huì)出現(xiàn)思考過(guò)程和最終決策不對(duì)應(yīng)的情況,有可能只是碰巧選到了一個(gè)好的決策——GameBoT中的一個(gè)關(guān)鍵設(shè)計(jì)在于,不僅僅評(píng)測(cè)最終勝負(fù),還評(píng)測(cè)LLM的中間思考過(guò)程是否正確。
△評(píng)估中間步驟可以利用更豐富的信息
為了對(duì)LLM的推理進(jìn)行細(xì)粒度分析,作者將每個(gè)游戲中復(fù)雜的決策過(guò)程分解為2-3個(gè)邏輯上關(guān)鍵的子問(wèn)題,每個(gè)子問(wèn)題都被設(shè)計(jì)為有唯一確定答案的,并讓大模型在回答子問(wèn)題的基礎(chǔ)上回答最終決策。LLM被限定通過(guò)這個(gè)格式回答:“[中間思考結(jié)果:XXX]”,方便直接提取答案。同時(shí),對(duì)于設(shè)計(jì)好的問(wèn)題,作者預(yù)先開(kāi)發(fā)好基于規(guī)則的算法來(lái)生成標(biāo)準(zhǔn)答案,從而更客觀高效地評(píng)估模型性能。
例如在 Surround 游戲中,設(shè)計(jì)了這樣的問(wèn)題:
- 當(dāng)前位置周?chē)闹凳嵌嗌伲?/span>
- 當(dāng)前安全移動(dòng)的方向有哪些?
- 該方向能保證至少十次安全移動(dòng)嗎?
評(píng)測(cè)中間步驟帶來(lái)了幾個(gè)優(yōu)勢(shì):更細(xì)粒度的評(píng)測(cè),更高的可解釋性,更清楚的了解模型能力的優(yōu)勢(shì)和劣勢(shì)。
Prompt 設(shè)計(jì)
為確保公平評(píng)估大語(yǔ)言模型學(xué)習(xí)和應(yīng)用游戲策略的能力,我們?cè)O(shè)計(jì)了非常詳細(xì)的足以作為教程的游戲prompt。
包含三個(gè)結(jié)構(gòu)化部分:<游戲規(guī)則>、<輸入>和<輸出>,其中 <游戲規(guī)則>部分提供完整的游戲規(guī)則說(shuō)明,<輸入>規(guī)范模型接收的輸入格式,<輸出>明確指定結(jié)構(gòu)化輸出要求。
在<輸出>中包含了詳細(xì)的Chain-of-Thought,提供了人類(lèi)專(zhuān)家設(shè)計(jì)的游戲策略,指導(dǎo)LLM通過(guò)三步框架(策略理解→子問(wèn)題分解→策略應(yīng)用)解決復(fù)雜問(wèn)題。教程級(jí)別的 prompt確保評(píng)估聚焦于模型基于新信息的推理能力(zero-shot 或one-shot),而非依賴(lài)預(yù)訓(xùn)練數(shù)據(jù)中的既有知識(shí)。
△GameBot框架
評(píng)測(cè)游戲
1.Surround
游戲中玩家通過(guò)控制方向在屏幕上移動(dòng),并試圖圍住對(duì)手。先撞上自己的軌跡、對(duì)手的軌跡或者墻壁的一方算輸。
△左:GPT-4o;右:Claude-35-Sonnet
2. Pong 乒乓
玩家通過(guò)控制球拍在屏幕上移動(dòng),并試圖將球擊回對(duì)手區(qū)域。先未能接到球的一方算輸。
△左:GPT-4o-mini;右:Llama3.1-405b
3.TicTacToe 井字棋
先連成三子的一方贏。
△X:Gemini-1.5-pro-preview;O:Llama3.1-70b
4.Connect4 四子棋
先連成四子的一方贏,每次只能從最底下開(kāi)始落子。
△黃:Claude-35-Sonnet;紅:GPT-4o-mini
5. Othello
黑白棋夾住翻轉(zhuǎn)對(duì)手的棋子以占據(jù)更多格子。游戲結(jié)束時(shí),棋盤(pán)上棋子數(shù)量更多的一方獲勝。
△黑:GPT-4o;白:Llama3.1-405b
6. Texas Hold’em 德州撲克
玩家根據(jù)自己的牌力下注,擊敗對(duì)手贏得底池。游戲結(jié)束時(shí),牌型最強(qiáng)的一方獲勝。
△下:GPT-4;上:Claude-3-Sonnet
7. Checkers 跳棋
跳過(guò)對(duì)手的棋子完成吃子,被吃光的輸?shù)簟?/span>
△白:Gemini-1.5-pro-preview;黑:Jamba-1.5-large
8. Negotiation v2
玩家協(xié)商物品的分配,來(lái)盡可能獲得更多價(jià)值。游戲在8輪后每輪有20%的概率結(jié)束,若游戲結(jié)束前未達(dá)成協(xié)議,雙方均得0分。
△P1: GPT-4o; P2: Gemini-1.5-pro-preview
LLM 淘汰賽,誰(shuí)會(huì)勝出?
在論文發(fā)布的版本里,作者評(píng)測(cè)了包括 GPT-4o,Claude-35-Sonnet, Gemini-1.5-pro-preview 等17個(gè)當(dāng)時(shí)最領(lǐng)先的 LLM,每?jī)蓚€(gè)模型在每個(gè)游戲上進(jìn)行20輪相互對(duì)抗賽(10 輪先手 10 輪后手)。這種設(shè)計(jì)既保證了評(píng)估有效性,又能確保足夠多的游戲局面。
隨著新的大模型發(fā)布,作者更新了對(duì)更強(qiáng)的大模型的評(píng)測(cè),包含Gemini-2.0-flash-thinking,Gemini-2.0-pro-exp,O1-preview,Deepseek R1,O3-mini,Claude 3.7 Sonnet,GPT-4.5。比賽采用淘汰制,部分實(shí)驗(yàn)結(jié)果:
最終排名:
出乎意料的是,盡管在Chatbot Arena榜單上高居前三,Gemini-2.0-flash-thinking在GameBoT榜單上相對(duì)其他新模型表現(xiàn)并不亮眼,最近火熱的Deepseek R1也是和O1-preview打成平手,稍遜于O3-mini-high。
中間步驟得分 F1 Score:
Rank | Model | F1 Score |
1 | o3-mini-high | 0.873 |
2 | o1-preview | 0.854 |
3 | gemini-2.0-pro-exp | 0.396 |
4 | gemini-2.0-flash-thinking | 0.253 |
5 | deepseek-r1 | 0.176 |
Deepseek R1的中間步驟分意外很低,檢驗(yàn)后發(fā)現(xiàn),盡管最終的決策表現(xiàn)很好,R1 的思考過(guò)程非常繁冗,經(jīng)常出現(xiàn)連續(xù)十幾次“wait”然后重新思考的現(xiàn)象,時(shí)常沒(méi)法按要求給出中間步驟的答案。
實(shí)戰(zhàn)分析
以下是O3-mini 和 Deepseek R1 的實(shí)戰(zhàn)分析。O3-mini:X,Deepseek R1:O。
當(dāng)棋局開(kāi)局來(lái)到此時(shí),是 O3-mini 設(shè)置的第一個(gè)考驗(yàn),不在 2 或者 5 位置堵住的話 Deepseek R1 會(huì)直接輸?shù)簟1 正確應(yīng)對(duì):
Placing at 5 blocks X’s immediate threat and limits their ability to build a horizontal line.
當(dāng)棋局來(lái)到
R1 對(duì)于優(yōu)勢(shì)局面窮追不舍,繼續(xù)下在 2 形成三子。
Placing O at (3,2) forms a horizontal trio in row 3, setting up potential for a future four-in-a-row. This move also occupies the central column 2, enhancing control over multiple directions and blocking X from advancing in column 2. Additionally, this position can contribute to a diagonal with existing O pieces at (4,3) and (3,3), offering multiple pathways to victory.
這一步,非常驚喜 R1 能夠注意到 (3,2) 除了橫方向上連成三子,還和(4,3)呼應(yīng),是一步精彩的落子。作為回應(yīng),O3-mini 雖然選擇了一步敗招,落在 Column 1 中,導(dǎo)致 O 繼續(xù)落在 1 直接勝利,但 O3-mini 給出的理由也體現(xiàn)了一定程度的智能。
If the opponent later uses (2,1) to complete a diagonal with their O’s at (3,2) and (4,3) (aiming for a win by eventually filling (5,4)), it would be dangerous. By playing (2,1) now I both deny that chance for O and build my own potential diagonal connection (using my existing X’s at (0,3) and (1,2) which would then point to a winning continuation with a future piece at (3,0)). This dual-purpose move makes (2,1) the best choice.
這個(gè)回答讓人猛然發(fā)現(xiàn),原來(lái)此時(shí)早已是無(wú)解的局面——如果隨手落在別處,例如 5, 2 等, 那下一手 O 落在 1 將一招斃命,此時(shí)直接形成雙三,沒(méi)法同時(shí)堵Column 4 和 Column 1。O3-mini 的正確走法也許應(yīng)該先落在 4 處,雖然也只能拖延幾步,避免不了失?。ǜ信d趣的讀者可以推演)。
觀察發(fā)現(xiàn)
對(duì)新模型的評(píng)測(cè)實(shí)驗(yàn)主要發(fā)現(xiàn)如下:
- 在測(cè)試的模型中,O3-mini-high的游戲推理性能以及中間步驟得分都是最強(qiáng)。
- R1 的推理能力也很優(yōu)秀,但對(duì)于復(fù)雜問(wèn)題,生成的中間思考過(guò)程非常不易讀,或者無(wú)法按prompt要求給出中間步驟的答案??煽匦韵鄬?duì)較差。
- Gemini-2-flash-thinking也存在可控性(或者說(shuō)指令遵循能力,Instruction following)較差的問(wèn)題,綜合游戲推理性能并沒(méi)有 Chatbot Arena 顯示出來(lái)的那么優(yōu)秀。
總之,O3-mini和R1的表現(xiàn)已經(jīng)體現(xiàn)出一些智能,但它們依舊不夠聰明——以Connect4為例,對(duì)于直接能連成四子的局面,它們有時(shí)會(huì)看不出來(lái)。這也體現(xiàn)在它們的中間步驟評(píng)測(cè)分并不是滿分上。另外,盡管在prompt中提示了需要think ahead多考慮幾步,目前最先進(jìn)的大模型也只能考慮當(dāng)前這一步最優(yōu)。
論文: https://arxiv.org/abs/2412.13602
項(xiàng)目主頁(yè): https://visual-ai.github.io/gamebot/