自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

17款大模型PK八款棋牌游戲,o3-mini勝出,DeepSeek R1輸在中間步驟

人工智能 新聞
O3-mini和R1的表現(xiàn)已經(jīng)體現(xiàn)出一些智能,但它們依舊不夠聰明——以Connect4為例,對(duì)于直接能連成四子的局面,它們有時(shí)會(huì)看不出來(lái)。

AI社區(qū)掀起用大模型玩游戲之風(fēng)!

例如國(guó)外知名博主讓DeepSeek和Chatgpt下國(guó)際象棋的視頻在Youtube上就獲得百萬(wàn)播放,ARC Prize組織最近也發(fā)布了一個(gè)貪吃蛇LLM評(píng)測(cè)基準(zhǔn)SnakeBench。

圖片

針對(duì)這一場(chǎng)景,來(lái)自港大、劍橋和北大的研究人員發(fā)布了一個(gè)更全面、客觀可信的LLM評(píng)測(cè)基準(zhǔn):GameBoT

讓大模型在8個(gè)游戲中互相PK,評(píng)測(cè)各主流大模型的推理能力。游戲PK避免模型“背答案”;除了輸贏之外,GameBoT還評(píng)估大模型輸出的中間步驟,實(shí)現(xiàn)更細(xì)粒度和客觀的測(cè)評(píng)。

圖片

通過(guò)游戲來(lái)評(píng)估 LLM

傳統(tǒng)的LLM benchmark面臨著兩個(gè)挑戰(zhàn):性能飽和與數(shù)據(jù)污染。性能飽和指的是榜單分?jǐn)?shù)已經(jīng)被刷的很高,幾乎沒(méi)有進(jìn)一步提升的空間。例如,Qwen2-Math-72B-Instruct在GSM8k上已達(dá)到了96.7%的準(zhǔn)確率。數(shù)據(jù)污染是指由于語(yǔ)言模型在大規(guī)模網(wǎng)絡(luò)語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,它們可能會(huì)無(wú)意中遇到并記住這些基準(zhǔn)測(cè)試中的測(cè)試實(shí)例。因此,LLM可能會(huì)獲得虛高的性能分?jǐn)?shù)。

而通過(guò)游戲來(lái)評(píng)測(cè),正好既具有挑戰(zhàn)性,又能夠通過(guò)動(dòng)態(tài)的游戲環(huán)境來(lái)避免模型提前記住“試卷答案”。

中間步驟評(píng)測(cè)

相較于其他一樣用游戲來(lái)評(píng)測(cè)LLM的benchmark,GameBoT有何不同呢?

其他的benchmark往往只根據(jù)游戲最終的輸贏作為標(biāo)準(zhǔn),然而一次比賽可能有幾十上百個(gè)回合,一個(gè)回合的決策就有可能直接決定輸贏,這帶來(lái)了很大偶然性;除此之外,LLM經(jīng)常會(huì)出現(xiàn)思考過(guò)程和最終決策不對(duì)應(yīng)的情況,有可能只是碰巧選到了一個(gè)好的決策——GameBoT中的一個(gè)關(guān)鍵設(shè)計(jì)在于,不僅僅評(píng)測(cè)最終勝負(fù),還評(píng)測(cè)LLM的中間思考過(guò)程是否正確。

圖片

△評(píng)估中間步驟可以利用更豐富的信息

為了對(duì)LLM的推理進(jìn)行細(xì)粒度分析,作者將每個(gè)游戲中復(fù)雜的決策過(guò)程分解為2-3個(gè)邏輯上關(guān)鍵的子問(wèn)題,每個(gè)子問(wèn)題都被設(shè)計(jì)為有唯一確定答案的,并讓大模型在回答子問(wèn)題的基礎(chǔ)上回答最終決策。LLM被限定通過(guò)這個(gè)格式回答:“[中間思考結(jié)果:XXX]”,方便直接提取答案。同時(shí),對(duì)于設(shè)計(jì)好的問(wèn)題,作者預(yù)先開(kāi)發(fā)好基于規(guī)則的算法來(lái)生成標(biāo)準(zhǔn)答案,從而更客觀高效地評(píng)估模型性能。

例如在 Surround 游戲中,設(shè)計(jì)了這樣的問(wèn)題:

  1. 當(dāng)前位置周?chē)闹凳嵌嗌伲?/span>
  2. 當(dāng)前安全移動(dòng)的方向有哪些?
  3. 該方向能保證至少十次安全移動(dòng)嗎?

評(píng)測(cè)中間步驟帶來(lái)了幾個(gè)優(yōu)勢(shì):更細(xì)粒度的評(píng)測(cè),更高的可解釋性,更清楚的了解模型能力的優(yōu)勢(shì)和劣勢(shì)。

Prompt 設(shè)計(jì)

為確保公平評(píng)估大語(yǔ)言模型學(xué)習(xí)和應(yīng)用游戲策略的能力,我們?cè)O(shè)計(jì)了非常詳細(xì)的足以作為教程的游戲prompt。

包含三個(gè)結(jié)構(gòu)化部分:<游戲規(guī)則>、<輸入>和<輸出>,其中 <游戲規(guī)則>部分提供完整的游戲規(guī)則說(shuō)明,<輸入>規(guī)范模型接收的輸入格式,<輸出>明確指定結(jié)構(gòu)化輸出要求。

在<輸出>中包含了詳細(xì)的Chain-of-Thought,提供了人類(lèi)專(zhuān)家設(shè)計(jì)的游戲策略,指導(dǎo)LLM通過(guò)三步框架(策略理解→子問(wèn)題分解→策略應(yīng)用)解決復(fù)雜問(wèn)題。教程級(jí)別的 prompt確保評(píng)估聚焦于模型基于新信息的推理能力(zero-shot 或one-shot),而非依賴(lài)預(yù)訓(xùn)練數(shù)據(jù)中的既有知識(shí)。

圖片GameBot框架

評(píng)測(cè)游戲

1.Surround

游戲中玩家通過(guò)控制方向在屏幕上移動(dòng),并試圖圍住對(duì)手。先撞上自己的軌跡、對(duì)手的軌跡或者墻壁的一方算輸。

圖片

左:GPT-4o;右:Claude-35-Sonnet

2. Pong 乒乓

玩家通過(guò)控制球拍在屏幕上移動(dòng),并試圖將球擊回對(duì)手區(qū)域。先未能接到球的一方算輸。

圖片

左:GPT-4o-mini;右:Llama3.1-405b

3.TicTacToe 井字棋

先連成三子的一方贏。

圖片

X:Gemini-1.5-pro-preview;O:Llama3.1-70b

4.Connect4 四子棋

先連成四子的一方贏,每次只能從最底下開(kāi)始落子。

圖片

黃:Claude-35-Sonnet;紅:GPT-4o-mini

5. Othello

黑白棋夾住翻轉(zhuǎn)對(duì)手的棋子以占據(jù)更多格子。游戲結(jié)束時(shí),棋盤(pán)上棋子數(shù)量更多的一方獲勝。

圖片

△黑:GPT-4o;白:Llama3.1-405b

6. Texas Hold’em 德州撲克

玩家根據(jù)自己的牌力下注,擊敗對(duì)手贏得底池。游戲結(jié)束時(shí),牌型最強(qiáng)的一方獲勝。

圖片

△下:GPT-4;上:Claude-3-Sonnet

7. Checkers 跳棋

跳過(guò)對(duì)手的棋子完成吃子,被吃光的輸?shù)簟?/span>

圖片

△白:Gemini-1.5-pro-preview;黑:Jamba-1.5-large

8. Negotiation v2

玩家協(xié)商物品的分配,來(lái)盡可能獲得更多價(jià)值。游戲在8輪后每輪有20%的概率結(jié)束,若游戲結(jié)束前未達(dá)成協(xié)議,雙方均得0分。

圖片

△P1: GPT-4o; P2: Gemini-1.5-pro-preview

LLM 淘汰賽,誰(shuí)會(huì)勝出?

在論文發(fā)布的版本里,作者評(píng)測(cè)了包括 GPT-4o,Claude-35-Sonnet, Gemini-1.5-pro-preview 等17個(gè)當(dāng)時(shí)最領(lǐng)先的 LLM,每?jī)蓚€(gè)模型在每個(gè)游戲上進(jìn)行20輪相互對(duì)抗賽(10 輪先手 10 輪后手)。這種設(shè)計(jì)既保證了評(píng)估有效性,又能確保足夠多的游戲局面。

隨著新的大模型發(fā)布,作者更新了對(duì)更強(qiáng)的大模型的評(píng)測(cè),包含Gemini-2.0-flash-thinking,Gemini-2.0-pro-exp,O1-preview,Deepseek R1,O3-mini,Claude 3.7 Sonnet,GPT-4.5。比賽采用淘汰制,部分實(shí)驗(yàn)結(jié)果:

圖片

最終排名:

圖片

出乎意料的是,盡管在Chatbot Arena榜單上高居前三,Gemini-2.0-flash-thinking在GameBoT榜單上相對(duì)其他新模型表現(xiàn)并不亮眼,最近火熱的Deepseek R1也是和O1-preview打成平手,稍遜于O3-mini-high。

中間步驟得分 F1 Score:

Rank

Model

F1 Score

1

o3-mini-high

0.873

2

o1-preview

0.854

3

gemini-2.0-pro-exp

0.396

4

gemini-2.0-flash-thinking

0.253

5

deepseek-r1

0.176

Deepseek R1的中間步驟分意外很低,檢驗(yàn)后發(fā)現(xiàn),盡管最終的決策表現(xiàn)很好,R1 的思考過(guò)程非常繁冗,經(jīng)常出現(xiàn)連續(xù)十幾次“wait”然后重新思考的現(xiàn)象,時(shí)常沒(méi)法按要求給出中間步驟的答案。

實(shí)戰(zhàn)分析

以下是O3-mini 和 Deepseek R1 的實(shí)戰(zhàn)分析。O3-mini:X,Deepseek R1:O。

圖片

當(dāng)棋局開(kāi)局來(lái)到此時(shí),是 O3-mini 設(shè)置的第一個(gè)考驗(yàn),不在 2 或者 5 位置堵住的話 Deepseek R1 會(huì)直接輸?shù)簟1 正確應(yīng)對(duì):

Placing at 5 blocks X’s immediate threat and limits their ability to build a horizontal line.

當(dāng)棋局來(lái)到

圖片

R1 對(duì)于優(yōu)勢(shì)局面窮追不舍,繼續(xù)下在 2 形成三子。

Placing O at (3,2) forms a horizontal trio in row 3, setting up potential for a future four-in-a-row. This move also occupies the central column 2, enhancing control over multiple directions and blocking X from advancing in column 2. Additionally, this position can contribute to a diagonal with existing O pieces at (4,3) and (3,3), offering multiple pathways to victory.

圖片

這一步,非常驚喜 R1 能夠注意到 (3,2) 除了橫方向上連成三子,還和(4,3)呼應(yīng),是一步精彩的落子。作為回應(yīng),O3-mini 雖然選擇了一步敗招,落在 Column 1 中,導(dǎo)致 O 繼續(xù)落在 1 直接勝利,但 O3-mini 給出的理由也體現(xiàn)了一定程度的智能。

If the opponent later uses (2,1) to complete a diagonal with their O’s at (3,2) and (4,3) (aiming for a win by eventually filling (5,4)), it would be dangerous. By playing (2,1) now I both deny that chance for O and build my own potential diagonal connection (using my existing X’s at (0,3) and (1,2) which would then point to a winning continuation with a future piece at (3,0)). This dual-purpose move makes (2,1) the best choice.

這個(gè)回答讓人猛然發(fā)現(xiàn),原來(lái)此時(shí)早已是無(wú)解的局面——如果隨手落在別處,例如 5, 2 等, 那下一手 O 落在 1 將一招斃命,此時(shí)直接形成雙三,沒(méi)法同時(shí)堵Column 4 和 Column 1。O3-mini 的正確走法也許應(yīng)該先落在 4 處,雖然也只能拖延幾步,避免不了失?。ǜ信d趣的讀者可以推演)。

觀察發(fā)現(xiàn)

對(duì)新模型的評(píng)測(cè)實(shí)驗(yàn)主要發(fā)現(xiàn)如下:

  • 在測(cè)試的模型中,O3-mini-high的游戲推理性能以及中間步驟得分都是最強(qiáng)。
  • R1 的推理能力也很優(yōu)秀,但對(duì)于復(fù)雜問(wèn)題,生成的中間思考過(guò)程非常不易讀,或者無(wú)法按prompt要求給出中間步驟的答案??煽匦韵鄬?duì)較差。
  • Gemini-2-flash-thinking也存在可控性(或者說(shuō)指令遵循能力,Instruction following)較差的問(wèn)題,綜合游戲推理性能并沒(méi)有 Chatbot Arena 顯示出來(lái)的那么優(yōu)秀。

總之,O3-mini和R1的表現(xiàn)已經(jīng)體現(xiàn)出一些智能,但它們依舊不夠聰明——以Connect4為例,對(duì)于直接能連成四子的局面,它們有時(shí)會(huì)看不出來(lái)。這也體現(xiàn)在它們的中間步驟評(píng)測(cè)分并不是滿分上。另外,盡管在prompt中提示了需要think ahead多考慮幾步,目前最先進(jìn)的大模型也只能考慮當(dāng)前這一步最優(yōu)。

論文: https://arxiv.org/abs/2412.13602 

項(xiàng)目主頁(yè): https://visual-ai.github.io/gamebot/ 

代碼: https://github.com/Visual-AI/GAMEBoT

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-03 14:06:32

2025-02-17 08:12:00

AI模型生成

2025-02-03 12:38:28

2025-02-18 09:00:00

2025-02-08 11:44:03

2025-02-08 17:00:11

2025-02-14 10:47:40

2025-04-10 10:02:43

2025-02-10 00:00:01

2024-12-24 16:15:04

2025-03-03 07:30:00

谷歌模型AI

2025-01-27 12:30:07

2025-03-13 06:34:49

2025-02-08 08:18:39

2025-04-29 07:47:27

2025-03-10 08:10:00

AI研究安全

2025-02-20 15:32:28

2025-01-20 19:52:50

2025-02-17 08:37:00

模型DeepSeekAI

2025-02-15 08:15:04

聯(lián)想DeepSeek
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)