棋盤(pán)變戰(zhàn)場(chǎng),大模型卻呆了?普林斯頓、UT Austin新基準(zhǔn)SPIN-Bench曝AI智商瓶頸
當(dāng)棋盤(pán)變成戰(zhàn)場(chǎng),當(dāng)盟友暗藏心機(jī),當(dāng)談判需要三十六計(jì),AI 的智商令人嘆息!
近日,來(lái)自普林斯頓和德州大學(xué)奧斯丁分校最新評(píng)測(cè)基準(zhǔn) SPIN-Bench,用一套 "組合拳" 暴擊了大模型的軟肋。研究顯示,即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等頂尖大模型,在涉及戰(zhàn)略規(guī)劃和社會(huì)推理的復(fù)雜任務(wù)中集體 "自閉"。
- 論文標(biāo)題:SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
- 論文鏈接:https://arxiv.org/pdf/2503.12349
- 項(xiàng)目主頁(yè):https://spinbench.github.io
在過(guò)去的一年里,大語(yǔ)言模型(LLM)展現(xiàn)了令人驚嘆的 "文本生成" 和 "智能代理" 能力。許多社區(qū)用戶已經(jīng)見(jiàn)到了各大模型的「百花齊放」:從高效的簡(jiǎn)單問(wèn)答到多輪對(duì)話推理。
然而,當(dāng)我們談到真正復(fù)雜的 "思考" 場(chǎng)景 —— 譬如需要在一個(gè)充滿其他 "玩家"(人或智能體)的不確定環(huán)境中做出長(zhǎng)程策略規(guī)劃、臨場(chǎng)談判合作甚至 "背后使壞" 時(shí),當(dāng)下的 LLM 是否還能站穩(wěn)腳跟?
傳統(tǒng) AI 測(cè)試總讓大模型做 "乖學(xué)生":解數(shù)學(xué)題、寫(xiě)代碼、背百科...... 但在真實(shí)世界中,人類(lèi)更常用的智能是動(dòng)態(tài)博弈中的謀略和復(fù)雜社交中的洞察。
為解答這一問(wèn)題,作者推出了全新的多域評(píng)估框架 SPIN-Bench(Strategic Planning, Interaction, and Negotiation),將單人規(guī)劃、合作游戲、對(duì)抗博弈和多方談判統(tǒng)一到一個(gè)測(cè)試框架中,并系統(tǒng)化地?cái)U(kuò)大環(huán)境規(guī)模和復(fù)雜度,旨在全面刻畫(huà) LLM 在戰(zhàn)略規(guī)劃與社交推理方面的 "短板" 與潛力。
SPIN-Bench: 一覽多維度評(píng)估體系
SPIN-Bench 框架包含兩個(gè)核心組成部分:
1. 游戲代理,包括 LLM 及其自適應(yīng)提示;
2. 環(huán)境和評(píng)估子系統(tǒng),用于管理游戲邏輯、跟蹤互動(dòng)和量化性能。
傳統(tǒng)的規(guī)劃評(píng)測(cè)大多在單人、可完全觀察的環(huán)境中進(jìn)行,無(wú)法充分反映現(xiàn)實(shí)中團(tuán)隊(duì)決策的復(fù)雜度。而 SPIN-Bench 試圖通過(guò)形式化任務(wù)與多人場(chǎng)景相結(jié)合,把現(xiàn)實(shí)中需要的 "同伴合作"" 談判博弈 " 等關(guān)鍵技能一并納入,以幫助找到 LLM 在真實(shí)應(yīng)用落地時(shí)可能面臨的問(wèn)題。
SPIN-Bench 讓 LLM 面對(duì)從 "最基礎(chǔ)" 的單智能體規(guī)劃,到 "最復(fù)雜" 的多智能體混合對(duì)抗與合作,逐步升級(jí)難度。文章并不僅僅統(tǒng)計(jì) "最終是否獲勝" 或者 "是否達(dá)成目標(biāo)",還額外設(shè)置了若干細(xì)顆粒度的指標(biāo),用來(lái)量化模型的決策準(zhǔn)確性、協(xié)作有效性以及在社交場(chǎng)景下的話術(shù)與執(zhí)行匹配度。
具體而言,該文主要聚焦三個(gè)層次:
- 經(jīng)典規(guī)劃(PDDL)- 測(cè)試 "單智能體思維" 極限
1、單智能體,確定性環(huán)境,多步動(dòng)作規(guī)劃,通過(guò)層層遞進(jìn)的難度,分析模型的錯(cuò)誤原因。
2、涵蓋 21 個(gè)領(lǐng)域(共 1,280 個(gè)任務(wù)),包含 elevator、grid、floortile 等多個(gè)常見(jiàn)子任務(wù),考察點(diǎn)涉及狀態(tài)空間的逐步提升和逐漸復(fù)雜的約束條件。
3、在經(jīng)典規(guī)劃問(wèn)題中,題目通常會(huì)明確給出初始狀態(tài)、可執(zhí)行的動(dòng)作集以及希望達(dá)到的目標(biāo)狀態(tài)。Agent 的任務(wù)則是利用這些已知信息,規(guī)劃并生成從初始狀態(tài)到目標(biāo)狀態(tài)的動(dòng)作序列(trajectory)。
例如,在一個(gè)電梯控制問(wèn)題中,Agent 可以執(zhí)行電梯的上下移動(dòng)和開(kāi)關(guān)門(mén)等動(dòng)作,它需要通過(guò)合理規(guī)劃,在最少的步驟內(nèi),將所有乘客準(zhǔn)確、高效地運(yùn)送到他們各自對(duì)應(yīng)的目標(biāo)樓層。在這個(gè)例子中 o1 把最后一位乘客(p4)送錯(cuò)了樓層,說(shuō)明 LLM 仍有提升空間。
- 多智能體對(duì)抗或合作 - 逐步升級(jí)的腦力絞殺
1. 對(duì)抗場(chǎng)景(井字棋,四子棋,國(guó)際象棋):文章分別對(duì)比 LLM 的落子行動(dòng)與專(zhuān)業(yè)博弈引擎、啟發(fā)式搜索算法的對(duì)戰(zhàn)平局概率與選步差異,動(dòng)作是否符合最優(yōu)策略,評(píng)估其在戰(zhàn)術(shù)和戰(zhàn)略層面的深度。
2. 合作場(chǎng)景(Hanabi):考核模型面對(duì)不完全信息時(shí),是否能夠通過(guò)溝通隱含信息、推測(cè)隊(duì)友手牌,實(shí)現(xiàn)團(tuán)體協(xié)作。
- 戰(zhàn)略游戲與談判 - 七國(guó)混戰(zhàn) + 實(shí)時(shí)談判,上演 AI 版《權(quán)力的游戲》
Diplomacy 是一款融合聯(lián)盟、談判、背叛與合作的策略類(lèi)桌游。玩家之間需要相互通信、結(jié)盟或欺騙,最終同時(shí)下達(dá)指令。文章考察 LLM 在 "多步長(zhǎng)程規(guī)劃" 與 "社交手段"(如如何爭(zhēng)取盟友、如何制定信息不對(duì)稱策略)方面的綜合表現(xiàn)。不僅僅是讓模型 "求解" 問(wèn)題,更是讓模型在有其他玩家干擾、或需要和其他玩家溝通的場(chǎng)景中,實(shí)時(shí)地進(jìn)行策略調(diào)整。這就要求 LLM 要在語(yǔ)言能力之外,具備多步推理和心智模型(Theory of Mind),并能兼顧團(tuán)隊(duì) / 對(duì)手的動(dòng)機(jī)。
實(shí)驗(yàn)結(jié)果與分析: AI 集體遭遇 "滑鐵盧"
模型配置概述
該文評(píng)估了當(dāng)前流行的閉源和開(kāi)源大語(yǔ)言模型:
- 閉源模型:包含 OpenAI(如 o1, o3-mini, o1-mini, GPT-4o、GPT-4o mini、GPT-4-turbo 等)和 Anthropic 的 Claude 3.5(Sonnet/Haiku),共 10 個(gè)商業(yè)模型。
- 開(kāi)源模型:涵蓋 DeepSeek-R1、Llama3 系列、Qwen2.5-72B 和 Mistral-7B 等 7 個(gè)模型。
表 1:PDDL、競(jìng)技棋盤(pán)游戲和合作游戲的結(jié)果。Plan Acc 表示規(guī)劃準(zhǔn)確度。N-Step " 表示 N 步前瞻。TTT、C4、CH 是三種競(jìng)技游戲。WR 下標(biāo)表示專(zhuān)業(yè)博弈引擎對(duì)每個(gè) LLM 的勝率(%)。T3 下標(biāo)顯示 LLM 在所有對(duì)局中的棋步屬于 top 3 choice 的百分比(%)。Hanabi 列顯示 2-5 名棋手參與游戲的平均得分。
PDDL 實(shí)驗(yàn)結(jié)果分析
圖 1:o1 的準(zhǔn)確度與行動(dòng)空間之間的關(guān)系。左圖描繪的是準(zhǔn)確率與合法行動(dòng)平均數(shù)量的函數(shù)關(guān)系,右圖考察的是準(zhǔn)確率與狀態(tài) - 行動(dòng)空間 大小的關(guān)系。
- o1 在經(jīng)典規(guī)劃上表現(xiàn)最佳,但在大型行動(dòng) / 狀態(tài)空間中仍有明顯下降。
- 核心發(fā)現(xiàn):模型準(zhǔn)確率與狀態(tài) - 行動(dòng)空間規(guī)模的關(guān)聯(lián)性顯著高于與合法行動(dòng)平均數(shù)量的關(guān)聯(lián)性。
- 認(rèn)知解讀:模型在規(guī)劃時(shí)需承擔(dān)未來(lái)大量潛在分支的認(rèn)知負(fù)擔(dān),即使每一步僅有少量有效選擇。這表明 LLMs 更易受全局復(fù)雜性影響,而非單步?jīng)Q策限制。
競(jìng)技棋盤(pán)游戲表現(xiàn)
在 solver 與 LLM 的對(duì)決中,solver 幾乎總是獲勝或和棋(表 1):
- 井字棋(Tic-Tac-Toe):較強(qiáng)的模型(如 o1,Claude 3.5 Sonnet)偶爾能與完美 Solver 達(dá)成平局,但多數(shù)情況仍落敗。
- 四子棋(Connect Four)與國(guó)際象棋(Chess):游戲 Solver(如 Stockfish 引擎)對(duì)所有測(cè)試的 LLMs 保持 100% 勝率。
- LLMs 在四連環(huán)中偶爾能選擇最優(yōu)棋步,但在國(guó)際象棋中準(zhǔn)確率驟降,凸顯其深層戰(zhàn)術(shù)推理與分支擴(kuò)展能力不足。
Hanabi 多人合作游戲分析
多人協(xié)作挑戰(zhàn):
- 當(dāng)玩家數(shù)量從 2 人增至 5 人時(shí),頂尖模型(如 o1)的平均得分從 16.4 降至 14.2,表明多代理協(xié)調(diào)對(duì) LLMs 的策略一致性造成壓力。
- 部分模型(如 o1-mini、DeepSeek-R1)它們的高方差以及相對(duì)較低的平均得分表明缺乏足夠的策略規(guī)劃能力以有效地進(jìn)行 Hanabi 游戲,無(wú)法適應(yīng)復(fù)雜協(xié)作場(chǎng)景。
與人類(lèi)對(duì)比:
- 作者團(tuán)隊(duì)爬取并分析了 54,977 場(chǎng)人類(lèi) Hanabi 游戲數(shù)據(jù),發(fā)現(xiàn)人類(lèi)得分集中在 15-25 分區(qū)間。
- 當(dāng) LLMs 必須協(xié)調(diào)多個(gè)不完整的信息渠道并跟蹤隊(duì)友不斷變化的知識(shí)狀態(tài)時(shí),所有 LLMs 均未達(dá)到人類(lèi)得分的第一四分位數(shù),暴露其 "社會(huì)智能" 普遍不足。
表 2:4 個(gè)玩家的 Diplomacy 游戲?qū)嶒?yàn)結(jié)果結(jié)果,(結(jié)果表示:無(wú)協(xié)商 / 有協(xié)商)展示 LLM 不同類(lèi)別指令的成功率,以及游戲結(jié)束時(shí)供應(yīng)中心(SC)和受控區(qū)域(CR)的數(shù)量。右側(cè)從左到右為談判消息的評(píng)測(cè)指標(biāo)?;炯寄軠y(cè)試(BS)顯示特定模型是否通過(guò)了外交游戲的基礎(chǔ)技能測(cè)試。
Diplomacy 戰(zhàn)略談判游戲分析(表 2)
基礎(chǔ)技能測(cè)試:
- 在無(wú)談判的單玩家最簡(jiǎn)單基準(zhǔn)測(cè)試中,僅 o1-preview、o1 和 GPT-4o 能在 20 回合內(nèi)占領(lǐng) 18 個(gè)補(bǔ)給中心,其他模型均失敗,反映 LLMs 在長(zhǎng)期戰(zhàn)略規(guī)劃上的局限性。
空間指令能力:
- o1 在基本命令(如移動(dòng)和攻擊)的成功率上超過(guò)其他模型(20-30%)。
- 對(duì)于需要多步或多智能體邏輯的復(fù)雜行動(dòng)(如自我支援和支援他人),所有模型的性能都明顯下降。
多玩家場(chǎng)景表現(xiàn):
- 隨著參與國(guó)數(shù)量增加(2-7),LLMs 的指令準(zhǔn)確性、攻擊成功率與供應(yīng)中心收益顯著下降,表明其難以應(yīng)對(duì)部分可觀測(cè)性與動(dòng)態(tài)聯(lián)盟關(guān)系的疊加復(fù)雜度。
- 對(duì)模型談判消息的分析表明,大型語(yǔ)言模型在談判中展現(xiàn)出差異化策略:所有模型均表現(xiàn)出高策略一致性(比率 > 0.90),其中 o1 的說(shuō)服力最強(qiáng)(接受率 65%),而 Claude 3.5 Haiku 較弱(36%)。多數(shù)模型傾向提出互利方案(如 GPT-4-turbo),但 DeepSeek-R1 和 3.5 Haiku 更傾向于引發(fā)沖突。盡管 GPT-4-turbo 擅長(zhǎng)換位思考,DeepSeek-R1 善用條件性戰(zhàn)術(shù),但從結(jié)果來(lái)看,所有模型均缺乏人類(lèi)談判者的策略靈活性 —— 尤其在復(fù)雜社交互動(dòng)中表現(xiàn)局限,反映出當(dāng)前 AI 的社會(huì)智能仍處于初級(jí)階段。
談判的負(fù)面影響:
- 引入談判往往會(huì)對(duì) o1 這樣的強(qiáng)推理模型產(chǎn)生反直覺(jué)的影響:執(zhí)行的指令數(shù)量與最終得分(補(bǔ)給中心 / 控制區(qū)域)大幅下降,而部分較弱模型反而表現(xiàn)穩(wěn)定。
- 這一結(jié)果表明,激烈的社交互動(dòng)可能會(huì)破壞強(qiáng)推理 LLM 的計(jì)劃連貫性和推理思維鏈,凸顯其 "思維鏈擴(kuò)展" 與社會(huì)智能間的潛在矛盾。
實(shí)驗(yàn)結(jié)論:LLM 的痛點(diǎn)與挑戰(zhàn)
通過(guò)這套涵蓋從基礎(chǔ)規(guī)劃到多智能體策略博弈的評(píng)測(cè),研究者得出了一些關(guān)鍵結(jié)論:
簡(jiǎn)單規(guī)劃還行,復(fù)雜規(guī)劃時(shí)大多不行
當(dāng)狀態(tài)空間小、可選動(dòng)作少時(shí),LLM 可以完成相當(dāng)不錯(cuò)的單步或短程規(guī)劃,但一旦問(wèn)題規(guī)模擴(kuò)張,或者游戲進(jìn)入中后期出現(xiàn)大量分支,模型就很快出現(xiàn)多步推理瓶頸,甚至輸出不合規(guī)則的行動(dòng)。
大模型背后的 "社交" 與 "規(guī)劃" 引擎仍需加強(qiáng)
本次評(píng)測(cè)表明了大模型在多步?jīng)Q策與他人意圖建模方面的不足。未來(lái)若想真正讓 LLM 在更復(fù)雜、更現(xiàn)實(shí)的多智能體協(xié)同場(chǎng)景發(fā)光發(fā)熱,我們需要更先進(jìn)的強(qiáng)化學(xué)習(xí)或多智能體訓(xùn)練框架,結(jié)合知識(shí)圖譜、記憶模塊或世界模型來(lái)避免推理鏈被輕易打斷。
不完全信息和多跳推斷是硬傷
在如 Hanabi 這類(lèi)帶 "隱含信息" 的合作游戲中,模型需要通過(guò)隊(duì)友提示來(lái)推理自己持有的牌。實(shí)驗(yàn)顯示,大多數(shù) LLM 依舊力不從心,也缺乏對(duì)他人思維進(jìn)行多跳推理的穩(wěn)定能力。
與人類(lèi)高水平協(xié)作仍有明顯差距
即便是表現(xiàn)最好的大模型,在需要深度合作(如 Hanabi)或多方談判(如 Diplomacy)時(shí),仍遠(yuǎn)遠(yuǎn)達(dá)不到人類(lèi)玩家的平均成績(jī)。這也從一個(gè)側(cè)面說(shuō)明:真實(shí)多智能體團(tuán)隊(duì)決策中,大模型還需要大量的結(jié)構(gòu)化規(guī)劃模塊與更豐富的交互記憶 / 推理機(jī)制。
作者的項(xiàng)目主頁(yè)提供了不同 LLM 之間的對(duì)戰(zhàn)以及游戲軌跡細(xì)節(jié)和任務(wù)的可視化:https://spinbench.github.io