東大華人博士讓GPT-4用「心智理論」玩德?lián)?!完勝傳統(tǒng)算法,碾壓人類新手
在完全信息博弈中,每個(gè)博弈者都知道所有信息要素。
但不完全信息博弈不同,它模擬了現(xiàn)實(shí)世界中在不確定或不完全信息下進(jìn)行決策的復(fù)雜性。
GPT-4作為目前最強(qiáng)大模型,具有非凡的知識(shí)檢索和推理能力。
但GPT-4能否利用已學(xué)習(xí)到的知識(shí)進(jìn)行不完全信息博弈?
為此,東京大學(xué)的研究人員引入了Suspicion Agent這一創(chuàng)新智能體,通過(guò)利用GPT-4的能力來(lái)執(zhí)行不完全信息博弈。
論文地址:https://arxiv.org/abs/2309.17277
在研究中,基于GPT-4的Suspicion Agent能夠通過(guò)適當(dāng)?shù)奶崾竟こ虂?lái)實(shí)現(xiàn)不同的功能,并在一系列不完全信息牌局中表現(xiàn)出了卓越的適應(yīng)性。
最重要的是,博弈過(guò)程中,GPT-4表現(xiàn)出了強(qiáng)大的高階心智理論(ToM)能力。
GPT-4可以利用自己對(duì)人類認(rèn)知的理解來(lái)預(yù)測(cè)對(duì)手的思維過(guò)程、易感性和行動(dòng)。
這意味著GPT-4具備像人類一樣理解他人并有意影響他人的行為。
同樣的,基于GPT-4的智能體在不完全信息博弈中的表現(xiàn)也優(yōu)于傳統(tǒng)算法,這可能會(huì)激發(fā)LLM在不完全信息博弈中的更多應(yīng)用。
訓(xùn)練方法
為了讓LLM能夠在沒(méi)有專門訓(xùn)練的情況下玩各種不完全信息博弈游戲,研究人員將整個(gè)任務(wù)分解為下圖所示的幾個(gè)模塊,如觀察解釋器、游戲模式分析和規(guī)劃模塊。
并且,為了緩解LLM在不完全信息游戲中可能會(huì)被誤導(dǎo)這一問(wèn)題,研究人員首先開發(fā)了結(jié)構(gòu)化提示,幫助LLM理解游戲規(guī)則和當(dāng)前狀態(tài)。
對(duì)于每種類型的不完全信息博弈,都可以編寫如下結(jié)構(gòu)化規(guī)則描述:
一般規(guī)則:游戲簡(jiǎn)介、回合數(shù)和投注規(guī)則;
動(dòng)作描述:(動(dòng)作 1 的描述)、(動(dòng)作 2 的描述)......;
單局輸贏規(guī)則:?jiǎn)尉州斱A或平局的條件;
輸贏回報(bào)規(guī)則:?jiǎn)尉州斱A的獎(jiǎng)勵(lì)或懲罰;
整局輸贏規(guī)則:對(duì)局?jǐn)?shù)和整體輸贏條件。
在大多數(shù)不完全信息博弈環(huán)境中,博弈狀態(tài)通常表示為低級(jí)數(shù)值,如單擊向量,以方便機(jī)器學(xué)習(xí)。
但通過(guò)LLM,就可以將低層次的博弈狀態(tài)轉(zhuǎn)換為自然語(yǔ)言文本,從而幫助模式的理解:
輸入說(shuō)明:接收到的輸入類型,如字典、列表或其他格式,并描述游戲狀態(tài)中的元素?cái)?shù)量以及每個(gè)元素的名稱;
元素描述:(元素 11 的描述,(元素 2 的描述),....
轉(zhuǎn)換提示:將低級(jí)游戲狀態(tài)轉(zhuǎn)換為文本的更多指南。
利用博弈規(guī)則和觀測(cè)轉(zhuǎn)換規(guī)則,可以有效地將低級(jí)博弈狀態(tài)轉(zhuǎn)換為可讀文本,記為。
這種可讀文本能夠作為L(zhǎng)LM的輸入。使用
,生成文本中每個(gè)元素的條件分布可以建模為:
這里,代表語(yǔ)言模型,參數(shù)為
,M是生成文本
的長(zhǎng)度,此模塊命名為觀察解釋器。
在不完全信息博弈中,這種表述方式能更容易理解與模型之間的交互。
研究人員引入了一種虛無(wú)規(guī)劃方法,該方法具有一個(gè)Reflexion模塊,旨在自動(dòng)檢查對(duì)局歷史,使LLMs能夠從歷史經(jīng)驗(yàn)中學(xué)習(xí)和改進(jìn)規(guī)劃,以及一個(gè)單獨(dú)的規(guī)劃模塊,專門用于做出相應(yīng)的決策。
然而,虛無(wú)的規(guī)劃方法往往難以應(yīng)對(duì)不完全信息博弈中固有的不確定性,尤其是在面對(duì)善于利用他人策略的對(duì)手時(shí)。
受這種適應(yīng)性的啟發(fā),研究人員設(shè)計(jì)出了一種新的規(guī)劃方法,即利用LLM的ToM能力來(lái)了解對(duì)手的行為,從而相應(yīng)地調(diào)整策略。
實(shí)驗(yàn)
定量評(píng)估
如表1所示,Suspicion Agent優(yōu)于所有基線,并且基于GPT-4的Suspicion Agent在比較中獲得了最高的平均籌碼數(shù)。
這些發(fā)現(xiàn)有力地展示了在不完全信息博弈領(lǐng)域采用大型語(yǔ)言模型的優(yōu)勢(shì),同時(shí)也證明了研究提出框架的有效性。
下圖表明了Suspicion Agent和基線模型的行動(dòng)百分比。
可以觀察到:
Suspicion Agent vs CFR:CFR算法是一種保守策略,它傾向于保守,經(jīng)常在持有弱牌時(shí)棄牌。
而Suspicion Agent成功識(shí)別了這一模式,并策略性地選擇更頻繁地加注,向 CFR 施加棄牌壓力。
這使得即使Suspicion Agent的牌很弱或與CFR的牌相當(dāng)?shù)那闆r下,它積累了更多籌碼。
Suspicion Agent vs DMC:DMC基于搜索算法,采用了更多樣化的策略,包括虛張聲勢(shì)。它經(jīng)常在自己手牌最弱和最強(qiáng)時(shí)都會(huì)加注。
作為回應(yīng),Suspicion Agent根據(jù)自己的手牌和觀察到的DMC的行為,減少了加注頻率,并更多地選擇跟注或棄牌。
Suspicion Agent vs DON:DON算法的立場(chǎng)更加激進(jìn),幾乎總是用強(qiáng)牌或中級(jí)牌加注,從不棄牌。
Suspicion Agent發(fā)現(xiàn)了這一點(diǎn),并反過(guò)來(lái)盡量減少自己的加注,更多地根據(jù)公共牌和DON的行動(dòng)選擇跟注或棄牌。
Suspicion Agent Vs NFSP:NFSP表現(xiàn)出跟注策略,選擇總是跟注并從不棄牌。
Suspicion Agent的應(yīng)對(duì)方式是減少加注頻率,并根據(jù)公共牌和NFSP觀察到的行動(dòng)選擇棄牌。
根據(jù)上述分析結(jié)果,可以看到Suspicion Agent具有很強(qiáng)的適應(yīng)性,能夠利用其他各種算法所采用策略的弱點(diǎn)。
這充分說(shuō)明了大語(yǔ)言模型在不完美信息博弈中的推理和適應(yīng)能力。
定性評(píng)估
在定性評(píng)估中,研究人員在三個(gè)不完全信息博弈游戲(Coup、Texas Hold'emLimit 和 Leduc Hold'em)中對(duì)Suspicion Agent進(jìn)行了評(píng)估。
Coup,中文翻譯是政變,這是一種紙牌游戲,玩家扮演政治家,試圖推翻其他玩家的政權(quán)。游戲的目標(biāo)是在游戲中存活并積累權(quán)力。
Texas Hold'em Limit,即德州撲克(有限注),是一種非常流行的撲克牌游戲,有多個(gè)變體?!窵imit」表示在每輪下注中有固定的上限,這意味著玩家只能下固定數(shù)額的賭注。
Leduc Hold'em是則是德州撲克的一個(gè)簡(jiǎn)化版本,用于研究博弈論和人工智能。
在每種情況下,Suspicion Agent手中有一張Jack,而對(duì)手要么有一張Jack,要么有一張Queen。
對(duì)手最初選擇跟注而不是加注,暗示他們手牌較弱。在普通計(jì)劃策略下,Suspicion Agent選擇跟注以查看公共牌。
當(dāng)這揭示出對(duì)手手牌較弱時(shí),對(duì)手迅速加注,使Suspicion Agent處于不穩(wěn)定的局面,因?yàn)镴ack是最弱的手牌。
在一階理論心智策略下,Suspicion Agent選擇棄牌,以最小化損失。這個(gè)決定是基于觀察到對(duì)手通常在手中有Queen或Jack時(shí)才跟注。
然而,這些策略未能充分利用對(duì)手手牌的推測(cè)弱點(diǎn)。這一缺點(diǎn)源于它們不考慮Suspicion Agent的舉動(dòng)可能如何影響對(duì)手的反應(yīng)。
相比之下,如圖9所示,簡(jiǎn)單的提示能夠讓Suspicion Agent了解如何影響對(duì)手的行動(dòng)。有意選擇加注會(huì)給對(duì)手帶來(lái)壓力,促使他們棄牌并最小化損失。
因此,即使手牌的強(qiáng)度相似,Suspicion Agent也能夠贏得許多比賽,從而比基線贏得更多的籌碼。
此外,如圖10所示,在對(duì)手跟注或回應(yīng)Suspicion Agent的加注情況下(這表明對(duì)手手牌強(qiáng)大),Suspicion Agent就會(huì)迅速調(diào)整策略,選擇棄牌以防止進(jìn)一步損失。
這顯示了Suspicion Agent的出色戰(zhàn)略靈活性。
消融研究與組件分析
為了探索不同階ToM感知規(guī)劃方法如何影響大型語(yǔ)言模型的行為,研究人員在Leduc Hold'em和plaagainst CFR上進(jìn)行了實(shí)驗(yàn)和比較。
圖5中展示了采用不同ToM水平規(guī)劃的Suspicion Agent的行動(dòng)百分比,并在表3中展示了籌碼收益結(jié)果。
表3:Suspicion Agent在使用不同級(jí)別ToM與CFRonLeduc Hold'em環(huán)境對(duì)弈時(shí)的比較結(jié)果以及100局游戲后的量化結(jié)果
可以觀察到:
基于Reflexion modulevanilla規(guī)劃在對(duì)局過(guò)程中傾向于更多地跟注和過(guò)牌(在對(duì)陣CFR和DMC時(shí)跟注和過(guò)牌比例最高),這無(wú)法施加壓力使對(duì)手棄牌,并導(dǎo)致許多不必要的損失。
但如表3所示,vanilla計(jì)劃的籌碼收益最低。
利用一階ToM,Suspicion Agent能夠根據(jù)自己的牌力和對(duì)對(duì)手牌力的估計(jì)做出決策。
因此,它加注的次數(shù)會(huì)多于普通計(jì)劃,但它棄牌的次數(shù)往往多于其他策略,目的是盡量減少不必要的損失。然而,這種謹(jǐn)慎的方法會(huì)被精明的對(duì)手模型所利用。
例如,DMC經(jīng)常在拿著最弱的一手牌時(shí)加注,而CFR有時(shí)甚至?xí)谀弥屑?jí)牌時(shí)加注,以對(duì)Suspicion Agent施加壓力。在這些情況下,Suspicion Agent的加倍傾向會(huì)導(dǎo)致?lián)p失。
相比之下,Suspicion Agent更擅長(zhǎng)識(shí)別和利用對(duì)手模型的行為模式。
具體來(lái)說(shuō),當(dāng)CFR選擇過(guò)牌(通常表示手牌較弱)或當(dāng)DMC過(guò)牌(表明其手牌與公共牌不一致)時(shí),Suspicion Agent會(huì)以虛張聲勢(shì)的方式加注,誘使對(duì)手棄牌。
因此,Suspicion Agent在三種規(guī)劃方法中表現(xiàn)出最高的加注率。
這種激進(jìn)的策略讓Suspicion Agent即使手持弱牌也能積累更多籌碼,從而最大限度地提高籌碼收益。
為了評(píng)估后視觀察的影響,研究人員進(jìn)行了一項(xiàng)后視觀察不納入當(dāng)前游戲的消融研究。
如表4和表5所示,在沒(méi)有后視觀察觀察的情況下,Suspicion Agent仍能保持其相對(duì)于基線方法的性能優(yōu)勢(shì)。
表4:比較結(jié)果表明了在萊德克牌局環(huán)境中將對(duì)手觀察結(jié)果納入對(duì)局歷史的影響
表5:比較結(jié)果表明,當(dāng)Suspicion Agent在 Leduc Hold'em 環(huán)境中與CFR對(duì)弈時(shí),在對(duì)局歷史中加入對(duì)手觀察結(jié)果的影響。結(jié)果是使用不同種子進(jìn)行100局對(duì)局后的輸贏籌碼,輸贏籌碼數(shù)從1到14不等
結(jié)論
Suspicion Agent沒(méi)有進(jìn)行任何專門的訓(xùn)練,僅僅利用GPT-4的先驗(yàn)知識(shí)和推理能力,就能在Leduc Hold'em等不同的不完全信息游戲中戰(zhàn)勝專門針對(duì)這些游戲訓(xùn)練的算法,如CFR和NFSP。
這表明大模型具有在不完全信息游戲中取得強(qiáng)大表現(xiàn)的潛力。
通過(guò)整合一階和二階理論心智模型,Suspicion Agent可以預(yù)測(cè)對(duì)手的行為,并相應(yīng)調(diào)整自己的策略。這使得它可以對(duì)不同類型對(duì)手進(jìn)行適應(yīng)。
Suspicion Agent還展示了跨不同不完全信息游戲的泛化能力,僅僅根據(jù)游戲規(guī)則和觀察規(guī)則,就可以在Coup和Texas Hold'em等游戲中進(jìn)行決策。
但Suspicion Agent也有著一定的局限性。例如,由于計(jì)算成本限制,對(duì)不同算法的評(píng)估樣本量較小。
以及推理成本高昂,每局游戲耗費(fèi)接近1美元,并且Suspicion Agent的輸出對(duì)提示的敏感性較高,存在hallucination的問(wèn)題。
同時(shí),在進(jìn)行復(fù)雜推理和計(jì)算時(shí),Suspicion Agent的表現(xiàn)也不盡人意。
未來(lái),Suspicion Agent將在計(jì)算效率、推理魯棒性等方面進(jìn)行改進(jìn),并支持多模態(tài)和多步推理,來(lái)實(shí)現(xiàn)對(duì)復(fù)雜游戲環(huán)境的更好適應(yīng)。
同時(shí),Suspicion Agent在不完全信息博弈游戲中的應(yīng)用,也可以遷移到未來(lái)多模態(tài)信息的整合,模擬更真實(shí)的交互、擴(kuò)展到多玩家游戲環(huán)境中。