浙大&中科院讓Agent學(xué)會(huì)自我進(jìn)化,玩德州撲克心機(jī)盡顯
基于大模型的Agent,已經(jīng)成為了大型的博弈游戲的高級(jí)玩家,而且玩的還是德州撲克、21點(diǎn)這種非完美信息博弈。
來自浙江大學(xué)、中科院軟件所等機(jī)構(gòu)的研究人員提出了新的Agent進(jìn)化策略,從而打造了一款會(huì)玩德州撲克的“狡猾”智能體Agent-Pro。
通過不斷優(yōu)化自我構(gòu)建的世界模型和行為策略,Agent-Pro掌握了虛張聲勢(shì)、主動(dòng)放棄等人類高階游戲策略。
Agent-Pro以大模型為基座,通過自我優(yōu)化的Prompt來建模游戲世界模型和行為策略。
相比傳統(tǒng)的Agent框架,Agent-Pro能夠變通地應(yīng)對(duì)復(fù)雜的動(dòng)態(tài)的環(huán)境,而不是僅專注于特定任務(wù)。
而且,Agent-Pro還可以通過與環(huán)境互動(dòng)來優(yōu)化自己的行為,從而更好地達(dá)成人類設(shè)定的目標(biāo)。
同時(shí)作者還指出,在競爭、公司談判和安全等現(xiàn)實(shí)世界中遇到的情景,大多可以抽象為multi-agent博弈任務(wù),而Agent-Pro通過對(duì)這類情境的研究,為解決眾多現(xiàn)實(shí)世界的問題提供了有效策略。
那么,Agent-Pro在博弈游戲中的表現(xiàn)究竟如何呢?
進(jìn)化出游戲世界模型
在研究中,作者使用了“21點(diǎn)”和“有限注德州撲克”這兩款游戲?qū)gent進(jìn)行了評(píng)估。
首先簡要介紹下兩個(gè)博弈游戲的基本規(guī)則。
21點(diǎn)
- 游戲中包含一個(gè)莊家和至少一名玩家。
- 玩家可以看到自己的兩張手牌, 以及莊家的一張明牌,莊家還隱藏了一張暗牌。玩家需要決定是繼續(xù)要牌(Hit)還是停牌(Stand)。
- 游戲的目標(biāo)是在總點(diǎn)數(shù)不超過21點(diǎn)的前提下,盡量使總點(diǎn)數(shù)超過莊家。
有限注德州撲克
- 游戲開始階段為Preflop階段,每位玩家將獲得兩張只屬于自己且對(duì)其他玩家保密的私牌(Hand)。
- 隨后,會(huì)有五張公共牌面(Public Cards)依次發(fā)出:首先翻牌(Flop)3 張,其次轉(zhuǎn)牌(Turn)1張,最后是河牌(River)1張。
- 玩家有四種選擇:棄牌(fold)、過牌(check)、跟注(call)或加注(raise)。
- 目標(biāo)是利用自己的兩張Hand和五張Public Cards任意組合,盡可能構(gòu)造出最佳的五張撲克牌組合。
在“21點(diǎn)”當(dāng)中,同樣是使用GPT-4作為基礎(chǔ)模型,Agent-Pro的表現(xiàn)超過了ReAct框架。
在手牌相同的情況下,二者的表現(xiàn)如下圖所示。
Agent-Pro通過分析得出自我信念(Self-Belief)和對(duì)外部世界的信念(World-Belief),正確認(rèn)識(shí)到自己的手牌已接近21點(diǎn),合理的選擇了停牌。
而ReAct則未能及時(shí)停牌,導(dǎo)致最終爆牌,輸?shù)袅擞螒颉?/p>
從游戲中能夠看出Agent-Pro更好的理解了游戲的規(guī)則,并給出了合理的選擇。
接下來再看看在德州撲克中Agent-Pro的表現(xiàn)。
一次牌局中,參賽選手分別是訓(xùn)練后的DQN、DMC策略,原生GPT3.5和Agent-Pro(基于GPT-4),他們的手牌和公共牌如下圖所示:
△S、H、C、D分別代表黑桃、紅桃、梅花、方塊
在當(dāng)前游戲狀態(tài)(Current game state)下,Agent-Pro分析得出Self-Belief、World-Belief和最終的Action,并隨著游戲狀態(tài)的變化,不斷更新Belief,根據(jù)自身和對(duì)手的情況,做出靈活合理的選擇。
△相同牌局同一位置的Baseline(原始大模型)結(jié)果為-13
統(tǒng)計(jì)數(shù)據(jù)上看,21點(diǎn)游戲中,在使用GPT、Llama等多種大模型的情況下,Agent-Pro的表現(xiàn)都顯著超過了原始模型和其他參與對(duì)比的Agents框架。
在更為復(fù)雜的德州撲克游戲中,Agent-Pro不僅超過了原始大模型,還擊敗了DMC等訓(xùn)練后的強(qiáng)化學(xué)習(xí)Agent。
那么,Agent-Pro是如何學(xué)習(xí)和進(jìn)化的呢?
三管齊下提高Agent表現(xiàn)
Agent-Pro包括“基于信念的決策”“策略層面的反思”和“世界模型和行為策略優(yōu)化”這三個(gè)組件。
基于信念的決策(Belief-aware Decision-making)
Agent-Pro根據(jù)環(huán)境信息,首先形成Self-Belief和World-Belief,然后基于這些Belief做出決策(Action)。
在后續(xù)環(huán)境交互中,Agent-Pro動(dòng)態(tài)更新Belief,進(jìn)而使做出的Action適應(yīng)環(huán)境的變化。
例如,德州撲克游戲中:
- 環(huán)境信息可包括手牌(Private State)、公共牌(Public State)、行動(dòng)軌跡(Trajectory)等;
- Agent-Pro對(duì)手牌(State)、出牌計(jì)劃(Plan)及潛在風(fēng)險(xiǎn)(Risk)的預(yù)估等信息構(gòu)成了它的Self-Belief;
- 而Agent-Pro對(duì)對(duì)手(Opponent)、環(huán)境(Environment)和規(guī)則(Rule)的理解則構(gòu)成了它的World-Belief;
- 這些Belief在每一個(gè)決策周期中都會(huì)被更新,從而影響下個(gè)周期中Action的產(chǎn)生
策略層面的反思(Policy-Level Reflection)
與人類一樣,Agent-Pro 會(huì)從歷史經(jīng)驗(yàn)、歷史認(rèn)知和歷史結(jié)果中進(jìn)行反思和優(yōu)化。它自主調(diào)整自己的Belief,尋找有用的提示指令,并將其整合到新的策略Policy中。
首先,Agent-Pro以文字的形式設(shè)計(jì)了一個(gè)對(duì)任務(wù)世界的建模以及對(duì)行為準(zhǔn)則的描述, 他們一起被當(dāng)做Policy:
- World Modeling:任務(wù)世界的建模,例如對(duì)游戲環(huán)境的理解、對(duì)手們的風(fēng)格分析、環(huán)境中其他Agent的策略估計(jì)等;
- Behavioral Guideline:行為準(zhǔn)則的描述,例如對(duì)游戲目標(biāo)的認(rèn)識(shí)、自己策略規(guī)劃、未來可能面臨的風(fēng)險(xiǎn)等
其次,為了更新World Modeling和Behavioral Guideline,Agent-Pro設(shè)計(jì)了一個(gè)Policy-level Reflection過程。
與Action-level Reflection不同,在Policy-level的反思中,Agent-Pro被引導(dǎo)去關(guān)注內(nèi)在和外在信念是否對(duì)齊最終結(jié)果,更重要的是,反思背后的世界模型是否準(zhǔn)確,行為準(zhǔn)則是否合理,而非針對(duì)單個(gè)Action。
例如,德州撲克游戲中Policy-level的反思是這樣的:
- 在當(dāng)前世界模型和行為準(zhǔn)則(World Modeling & Behavioral Guideline)的指導(dǎo)下,Agent-Pro觀察到外部狀態(tài),然后生成Self-Belief和World-Belief,最后做出Action。但如果Belief不準(zhǔn)確,則可能導(dǎo)致不合邏輯的行動(dòng)和最終結(jié)果的失?。?/li>
- Agent-Pro根據(jù)每一次的游戲來審視Belief的合理性,并反思導(dǎo)致最終失敗的原因(Correct,Consistent,Rationality…);
- 然后,Agent-Pro將反思和對(duì)自身及外部世界的分析整理,生成新的行為準(zhǔn)則Behavioral Guideline和世界建模World Modeling;
- 基于新生成的Policy(World Modeling & Behavioral Guideline),Agent-Pro重復(fù)進(jìn)行相同游戲,來進(jìn)行策略驗(yàn)證。如果最終分?jǐn)?shù)有所提高,則將更新后的World Modeling & Behavioral Guideline和保留在提示中。
世界模型和行為準(zhǔn)則的優(yōu)化(World Modeling & Behavioral Guideline Evolution)
在Policy-level Reflection之上,面對(duì)動(dòng)態(tài)的環(huán)境,Agent-Pro還采用了深度優(yōu)先搜索(DFS)和策略評(píng)估,來持續(xù)優(yōu)化世界模型和行為準(zhǔn)則,從而找到更優(yōu)的策略。
策略評(píng)估是指Agent-Pro 在新的采樣的軌跡中對(duì)新Policy進(jìn)行更全面的評(píng)估,從而考察新策略的泛化能力。例如,德州撲克游戲中,新采樣多條游戲軌跡。
通過交換玩家位置或手牌,來消除由于運(yùn)氣帶來的隨機(jī)因素,從而更全面評(píng)估新策略的能力。
而DFS搜索則在新策略不能在新的場(chǎng)景中帶來預(yù)期的改進(jìn)(策略評(píng)估)時(shí)使用,按照DFS搜索策略,從其他候選策略中尋找更優(yōu)的策略。
論文地址:https://arxiv.org/abs/2402.17574
Github:https://github.com/zwq2018/Agent-Pro