自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

浙大&中科院讓Agent學(xué)會(huì)自我進(jìn)化,玩德州撲克心機(jī)盡顯

人工智能 新聞
在Policy-level Reflection之上,面對(duì)動(dòng)態(tài)的環(huán)境,Agent-Pro還采用了深度優(yōu)先搜索(DFS)和策略評(píng)估,來持續(xù)優(yōu)化世界模型和行為準(zhǔn)則,從而找到更優(yōu)的策略。

基于大模型的Agent,已經(jīng)成為了大型的博弈游戲的高級(jí)玩家,而且玩的還是德州撲克、21點(diǎn)這種非完美信息博弈。

來自浙江大學(xué)、中科院軟件所等機(jī)構(gòu)的研究人員提出了新的Agent進(jìn)化策略,從而打造了一款會(huì)玩德州撲克的“狡猾”智能體Agent-Pro。

通過不斷優(yōu)化自我構(gòu)建的世界模型和行為策略,Agent-Pro掌握了虛張聲勢(shì)、主動(dòng)放棄等人類高階游戲策略。

Agent-Pro以大模型為基座,通過自我優(yōu)化的Prompt來建模游戲世界模型和行為策略。

相比傳統(tǒng)的Agent框架,Agent-Pro能夠變通地應(yīng)對(duì)復(fù)雜的動(dòng)態(tài)的環(huán)境,而不是僅專注于特定任務(wù)。

而且,Agent-Pro還可以通過與環(huán)境互動(dòng)來優(yōu)化自己的行為,從而更好地達(dá)成人類設(shè)定的目標(biāo)。

圖片

同時(shí)作者還指出,在競爭、公司談判和安全等現(xiàn)實(shí)世界中遇到的情景,大多可以抽象為multi-agent博弈任務(wù),而Agent-Pro通過對(duì)這類情境的研究,為解決眾多現(xiàn)實(shí)世界的問題提供了有效策略。

那么,Agent-Pro在博弈游戲中的表現(xiàn)究竟如何呢?

進(jìn)化出游戲世界模型

在研究中,作者使用了“21點(diǎn)”和“有限注德州撲克”這兩款游戲?qū)gent進(jìn)行了評(píng)估。

首先簡要介紹下兩個(gè)博弈游戲的基本規(guī)則。

21點(diǎn)

  • 游戲中包含一個(gè)莊家和至少一名玩家。
  • 玩家可以看到自己的兩張手牌, 以及莊家的一張明牌,莊家還隱藏了一張暗牌。玩家需要決定是繼續(xù)要牌(Hit)還是停牌(Stand)。
  • 游戲的目標(biāo)是在總點(diǎn)數(shù)不超過21點(diǎn)的前提下,盡量使總點(diǎn)數(shù)超過莊家。

有限注德州撲克

  • 游戲開始階段為Preflop階段,每位玩家將獲得兩張只屬于自己且對(duì)其他玩家保密的私牌(Hand)。
  • 隨后,會(huì)有五張公共牌面(Public Cards)依次發(fā)出:首先翻牌(Flop)3 張,其次轉(zhuǎn)牌(Turn)1張,最后是河牌(River)1張。
  • 玩家有四種選擇:棄牌(fold)、過牌(check)、跟注(call)或加注(raise)。
  • 目標(biāo)是利用自己的兩張Hand和五張Public Cards任意組合,盡可能構(gòu)造出最佳的五張撲克牌組合。

在“21點(diǎn)”當(dāng)中,同樣是使用GPT-4作為基礎(chǔ)模型,Agent-Pro的表現(xiàn)超過了ReAct框架。

在手牌相同的情況下,二者的表現(xiàn)如下圖所示。

圖片

Agent-Pro通過分析得出自我信念(Self-Belief)和對(duì)外部世界的信念(World-Belief),正確認(rèn)識(shí)到自己的手牌已接近21點(diǎn),合理的選擇了停牌。

而ReAct則未能及時(shí)停牌,導(dǎo)致最終爆牌,輸?shù)袅擞螒颉?/p>

從游戲中能夠看出Agent-Pro更好的理解了游戲的規(guī)則,并給出了合理的選擇。

接下來再看看在德州撲克中Agent-Pro的表現(xiàn)。

一次牌局中,參賽選手分別是訓(xùn)練后的DQN、DMC策略,原生GPT3.5和Agent-Pro(基于GPT-4),他們的手牌和公共牌如下圖所示:

圖片

△S、H、C、D分別代表黑桃、紅桃、梅花、方塊

在當(dāng)前游戲狀態(tài)(Current game state)下,Agent-Pro分析得出Self-Belief、World-Belief和最終的Action,并隨著游戲狀態(tài)的變化,不斷更新Belief,根據(jù)自身和對(duì)手的情況,做出靈活合理的選擇。

圖片

△相同牌局同一位置的Baseline(原始大模型)結(jié)果為-13

統(tǒng)計(jì)數(shù)據(jù)上看,21點(diǎn)游戲中,在使用GPT、Llama等多種大模型的情況下,Agent-Pro的表現(xiàn)都顯著超過了原始模型和其他參與對(duì)比的Agents框架。

圖片

在更為復(fù)雜的德州撲克游戲中,Agent-Pro不僅超過了原始大模型,還擊敗了DMC等訓(xùn)練后的強(qiáng)化學(xué)習(xí)Agent。

圖片

那么,Agent-Pro是如何學(xué)習(xí)和進(jìn)化的呢?

三管齊下提高Agent表現(xiàn)

Agent-Pro包括“基于信念的決策”“策略層面的反思”和“世界模型和行為策略優(yōu)化”這三個(gè)組件。

基于信念的決策(Belief-aware Decision-making)

Agent-Pro根據(jù)環(huán)境信息,首先形成Self-Belief和World-Belief,然后基于這些Belief做出決策(Action)。

在后續(xù)環(huán)境交互中,Agent-Pro動(dòng)態(tài)更新Belief,進(jìn)而使做出的Action適應(yīng)環(huán)境的變化。

圖片

例如,德州撲克游戲中:

  • 環(huán)境信息可包括手牌(Private State)、公共牌(Public State)、行動(dòng)軌跡(Trajectory)等;
  • Agent-Pro對(duì)手牌(State)、出牌計(jì)劃(Plan)及潛在風(fēng)險(xiǎn)(Risk)的預(yù)估等信息構(gòu)成了它的Self-Belief;
  • 而Agent-Pro對(duì)對(duì)手(Opponent)、環(huán)境(Environment)和規(guī)則(Rule)的理解則構(gòu)成了它的World-Belief;
  • 這些Belief在每一個(gè)決策周期中都會(huì)被更新,從而影響下個(gè)周期中Action的產(chǎn)生

策略層面的反思(Policy-Level Reflection)

與人類一樣,Agent-Pro 會(huì)從歷史經(jīng)驗(yàn)、歷史認(rèn)知和歷史結(jié)果中進(jìn)行反思和優(yōu)化。它自主調(diào)整自己的Belief,尋找有用的提示指令,并將其整合到新的策略Policy中。

圖片

首先,Agent-Pro以文字的形式設(shè)計(jì)了一個(gè)對(duì)任務(wù)世界的建模以及對(duì)行為準(zhǔn)則的描述, 他們一起被當(dāng)做Policy:

  • World Modeling:任務(wù)世界的建模,例如對(duì)游戲環(huán)境的理解、對(duì)手們的風(fēng)格分析、環(huán)境中其他Agent的策略估計(jì)等;
  • Behavioral Guideline:行為準(zhǔn)則的描述,例如對(duì)游戲目標(biāo)的認(rèn)識(shí)、自己策略規(guī)劃、未來可能面臨的風(fēng)險(xiǎn)等

其次,為了更新World Modeling和Behavioral Guideline,Agent-Pro設(shè)計(jì)了一個(gè)Policy-level Reflection過程。

與Action-level Reflection不同,在Policy-level的反思中,Agent-Pro被引導(dǎo)去關(guān)注內(nèi)在和外在信念是否對(duì)齊最終結(jié)果,更重要的是,反思背后的世界模型是否準(zhǔn)確,行為準(zhǔn)則是否合理,而非針對(duì)單個(gè)Action。

例如,德州撲克游戲中Policy-level的反思是這樣的:

  • 在當(dāng)前世界模型和行為準(zhǔn)則(World Modeling & Behavioral Guideline)的指導(dǎo)下,Agent-Pro觀察到外部狀態(tài),然后生成Self-Belief和World-Belief,最后做出Action。但如果Belief不準(zhǔn)確,則可能導(dǎo)致不合邏輯的行動(dòng)和最終結(jié)果的失?。?/li>
  • Agent-Pro根據(jù)每一次的游戲來審視Belief的合理性,并反思導(dǎo)致最終失敗的原因(Correct,Consistent,Rationality…);
  • 然后,Agent-Pro將反思和對(duì)自身及外部世界的分析整理,生成新的行為準(zhǔn)則Behavioral Guideline和世界建模World Modeling;
  • 基于新生成的Policy(World Modeling & Behavioral Guideline),Agent-Pro重復(fù)進(jìn)行相同游戲,來進(jìn)行策略驗(yàn)證。如果最終分?jǐn)?shù)有所提高,則將更新后的World Modeling & Behavioral Guideline和保留在提示中。

世界模型和行為準(zhǔn)則的優(yōu)化(World Modeling & Behavioral Guideline Evolution)

在Policy-level Reflection之上,面對(duì)動(dòng)態(tài)的環(huán)境,Agent-Pro還采用了深度優(yōu)先搜索(DFS)策略評(píng)估,來持續(xù)優(yōu)化世界模型和行為準(zhǔn)則,從而找到更優(yōu)的策略。

圖片

策略評(píng)估是指Agent-Pro 在新的采樣的軌跡中對(duì)新Policy進(jìn)行更全面的評(píng)估,從而考察新策略的泛化能力。例如,德州撲克游戲中,新采樣多條游戲軌跡。

通過交換玩家位置或手牌,來消除由于運(yùn)氣帶來的隨機(jī)因素,從而更全面評(píng)估新策略的能力。

而DFS搜索則在新策略不能在新的場(chǎng)景中帶來預(yù)期的改進(jìn)(策略評(píng)估)時(shí)使用,按照DFS搜索策略,從其他候選策略中尋找更優(yōu)的策略。

論文地址:https://arxiv.org/abs/2402.17574
Github:https://github.com/zwq2018/Agent-Pro

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2017-05-15 15:07:36

納米材料農(nóng)藥

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2009-09-18 09:40:57

浪潮中科院合肥

2009-10-11 01:04:43

曙光中科院計(jì)算中心

2010-05-14 10:09:21

中科院LED無線上網(wǎng)

2016-04-19 12:51:26

2013-09-02 10:21:31

曙光核高基中科院

2009-07-21 09:47:59

龍芯中科院

2020-01-16 15:20:48

編程語言PythonJava

2022-02-19 08:21:21

中科院量子計(jì)算編程軟件

2018-07-27 08:58:25

2010-11-08 15:26:31

曙光服務(wù)器

2018-05-04 13:31:00

人工智能芯片云端

2011-12-28 17:30:17

開放平臺(tái)

2017-05-17 11:54:18

2009-07-18 13:10:20

中科院中國網(wǎng)絡(luò)戰(zhàn)

2018-02-23 12:41:05

阿里云處理器量子

2013-08-15 16:12:32

Enlogic中科院信息中心

2016-11-18 13:24:14

網(wǎng)絡(luò)升級(jí)銳捷

2017-10-11 20:03:51

阿里云南京云棲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)