自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="jcr6v"><p id="jcr6v"><menu id="jcr6v"></menu></p></sub>

^{<blockquote id="jcr6v"></blockquote>}

<cite id="jcr6v"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

浙大&中科院讓Agent學(xué)會(huì)自我進(jìn)化，玩德州撲克心機(jī)盡顯

作者：量子位 2024-03-12 13:27:13

人工智能新聞

在Policy-level Reflection之上，面對(duì)動(dòng)態(tài)的環(huán)境，Agent-Pro還采用了深度優(yōu)先搜索（DFS）和策略評(píng)估，來持續(xù)優(yōu)化世界模型和行為準(zhǔn)則，從而找到更優(yōu)的策略。

基于大模型的Agent，已經(jīng)成為了大型的博弈游戲的高級(jí)玩家，而且玩的還是德州撲克、21點(diǎn)這種非完美信息博弈。

來自浙江大學(xué)、中科院軟件所等機(jī)構(gòu)的研究人員提出了新的Agent進(jìn)化策略，從而打造了一款會(huì)玩德州撲克的“狡猾”智能體Agent-Pro。

通過不斷優(yōu)化自我構(gòu)建的世界模型和行為策略，Agent-Pro掌握了虛張聲勢(shì)、主動(dòng)放棄等人類高階游戲策略。

Agent-Pro以大模型為基座，通過自我優(yōu)化的Prompt來建模游戲世界模型和行為策略。

相比傳統(tǒng)的Agent框架，Agent-Pro能夠變通地應(yīng)對(duì)復(fù)雜的動(dòng)態(tài)的環(huán)境，而不是僅專注于特定任務(wù)。

而且，Agent-Pro還可以通過與環(huán)境互動(dòng)來優(yōu)化自己的行為，從而更好地達(dá)成人類設(shè)定的目標(biāo)。

同時(shí)作者還指出，在競爭、公司談判和安全等現(xiàn)實(shí)世界中遇到的情景，大多可以抽象為multi-agent博弈任務(wù)，而Agent-Pro通過對(duì)這類情境的研究，為解決眾多現(xiàn)實(shí)世界的問題提供了有效策略。

那么，Agent-Pro在博弈游戲中的表現(xiàn)究竟如何呢？

進(jìn)化出游戲世界模型

在研究中，作者使用了“21點(diǎn)”和“有限注德州撲克”這兩款游戲?qū)gent進(jìn)行了評(píng)估。

首先簡要介紹下兩個(gè)博弈游戲的基本規(guī)則。

21點(diǎn)

游戲中包含一個(gè)莊家和至少一名玩家。
玩家可以看到自己的兩張手牌, 以及莊家的一張明牌，莊家還隱藏了一張暗牌。玩家需要決定是繼續(xù)要牌（Hit）還是停牌（Stand）。
游戲的目標(biāo)是在總點(diǎn)數(shù)不超過21點(diǎn)的前提下，盡量使總點(diǎn)數(shù)超過莊家。

有限注德州撲克

游戲開始階段為Preflop階段，每位玩家將獲得兩張只屬于自己且對(duì)其他玩家保密的私牌（Hand）。
隨后，會(huì)有五張公共牌面(Public Cards)依次發(fā)出：首先翻牌（Flop）3 張，其次轉(zhuǎn)牌（Turn）1張，最后是河牌(River）1張。
玩家有四種選擇：棄牌（fold）、過牌（check）、跟注（call）或加注（raise）。
目標(biāo)是利用自己的兩張Hand和五張Public Cards任意組合，盡可能構(gòu)造出最佳的五張撲克牌組合。

在“21點(diǎn)”當(dāng)中，同樣是使用GPT-4作為基礎(chǔ)模型，Agent-Pro的表現(xiàn)超過了ReAct框架。

在手牌相同的情況下，二者的表現(xiàn)如下圖所示。

Agent-Pro通過分析得出自我信念（Self-Belief）和對(duì)外部世界的信念（World-Belief），正確認(rèn)識(shí)到自己的手牌已接近21點(diǎn)，合理的選擇了停牌。

而ReAct則未能及時(shí)停牌，導(dǎo)致最終爆牌，輸?shù)袅擞螒颉?/p>

從游戲中能夠看出Agent-Pro更好的理解了游戲的規(guī)則，并給出了合理的選擇。

接下來再看看在德州撲克中Agent-Pro的表現(xiàn)。

一次牌局中，參賽選手分別是訓(xùn)練后的DQN、DMC策略，原生GPT3.5和Agent-Pro（基于GPT-4），他們的手牌和公共牌如下圖所示：

△S、H、C、D分別代表黑桃、紅桃、梅花、方塊

在當(dāng)前游戲狀態(tài)（Current game state）下，Agent-Pro分析得出Self-Belief、World-Belief和最終的Action，并隨著游戲狀態(tài)的變化，不斷更新Belief，根據(jù)自身和對(duì)手的情況，做出靈活合理的選擇。

△相同牌局同一位置的Baseline（原始大模型）結(jié)果為-13

統(tǒng)計(jì)數(shù)據(jù)上看，21點(diǎn)游戲中，在使用GPT、Llama等多種大模型的情況下，Agent-Pro的表現(xiàn)都顯著超過了原始模型和其他參與對(duì)比的Agents框架。

在更為復(fù)雜的德州撲克游戲中，Agent-Pro不僅超過了原始大模型，還擊敗了DMC等訓(xùn)練后的強(qiáng)化學(xué)習(xí)Agent。

那么，Agent-Pro是如何學(xué)習(xí)和進(jìn)化的呢？

三管齊下提高Agent表現(xiàn)

Agent-Pro包括“基于信念的決策”“策略層面的反思”和“世界模型和行為策略優(yōu)化”這三個(gè)組件。

基于信念的決策（Belief-aware Decision-making）

Agent-Pro根據(jù)環(huán)境信息，首先形成Self-Belief和World-Belief，然后基于這些Belief做出決策（Action）。

在后續(xù)環(huán)境交互中，Agent-Pro動(dòng)態(tài)更新Belief，進(jìn)而使做出的Action適應(yīng)環(huán)境的變化。

例如，德州撲克游戲中：

環(huán)境信息可包括手牌（Private State）、公共牌（Public State）、行動(dòng)軌跡（Trajectory）等；
Agent-Pro對(duì)手牌（State）、出牌計(jì)劃（Plan）及潛在風(fēng)險(xiǎn)（Risk）的預(yù)估等信息構(gòu)成了它的Self-Belief；
而Agent-Pro對(duì)對(duì)手（Opponent）、環(huán)境（Environment）和規(guī)則（Rule）的理解則構(gòu)成了它的World-Belief；
這些Belief在每一個(gè)決策周期中都會(huì)被更新，從而影響下個(gè)周期中Action的產(chǎn)生

策略層面的反思（Policy-Level Reflection)

與人類一樣，Agent-Pro 會(huì)從歷史經(jīng)驗(yàn)、歷史認(rèn)知和歷史結(jié)果中進(jìn)行反思和優(yōu)化。它自主調(diào)整自己的Belief，尋找有用的提示指令，并將其整合到新的策略Policy中。

首先，Agent-Pro以文字的形式設(shè)計(jì)了一個(gè)對(duì)任務(wù)世界的建模以及對(duì)行為準(zhǔn)則的描述，他們一起被當(dāng)做Policy：

World Modeling：任務(wù)世界的建模，例如對(duì)游戲環(huán)境的理解、對(duì)手們的風(fēng)格分析、環(huán)境中其他Agent的策略估計(jì)等；
Behavioral Guideline：行為準(zhǔn)則的描述，例如對(duì)游戲目標(biāo)的認(rèn)識(shí)、自己策略規(guī)劃、未來可能面臨的風(fēng)險(xiǎn)等

其次，為了更新World Modeling和Behavioral Guideline，Agent-Pro設(shè)計(jì)了一個(gè)Policy-level Reflection過程。

與Action-level Reflection不同，在Policy-level的反思中，Agent-Pro被引導(dǎo)去關(guān)注內(nèi)在和外在信念是否對(duì)齊最終結(jié)果，更重要的是，反思背后的世界模型是否準(zhǔn)確，行為準(zhǔn)則是否合理，而非針對(duì)單個(gè)Action。

例如，德州撲克游戲中Policy-level的反思是這樣的：

在當(dāng)前世界模型和行為準(zhǔn)則(World Modeling & Behavioral Guideline)的指導(dǎo)下，Agent-Pro觀察到外部狀態(tài)，然后生成Self-Belief和World-Belief，最后做出Action。但如果Belief不準(zhǔn)確，則可能導(dǎo)致不合邏輯的行動(dòng)和最終結(jié)果的失?。?/li>
Agent-Pro根據(jù)每一次的游戲來審視Belief的合理性，并反思導(dǎo)致最終失敗的原因（Correct，Consistent，Rationality…）；
然后，Agent-Pro將反思和對(duì)自身及外部世界的分析整理，生成新的行為準(zhǔn)則Behavioral Guideline和世界建模World Modeling；
基于新生成的Policy（World Modeling & Behavioral Guideline），Agent-Pro重復(fù)進(jìn)行相同游戲，來進(jìn)行策略驗(yàn)證。如果最終分?jǐn)?shù)有所提高，則將更新后的World Modeling & Behavioral Guideline和保留在提示中。

世界模型和行為準(zhǔn)則的優(yōu)化（World Modeling & Behavioral Guideline Evolution）

在Policy-level Reflection之上，面對(duì)動(dòng)態(tài)的環(huán)境，Agent-Pro還采用了深度優(yōu)先搜索（DFS）和策略評(píng)估，來持續(xù)優(yōu)化世界模型和行為準(zhǔn)則，從而找到更優(yōu)的策略。

策略評(píng)估是指Agent-Pro 在新的采樣的軌跡中對(duì)新Policy進(jìn)行更全面的評(píng)估，從而考察新策略的泛化能力。例如，德州撲克游戲中，新采樣多條游戲軌跡。

通過交換玩家位置或手牌，來消除由于運(yùn)氣帶來的隨機(jī)因素，從而更全面評(píng)估新策略的能力。

而DFS搜索則在新策略不能在新的場(chǎng)景中帶來預(yù)期的改進(jìn)（策略評(píng)估）時(shí)使用，按照DFS搜索策略，從其他候選策略中尋找更優(yōu)的策略。

論文地址：https://arxiv.org/abs/2402.17574
Github:https://github.com/zwq2018/Agent-Pro

責(zé)任編輯：張燕妮來源：量子位

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營