自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vpgn1"></sub>

<cite id="vpgn1"></cite>

<thead id="vpgn1"></thead>

<blockquote id="vpgn1"><i id="vpgn1"><video id="vpgn1"></video></i></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

為什么策略梯度法在協(xié)作性MARL中如此高效？

作者：朱先忠 2022-08-05 11:01:18

開(kāi)發(fā) 架構(gòu)

為什么PG方法可以如此有效？在本文中，我們將展開(kāi)具體的分析以表明在某些場(chǎng)景中，例如在具有高度多模式獎(jiǎng)勵(lì)景觀的環(huán)境中，虛擬現(xiàn)實(shí)可能存在的問(wèn)題并導(dǎo)致不期望的結(jié)果。

?譯者 | 朱先忠

審校 | 孫淑娟

在協(xié)作性多智能體強(qiáng)化學(xué)習(xí)（multi-agentreinforcement learning：MARL）中，由于其基于策略的性質(zhì)，通常認(rèn)為策略梯度（policy gradient：PG）方法的樣本效率低于非策略的值分解（value decomposition：VD）方法。然而，最近的一些實(shí)證研究表明，與非策略值分解方法相比，通過(guò)適當(dāng)?shù)妮斎氡硎竞统瑓?shù)調(diào)整，多智能體策略梯度（PG）方法可以實(shí)現(xiàn)驚人的性能。

為什么PG方法可以如此有效？在本文中，我們將展開(kāi)具體的分析以表明在某些場(chǎng)景中，例如在具有高度多模式獎(jiǎng)勵(lì)景觀的環(huán)境中，虛擬現(xiàn)實(shí)可能存在的問(wèn)題并導(dǎo)致不期望的結(jié)果。相反，在這些情況下，使用單個(gè)策略的PG方法可以收斂到最優(yōu)策略。此外，具有自回歸（auto-regressive：AR）策略的PG方法可以進(jìn)行多模式策略學(xué)習(xí)。

圖1：4人置換博弈的不同策略表示

協(xié)作性MARL中的集中訓(xùn)練和分散執(zhí)行：VD與PG方法

集中訓(xùn)練和分散執(zhí)行（Centralizedtraining and decentralized execution：CTDE）是合作MARL中一種流行的框架。它利用全局信息進(jìn)行更有效的訓(xùn)練，同時(shí)保留用于測(cè)試的單個(gè)策略的表示。CTDE可以通過(guò)值分解（VD）或策略梯度（PG）方法來(lái)實(shí)現(xiàn)，從而產(chǎn)生兩種不同類(lèi)型的算法。

其中，VD方法能夠?qū)W習(xí)局部Q網(wǎng)絡(luò)并將局部Q網(wǎng)絡(luò)混合到全局Q函數(shù)中的混合函數(shù)。通常，強(qiáng)制執(zhí)行混合函數(shù)以滿足單個(gè)全局最大值（Individual-Global-Max：IGM）原則；該原則確?？梢酝ㄟ^(guò)貪婪地為每個(gè)智能體局部選擇最優(yōu)動(dòng)作來(lái)計(jì)算最優(yōu)聯(lián)合動(dòng)作。

相反，PG方法直接應(yīng)用策略梯度來(lái)學(xué)習(xí)單個(gè)策略和每個(gè)智能體的集中值函數(shù)。其中，值函數(shù)將全局狀態(tài)（如MAPPO）或所有局部觀測(cè)值的串聯(lián)（如MADDPG）作為其輸入，以獲得準(zhǔn)確的全局值估計(jì)。

置換博弈：VD失敗的一個(gè)簡(jiǎn)單反例

我們首先考慮一個(gè)無(wú)狀態(tài)合作博弈（即置換博弈）的情形。在N個(gè)人的置換博弈中，每個(gè)智能體可以輸出N個(gè)動(dòng)作1，…，N。如果智能體的行為相互不同，即聯(lián)合行為是1，…，N上的排列，那么智能體將收到+1獎(jiǎng)勵(lì)；否則，他們將獲得0獎(jiǎng)勵(lì)。注意，在該博弈中存在N！種對(duì)稱(chēng)的最優(yōu)策略。

圖2：4人排列游戲

現(xiàn)在，不妨讓我們集中討論一下兩人之間的置換博弈。在此設(shè)置中，如果我們將前面的值分解（VD）方法應(yīng)用于游戲。這樣一來(lái)，全局Q值將分解為：

其中，Q1和Q2是局部Q函數(shù)，Qtot是全局Q函數(shù)，fmix是混合函數(shù)，根據(jù)VD方法的要求，滿足IGM原理。

圖3：2人排列游戲中VD失敗原因的高級(jí)直觀展示

目前，我們已經(jīng)正式證明了值分解VD方法不能矛盾地描述二人置換博弈的結(jié)局。因?yàn)椋绻捣纸夥椒軌蛎枋霾┺慕Y(jié)局，我們將有：

然而，如果這兩種智能體中的任何一種具有不同的局部Q值，例如Q1（1）>Q1（2），那么根據(jù)單個(gè)全局最大值（IGM）原理，我們必須具有：

否則，如果Q1（1）=Q1（2）和Q2（1）=Q2（2），則有：

因此，值分解方案不能表示二人置換博弈的結(jié)局矩陣。

那么，PG方法如何呢？單個(gè)策略確實(shí)可以表示置換博弈的最優(yōu)策略。此外，隨機(jī)梯度下降可以保證PG在溫和的假設(shè)下收斂到這些最優(yōu)值之一。這表明，盡管與值分解方法相比，策略梯度方法在MARL中不太流行，但在現(xiàn)實(shí)應(yīng)用中常見(jiàn)的某些情況下，例如具有多種策略模式的游戲中，它們可能更適合使用。

我們還指出，在置換博弈中，為了表示最優(yōu)聯(lián)合策略，每個(gè)智能體必須選擇不同的動(dòng)作。因此，PG的成功實(shí)施必須確保策略是特定于智能體的。這可以通過(guò)使用具有非共享參數(shù)的單個(gè)策略（在本文中稱(chēng)為PG-Ind）或智能體ID條件策略（PG-ID）來(lái)實(shí)現(xiàn)。

在流行的MARL測(cè)試平臺(tái)上PG優(yōu)于最佳VD方法

除了排列游戲的簡(jiǎn)單示例之外，我們還將我們的研究擴(kuò)展到了目前流行的和更現(xiàn)實(shí)的MARL基準(zhǔn)測(cè)試環(huán)境中。除了星際爭(zhēng)霸多智能體挑戰(zhàn)（StarCraft Multi-Agent Challenge：SMAC）已經(jīng)驗(yàn)證了PG和智能體條件策略輸入的有效性外，我們還展示了谷歌足球研究（Google Research Football：GRF）和多玩家Hanabi挑戰(zhàn)方面的新成果。

圖4：（左）GRF上PG方法的獲勝率；（右）Hanabi-Full的最佳和平均評(píng)估分?jǐn)?shù)

在GRF中，PG方法在5種場(chǎng)景中優(yōu)于最先進(jìn)的VD基礎(chǔ)數(shù)據(jù)（CDS）。有趣的是，我們還注意到，在所有5種場(chǎng)景中，與特定于智能體的策略（PG-ID）相比，沒(méi)有參數(shù)共享的單個(gè)策略（PG-Ind）實(shí)現(xiàn)了可比的有時(shí)甚至出現(xiàn)更高的獲勝率。我們?cè)u(píng)估了具有不同玩家數(shù)量（2-5名玩家）的全規(guī)模Hanabi游戲中的PG-ID，并將其與SAD——Hanabi游戲中一種強(qiáng)大的非策略Q學(xué)習(xí)變體和值分解網(wǎng)絡(luò)（VDN），進(jìn)行了比較。如上表所示，在不同數(shù)量的玩家使用相同數(shù)量的環(huán)境步驟時(shí)，PG-ID能夠產(chǎn)生與SAD和VDN獲得的最佳和平均獎(jiǎng)勵(lì)相當(dāng)或更好的結(jié)果。

超越高回報(bào)：通過(guò)自回歸策略建模學(xué)習(xí)多模式行為

除了學(xué)習(xí)更高的回報(bào)外，我們還研究了如何學(xué)習(xí)合作MARL中的多模式策略。讓我們?cè)俅吻袚Q回排列游戲主題。其中，雖然我們已經(jīng)證明了PG可以有效地學(xué)習(xí)最優(yōu)策略，但它最終達(dá)到的策略模式在很大程度上取決于策略初始化。因此，出現(xiàn)了一個(gè)自然的問(wèn)題：

我們可以學(xué)習(xí)一個(gè)可以覆蓋所有最優(yōu)模式的策略嗎？

在分散式的PG公式中，聯(lián)合策略的因子表示只能表示一種特定模式。因此，我們提出了一種增強(qiáng)的方法來(lái)參數(shù)化策略以獲得更強(qiáng)的表達(dá)能力——自回歸（auto-regressive：AR）策略。

圖5：4人置換博弈中個(gè)體策略（PG）和自回歸策略（AR）之間的比較

從形式上，我們可以將n個(gè)智能體的聯(lián)合策略分解為如下形式：

其中，智能體i產(chǎn)生的動(dòng)作取決于其自身的觀察oi和來(lái)自先前智能體1，…，i?1的所有動(dòng)作。自回歸因子分解可以表示集中式MDP中的任何聯(lián)合策略。對(duì)每個(gè)智能體策略的唯一修改是輸入維度，通過(guò)包含以前的操作，輸入維度略有擴(kuò)大；每個(gè)智能體策略的輸出維度保持不變。

在這樣最小的參數(shù)化開(kāi)銷(xiāo)下，AR策略大大提高了PG方法的表示能力。我們注意到，帶AR策略的PG-AR可以同時(shí)表示置換博弈中的所有最優(yōu)策略模式。

圖6：PG Ind（左）和PG-AR（中）學(xué)習(xí)的策略行為熱圖和結(jié)局熱圖（右）。雖然PG-Ind在4人置換博弈中僅收斂到特定模式，但PG-AR成功地發(fā)現(xiàn)了所有最優(yōu)模式

在包括SMAC和GRF等更復(fù)雜的環(huán)境中，PG-AR可以學(xué)習(xí)有趣的緊急行為，這些行為需要強(qiáng)大的智能體內(nèi)協(xié)調(diào)，而PG-Ind可能永遠(yuǎn)無(wú)法學(xué)習(xí)這樣的行為。

圖7：（左）在SMAC和GRF中由PG-AR誘導(dǎo)的緊急行為。在SMAC的2m_vs_1z地圖上，海軍陸戰(zhàn)隊(duì)保持站立并交替攻擊，同時(shí)確保每個(gè)時(shí)間步只有一名攻擊海軍陸戰(zhàn)隊(duì)；（右）在GRF的academy_3_vs_1_with_keeper場(chǎng)景中，智能體學(xué)習(xí)“TikiTaka”風(fēng)格的行為：每個(gè)球員都不停地將球傳給隊(duì)友。

討論和收獲

在本文中，我們具體分析了合作性MARL中的VD和PG方法。首先，我們揭示了流行的VD方法表達(dá)能力的局限性，展示了即使在簡(jiǎn)單的置換博弈中，它們也不能表示最優(yōu)策略。相比之下，我們證明了PG方法更具表現(xiàn)力。我們通過(guò)實(shí)驗(yàn)驗(yàn)證了PG在流行的MARL試驗(yàn)環(huán)境（包括SMAC、GRF和Hanabi Challenge等游戲環(huán)境）中的表達(dá)優(yōu)勢(shì)。最后，我們真誠(chéng)希望從這項(xiàng)工作中獲得的見(jiàn)解能夠幫助社區(qū)在未來(lái)實(shí)現(xiàn)更通用和更強(qiáng)大的協(xié)作MARL算法。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專(zhuān)家博客、講師，濰坊一所高校計(jì)算機(jī)教師，自由編程界老兵一枚。早期專(zhuān)注各種微軟技術(shù)（編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書(shū)），近十多年投身于開(kāi)源世界（熟悉流行全棧Web開(kāi)發(fā)技術(shù)），了解基于OneNet/AliOS+Arduino/ESP32/樹(shù)莓派等物聯(lián)網(wǎng)開(kāi)發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開(kāi)發(fā)技術(shù)。

原文標(biāo)題：??Why doPolicy Gradient Methods work so well in Cooperative MARL? Evidence from PolicyRepresentation???，作者：Wei Fu, Chao Yu, Jiaqi Yang,Yi Wu

責(zé)任編輯：武曉燕來(lái)源： 51CTO

梯度法 MARL PG

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="j6gmw"><bdo id="j6gmw"></bdo></tt><abbr id="j6gmw"></abbr>