?譯者 | 朱先忠
審校 | 孫淑娟
在協(xié)作性多智能體強(qiáng)化學(xué)習(xí)(multi-agentreinforcement learning:MARL)中,由于其基于策略的性質(zhì),通常認(rèn)為策略梯度(policy gradient:PG)方法的樣本效率低于非策略的值分解(value decomposition:VD)方法。然而,最近的一些實(shí)證研究表明,與非策略值分解方法相比,通過(guò)適當(dāng)?shù)妮斎氡硎竞统瑓?shù)調(diào)整,多智能體策略梯度(PG)方法可以實(shí)現(xiàn)驚人的性能。
為什么PG方法可以如此有效?在本文中,我們將展開(kāi)具體的分析以表明在某些場(chǎng)景中,例如在具有高度多模式獎(jiǎng)勵(lì)景觀的環(huán)境中,虛擬現(xiàn)實(shí)可能存在的問(wèn)題并導(dǎo)致不期望的結(jié)果。相反,在這些情況下,使用單個(gè)策略的PG方法可以收斂到最優(yōu)策略。此外,具有自回歸(auto-regressive:AR)策略的PG方法可以進(jìn)行多模式策略學(xué)習(xí)。
圖1:4人置換博弈的不同策略表示
協(xié)作性MARL中的集中訓(xùn)練和分散執(zhí)行:VD與PG方法
集中訓(xùn)練和分散執(zhí)行(Centralizedtraining and decentralized execution:CTDE)是合作MARL中一種流行的框架。它利用全局信息進(jìn)行更有效的訓(xùn)練,同時(shí)保留用于測(cè)試的單個(gè)策略的表示。CTDE可以通過(guò)值分解(VD)或策略梯度(PG)方法來(lái)實(shí)現(xiàn),從而產(chǎn)生兩種不同類(lèi)型的算法。
其中,VD方法能夠?qū)W習(xí)局部Q網(wǎng)絡(luò)并將局部Q網(wǎng)絡(luò)混合到全局Q函數(shù)中的混合函數(shù)。通常,強(qiáng)制執(zhí)行混合函數(shù)以滿足單個(gè)全局最大值(Individual-Global-Max:IGM)原則;該原則確??梢酝ㄟ^(guò)貪婪地為每個(gè)智能體局部選擇最優(yōu)動(dòng)作來(lái)計(jì)算最優(yōu)聯(lián)合動(dòng)作。
相反,PG方法直接應(yīng)用策略梯度來(lái)學(xué)習(xí)單個(gè)策略和每個(gè)智能體的集中值函數(shù)。其中,值函數(shù)將全局狀態(tài)(如MAPPO)或所有局部觀測(cè)值的串聯(lián)(如MADDPG)作為其輸入,以獲得準(zhǔn)確的全局值估計(jì)。
置換博弈:VD失敗的一個(gè)簡(jiǎn)單反例
我們首先考慮一個(gè)無(wú)狀態(tài)合作博弈(即置換博弈)的情形。在N個(gè)人的置換博弈中,每個(gè)智能體可以輸出N個(gè)動(dòng)作1,…,N。如果智能體的行為相互不同,即聯(lián)合行為是1,…,N上的排列,那么智能體將收到+1獎(jiǎng)勵(lì);否則,他們將獲得0獎(jiǎng)勵(lì)。注意,在該博弈中存在N!種對(duì)稱(chēng)的最優(yōu)策略。
圖2:4人排列游戲
現(xiàn)在,不妨讓我們集中討論一下兩人之間的置換博弈。在此設(shè)置中,如果我們將前面的值分解(VD)方法應(yīng)用于游戲。這樣一來(lái),全局Q值將分解為:
其中,Q1和Q2是局部Q函數(shù),Qtot是全局Q函數(shù),fmix是混合函數(shù),根據(jù)VD方法的要求,滿足IGM原理。
圖3:2人排列游戲中VD失敗原因的高級(jí)直觀展示
目前,我們已經(jīng)正式證明了值分解VD方法不能矛盾地描述二人置換博弈的結(jié)局。因?yàn)椋绻捣纸夥椒軌蛎枋霾┺慕Y(jié)局,我們將有:
然而,如果這兩種智能體中的任何一種具有不同的局部Q值,例如Q1(1)>Q1(2),那么根據(jù)單個(gè)全局最大值(IGM)原理,我們必須具有:
否則,如果Q1(1)=Q1(2)和Q2(1)=Q2(2),則有:
因此,值分解方案不能表示二人置換博弈的結(jié)局矩陣。
那么,PG方法如何呢?單個(gè)策略確實(shí)可以表示置換博弈的最優(yōu)策略。此外,隨機(jī)梯度下降可以保證PG在溫和的假設(shè)下收斂到這些最優(yōu)值之一。這表明,盡管與值分解方法相比,策略梯度方法在MARL中不太流行,但在現(xiàn)實(shí)應(yīng)用中常見(jiàn)的某些情況下,例如具有多種策略模式的游戲中,它們可能更適合使用。
我們還指出,在置換博弈中,為了表示最優(yōu)聯(lián)合策略,每個(gè)智能體必須選擇不同的動(dòng)作。因此,PG的成功實(shí)施必須確保策略是特定于智能體的。這可以通過(guò)使用具有非共享參數(shù)的單個(gè)策略(在本文中稱(chēng)為PG-Ind)或智能體ID條件策略(PG-ID)來(lái)實(shí)現(xiàn)。
在流行的MARL測(cè)試平臺(tái)上PG優(yōu)于最佳VD方法
除了排列游戲的簡(jiǎn)單示例之外,我們還將我們的研究擴(kuò)展到了目前流行的和更現(xiàn)實(shí)的MARL基準(zhǔn)測(cè)試環(huán)境中。除了星際爭(zhēng)霸多智能體挑戰(zhàn)(StarCraft Multi-Agent Challenge:SMAC)已經(jīng)驗(yàn)證了PG和智能體條件策略輸入的有效性外,我們還展示了谷歌足球研究(Google Research Football:GRF)和多玩家Hanabi挑戰(zhàn)方面的新成果。
圖4:(左)GRF上PG方法的獲勝率;(右)Hanabi-Full的最佳和平均評(píng)估分?jǐn)?shù)
在GRF中,PG方法在5種場(chǎng)景中優(yōu)于最先進(jìn)的VD基礎(chǔ)數(shù)據(jù)(CDS)。有趣的是,我們還注意到,在所有5種場(chǎng)景中,與特定于智能體的策略(PG-ID)相比,沒(méi)有參數(shù)共享的單個(gè)策略(PG-Ind)實(shí)現(xiàn)了可比的有時(shí)甚至出現(xiàn)更高的獲勝率。我們?cè)u(píng)估了具有不同玩家數(shù)量(2-5名玩家)的全規(guī)模Hanabi游戲中的PG-ID,并將其與SAD——Hanabi游戲中一種強(qiáng)大的非策略Q學(xué)習(xí)變體和值分解網(wǎng)絡(luò)(VDN),進(jìn)行了比較。如上表所示,在不同數(shù)量的玩家使用相同數(shù)量的環(huán)境步驟時(shí),PG-ID能夠產(chǎn)生與SAD和VDN獲得的最佳和平均獎(jiǎng)勵(lì)相當(dāng)或更好的結(jié)果。
超越高回報(bào):通過(guò)自回歸策略建模學(xué)習(xí)多模式行為
除了學(xué)習(xí)更高的回報(bào)外,我們還研究了如何學(xué)習(xí)合作MARL中的多模式策略。讓我們?cè)俅吻袚Q回排列游戲主題。其中,雖然我們已經(jīng)證明了PG可以有效地學(xué)習(xí)最優(yōu)策略,但它最終達(dá)到的策略模式在很大程度上取決于策略初始化。因此,出現(xiàn)了一個(gè)自然的問(wèn)題:
我們可以學(xué)習(xí)一個(gè)可以覆蓋所有最優(yōu)模式的策略嗎?
在分散式的PG公式中,聯(lián)合策略的因子表示只能表示一種特定模式。因此,我們提出了一種增強(qiáng)的方法來(lái)參數(shù)化策略以獲得更強(qiáng)的表達(dá)能力——自回歸(auto-regressive:AR)策略。
圖5:4人置換博弈中個(gè)體策略(PG)和自回歸策略(AR)之間的比較
從形式上,我們可以將n個(gè)智能體的聯(lián)合策略分解為如下形式:
其中,智能體i產(chǎn)生的動(dòng)作取決于其自身的觀察oi和來(lái)自先前智能體1,…,i?1的所有動(dòng)作。自回歸因子分解可以表示集中式MDP中的任何聯(lián)合策略。對(duì)每個(gè)智能體策略的唯一修改是輸入維度,通過(guò)包含以前的操作,輸入維度略有擴(kuò)大;每個(gè)智能體策略的輸出維度保持不變。
在這樣最小的參數(shù)化開(kāi)銷(xiāo)下,AR策略大大提高了PG方法的表示能力。我們注意到,帶AR策略的PG-AR可以同時(shí)表示置換博弈中的所有最優(yōu)策略模式。
圖6:PG Ind(左)和PG-AR(中)學(xué)習(xí)的策略行為熱圖和結(jié)局熱圖(右)。雖然PG-Ind在4人置換博弈中僅收斂到特定模式,但PG-AR成功地發(fā)現(xiàn)了所有最優(yōu)模式
在包括SMAC和GRF等更復(fù)雜的環(huán)境中,PG-AR可以學(xué)習(xí)有趣的緊急行為,這些行為需要強(qiáng)大的智能體內(nèi)協(xié)調(diào),而PG-Ind可能永遠(yuǎn)無(wú)法學(xué)習(xí)這樣的行為。
圖7:(左)在SMAC和GRF中由PG-AR誘導(dǎo)的緊急行為。在SMAC的2m_vs_1z地圖上,海軍陸戰(zhàn)隊(duì)保持站立并交替攻擊,同時(shí)確保每個(gè)時(shí)間步只有一名攻擊海軍陸戰(zhàn)隊(duì);(右)在GRF的academy_3_vs_1_with_keeper場(chǎng)景中,智能體學(xué)習(xí)“TikiTaka”風(fēng)格的行為:每個(gè)球員都不停地將球傳給隊(duì)友。
討論和收獲
在本文中,我們具體分析了合作性MARL中的VD和PG方法。首先,我們揭示了流行的VD方法表達(dá)能力的局限性,展示了即使在簡(jiǎn)單的置換博弈中,它們也不能表示最優(yōu)策略。相比之下,我們證明了PG方法更具表現(xiàn)力。我們通過(guò)實(shí)驗(yàn)驗(yàn)證了PG在流行的MARL試驗(yàn)環(huán)境(包括SMAC、GRF和Hanabi Challenge等游戲環(huán)境)中的表達(dá)優(yōu)勢(shì)。最后,我們真誠(chéng)希望從這項(xiàng)工作中獲得的見(jiàn)解能夠幫助社區(qū)在未來(lái)實(shí)現(xiàn)更通用和更強(qiáng)大的協(xié)作MARL算法。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專(zhuān)家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。早期專(zhuān)注各種微軟技術(shù)(編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書(shū)),近十多年投身于開(kāi)源世界(熟悉流行全棧Web開(kāi)發(fā)技術(shù)),了解基于OneNet/AliOS+Arduino/ESP32/樹(shù)莓派等物聯(lián)網(wǎng)開(kāi)發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開(kāi)發(fā)技術(shù)。
原文標(biāo)題:??Why doPolicy Gradient Methods work so well in Cooperative MARL? Evidence from PolicyRepresentation???,作者:Wei Fu, Chao Yu, Jiaqi Yang,Yi Wu