星際爭霸II協(xié)作對抗基準超越SOTA,新型Transformer架構(gòu)解決多智能體強化學習問題
多智能體強化學習 (MARL) 是一個具有挑戰(zhàn)性的問題,它不僅需要識別每個智能體的策略改進方向,而且還需要將單個智能體的策略更新聯(lián)合起來,以提高整體性能。最近,這一問題得到初步解決,有研究人員引入了集中訓練分散執(zhí)行 (CTDE) 的方法,使智能體在訓練階段可以訪問全局信息。然而,這些方法無法涵蓋多智能體交互的全部復雜性。
事實上,其中一些方法還被證明是失敗的。為了解決這個問題,有人提出多智能體優(yōu)勢分解定理。在此基礎上,HATRPO 和 HAPPO 算法被推導出來。然而,這些方法也存在局限性,這些方法仍然依賴于精心設計的最大化目標。
近年來,序列模型(SM)在自然語言處理(NLP)領域取得了實質(zhì)性進展。如 GPT 系列、BERT 在廣泛的下游任務上表現(xiàn)出色,并且在小樣本泛化任務上取得了較強的性能。
由于序列模型與語言的序列特性自然契合,因此可用于語言任務,但是序列方法不僅限于 NLP 任務,而是一種廣泛適用的通用基礎模型。例如,在計算機視覺 (CV) 中,可以將圖像分割成子圖并將它們按序列排列,就好像它們是 NLP 任務中的 token 一樣 。近期比較出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。
隨著 Transformer 等網(wǎng)絡架構(gòu)的出現(xiàn),序列建模技術也引起了 RL 社區(qū)的極大關注,這促進了一系列基于 Transformer 架構(gòu)的離線 RL 開發(fā)。這些方法在解決一些最基本的 RL 訓練問題方面顯示出了巨大的潛力。
盡管這些方法取得了顯著的成功,但沒有一種方法被設計用來建模多智能體系統(tǒng)中最困難 (也是 MARL 獨有的) 的方面——智能體之間的交互。事實上,如果簡單地賦予所有智能體一個 Transformer 策略,并對其進行單獨訓練,這仍然不能保證能提高 MARL 聯(lián)合性能。因此,雖然有大量強大的序列模型可用,但 MARL 并沒有真正利用序列模型性能優(yōu)勢。
如何用序列模型解決 MARL 問題?來自上海交通大學、Digital Brain Lab、牛津大學等的研究者提出一種新型多智能體 Transformer(MAT,Multi-Agent Transformer)架構(gòu),該架構(gòu)可以有效地將協(xié)作 MARL 問題轉(zhuǎn)化為序列模型問題,其任務是將智能體的觀測序列映射到智能體的最優(yōu)動作序列。
本文的目標是在 MARL 和 SM 之間建立橋梁,以便為 MARL 釋放現(xiàn)代序列模型的建模能力。MAT 的核心是編碼器 - 解碼器架構(gòu),它利用多智能體優(yōu)勢分解定理,將聯(lián)合策略搜索問題轉(zhuǎn)化為序列決策過程,這樣多智能體問題就會表現(xiàn)出線性時間復雜度,最重要的是,這樣做可以保證 MAT 單調(diào)性能提升。與 Decision Transformer 等先前技術需要預先收集的離線數(shù)據(jù)不同,MAT 以在線策略方式通過來自環(huán)境的在線試驗和錯誤進行訓練。
- 論文地址:https://arxiv.org/pdf/2205.14953.pdf
- 項目主頁:https://sites.google.com/view/multi-agent-transformer
為了驗證 MAT,研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準上進行了廣泛的實驗。結(jié)果表明,與 MAPPO 和 HAPPO 等強基線相比,MAT 具有更好的性能和數(shù)據(jù)效率。此外,該研究還證明了無論智能體的數(shù)量如何變化,MAT 在沒見過的任務上表現(xiàn)較好,可是說是一個優(yōu)秀的小樣本學習者。
背景知識
在本節(jié)中,研究者首先介紹了協(xié)作 MARL 問題公式和多智能體優(yōu)勢分解定理,這是本文的基石。然后,他們回顧了現(xiàn)有的與 MAT 相關的 MARL 方法,最后引出了 Transformer。
傳統(tǒng)多智能體學習范式(左)和多智能體序列決策范式(右)的對比。
問題公式
協(xié)作 MARL 問題通常由離散的部分可觀察馬爾可夫決策過程(Dec-POMDPs)來建模。
多智能體優(yōu)勢分解定理
智能體通過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值,定義如下。
?定理 1(多智能體優(yōu)勢分解):令 i_1:n 為智能體的排列。如下公式始終成立,無需進一步假設。
?重要的是,定理 1 提供了一種用于指導如何選擇漸進式改進行動的直覺。
現(xiàn)有 MARL 方法
研究者總結(jié)了目前兩種 SOTA MARL 算法,它們都構(gòu)建在近端策略優(yōu)化(Proximal Policy Optimization, PPO)之上。PPO 是一種以簡潔性和性能穩(wěn)定性聞名的 RL 方法。
多智能體近端策略優(yōu)化(MAPPO)是首個將 PPO 應用于 MARL 中的最直接方法。
?異構(gòu)智能體近端策略優(yōu)化(HAPPO)是目前的 SOTA 算法之一,它可以充分利用定理 (1) 以實現(xiàn)具有單調(diào)提升保證的多智能體信任域?qū)W習。
Transformer 模型?
基于定理 (1) 中描述的序列屬性以及 HAPPO 背后的原理,現(xiàn)在可以直觀地考慮用 Transformer 模型來實現(xiàn)多智能體信任域?qū)W習。通過將一個智能體團隊視作一個序列,Transformer 架構(gòu)允許建模具有可變數(shù)量和類型的智能體團隊,同時可以避免 MAPPO/HAPPO 的缺點。
多智能體 Transformer
為了實現(xiàn) MARL 的序列建模范式,研究者提供的解決方案是多智能體 Transformer(MAT)。應用 Transformer 架構(gòu)的思路源于這樣一個事實,即智能體觀察序列 (o^i_1,...,o^i_n) 輸入與動作序列(a^ i_1 , . . . , a^i_n)輸出之間的映射是類似于機器翻譯的序列建模任務。正如定理 (1) 所回避的,動作 a^i_m 依賴于先前所有智能體的決策 a ^i_1:m?1。
因此,如下圖(2)所示,MAT 中包含了一個用于學習聯(lián)合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。
?編碼器的參數(shù)用φ 表示,它以任意順序獲取觀察序列(o^i_1 , . . . , o^i_n),并將它們傳遞通過幾個計算塊。每個塊都由一個自注意力機制、一個多層感知機(MLP)和殘差連接組成,以防止隨深度增加出現(xiàn)梯度消失和網(wǎng)絡退化。
解碼器的參數(shù)用θ表示,它將嵌入的聯(lián)合動作 a^i_0:m?1 , m = {1, . . . n}(其中 a^i_0 是指示解碼開始的任意符號)傳遞到解碼塊序列。至關重要的是,每個解碼塊都有一個掩碼的自注意力機制。為了訓練解碼器,研究者將如下裁剪 PPO 目標最小化。
MAT 中的詳細數(shù)據(jù)流如下動圖所示。
?實驗結(jié)果
為了評估 MAT 是否符合預期,研究者在星際爭霸 II 多智能體挑戰(zhàn)(SMAC)基準(MAPPO 在之上具有優(yōu)越性能)和多智能體 MuJoCo 基準上(HAPPO 在之上具有 SOTA 性能)對 MAT 進行了測試。
此外,研究者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基準上了對 MAT 進行了擴展測試。前者提供了一系列具有挑戰(zhàn)性的雙手操作任務,后者提供了一系列足球游戲中的合作場景。
最后,由于 Transformer 模型通常在小樣本任務上表現(xiàn)出強大的泛化性能,因此研究者相信 MAT 在未見過的 MARL 任務上也能具有類似強大的泛化能力。因此,他們在 SMAC 和多智能體 MuJoCo 任務上設計了零樣本和小樣本實驗。
協(xié)作 MARL 基準上的性能
如下表 1 和圖 4 所示,對于 SMAC、多智能體 MuJoCo 和 Bi-DexHands 基準來說,MAT 在幾乎所有任務上都顯著優(yōu)于 MAPPO 和 HAPPO,表明它在同構(gòu)和異構(gòu)智能體任務上強大的構(gòu)建能力。此外,MAT 還得到了優(yōu)于 MAT-Dec 的性能,表明了 MAT 設計中解碼器架構(gòu)的重要性。
同樣地,研究者在 Google Research Football 基準上也得到了類似的性能結(jié)果,如下圖 5 所示。
MAT 用于小樣本學習
表 2 和表 3 中總結(jié)了每種算法的零樣本和小樣本結(jié)果,其中粗體數(shù)字表示最佳性能。
研究者還提供了數(shù)據(jù)相同情況下 MAT 的性能,其與對照組一樣從頭開始訓練。如下表所示,MAT 獲得了大多數(shù)最好成績,這證明了 MAT 小樣本學習的強大泛化性能。