強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述

作者：機(jī)器之心 2023-02-10 13:19:50

受監(jiān)督學(xué)習(xí)的啟發(fā)，人們對把 Transformer 用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣。

強(qiáng)化學(xué)習(xí)（RL）為順序決策提供了一種數(shù)學(xué)形式，深度強(qiáng)化學(xué)習(xí)（DRL）近年來也取得巨大進(jìn)展。然而，樣本效率問題阻礙了在現(xiàn)實世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個問題，一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。

在深度強(qiáng)化學(xué)習(xí)中，函數(shù)逼近器是非常重要的。然而，與監(jiān)督學(xué)習(xí)（SL）中的架構(gòu)設(shè)計相比，DRL 中的架構(gòu)設(shè)計問題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動的。例如，在 DRL 中處理基于高維圖像的輸入，常見的做法是引入卷積神經(jīng)網(wǎng)絡(luò)（CNN）[LeCun et al., 1998; Mnih et al., 2015]；處理部分可觀測性（partial observability）圖像的常見做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)（RNN） [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來，Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能，成為越來越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對長程（long-range）依賴關(guān)系進(jìn)行建模，并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā)，人們對將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣，希望將 Transformer 的優(yōu)勢應(yīng)用于 RL 領(lǐng)域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項研究，其中自注意力（self-attention）機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后，許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí)，以提取實體之間的關(guān)系，從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 進(jìn)行表征學(xué)習(xí)，之前的工作還使用 Transformer 捕獲多時序依賴，以處理部分可觀測性問題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā)，最近的研究表明，Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ，并推廣到多個任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。

實際上，在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn)，包括：

強(qiáng)化學(xué)習(xí)智能體（agent）的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù)，這在學(xué)習(xí) Transformer 的時候會導(dǎo)致不平穩(wěn)性（non-stationarity）；
現(xiàn)有的 RL 算法通常對訓(xùn)練過程中的設(shè)計選擇高度敏感，包括模型架構(gòu)和模型容量 [Henderson et al., 2018]；
基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計算和內(nèi)存成本，這使得 RL 學(xué)習(xí)過程中的訓(xùn)練和推理都很昂貴。

例如，在用于視頻游戲的 AI 中，樣本生成的效率（在很大程度上影響訓(xùn)練性能）取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)（value network）的計算成本 [Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展，來自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer（即 TransformRL）的綜述論文，歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn)，并討論了未來的發(fā)展方向，作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。

論文地址：https://arxiv.org/pdf/2301.03044.pdf

論文的總體結(jié)構(gòu)如下：

第 2 章介紹了 RL 和 Transformer 的背景知識，然后簡要介紹了這兩者是如何結(jié)合在一起的；
第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變，以及長期以來 RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn)；
第 4 章論文作者對 RL 中的 Transformer 進(jìn)行了分類，并討論了目前具有代表性的方法；
第 5 章總結(jié)并指出了未來潛在的研究方向。

核心內(nèi)容從論文第 3 章開始，下面我們來看一下論文的主要內(nèi)容。

RL 中的網(wǎng)絡(luò)架構(gòu)

在介紹 TransformRL 的分類方法之前，論文回顧了 RL 中網(wǎng)絡(luò)架構(gòu)設(shè)計的早期進(jìn)展，并總結(jié)了其存在的挑戰(zhàn)。作者認(rèn)為 Transformer 是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)，將有助于深度強(qiáng)化學(xué)習(xí)（DRL）的發(fā)展。

函數(shù)逼近器的架構(gòu)

自 Deep Q-Network [Mnih et al., 2015] 的開創(chuàng)性工作以來，人們?yōu)?DRL 智能體的網(wǎng)絡(luò)架構(gòu)做了許多努力。強(qiáng)化學(xué)習(xí)中網(wǎng)絡(luò)架構(gòu)的改進(jìn)主要分為兩類。

一類是設(shè)計新的結(jié)構(gòu)，結(jié)合 RL 歸納偏置來降低訓(xùn)練策略或價值函數(shù)的難度。例如 [Wang et al. 2016] 提出決斗（dueling）網(wǎng)絡(luò)架構(gòu)，其中一個網(wǎng)絡(luò)用于狀態(tài)價值函數(shù)，另一個用于狀態(tài)相關(guān)的行動優(yōu)勢函數(shù)（action advantage function），這種架構(gòu)設(shè)計結(jié)合了歸納偏置。

另一類是研究常用的神經(jīng)網(wǎng)絡(luò)技術(shù)（如正則化、殘差連接（skip connection）、批歸一化）是否可以應(yīng)用于 RL。例如，[Ota et al. 2020] 發(fā)現(xiàn)在使用在線特征提取器增強(qiáng)狀態(tài)表征的同時增加輸入維度，會有助于提高 DRL 算法的性能和樣本效率。[Sinha et al. 2020] 為 DRL 智能體提出了一種深度密集架構(gòu)，使用殘差連接進(jìn)行有效學(xué)習(xí)，并使用歸納偏置來緩解數(shù)據(jù)處理不平等問題。[Ota et al. 2021] 使用 DenseNet [Huang et al., 2017] 和解耦表征學(xué)習(xí)來改善大型網(wǎng)絡(luò)的信息流和梯度。最近，由于 Transformer 的優(yōu)越性能，研究人員嘗試將 Transformer 架構(gòu)應(yīng)用于策略優(yōu)化算法，但發(fā)現(xiàn)普通的 Transformer 設(shè)計無法在 RL 任務(wù)中達(dá)到理想的性能 [Parisotto et al., 2020]。

面臨的挑戰(zhàn)

雖然過去幾年基于 Transformer 的架構(gòu)在 SL 領(lǐng)域取得了諸多進(jìn)展，但將 Transformer 應(yīng)用于 RL 并不簡單。實際上，這存在多個特有的挑戰(zhàn)。

從 RL 的角度看，許多研究指出現(xiàn)有的 RL 算法對深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)非常敏感 [Henderson et al., 2018; Engstrom et al., 2019; Andrychowicz et al., 2020]。首先，RL 中數(shù)據(jù)收集和策略優(yōu)化之間的范式交替導(dǎo)致訓(xùn)練的不平穩(wěn)。其次，RL 算法通常對訓(xùn)練過程中的設(shè)計選擇高度敏感。[Emmons et al. 2021] 證明仔細(xì)選擇模型架構(gòu)和正則化對于 DRL 智能體的性能至關(guān)重要。

從 Transformer 的角度看，基于 Transformer 的架構(gòu)存在內(nèi)存占用大、延遲高的問題，這阻礙了它們的高效部署和推理。最近，許多研究圍繞原始 Transformer 架構(gòu)對計算和內(nèi)存效率進(jìn)行改進(jìn)，但其中大部分工作都集中在 SL 領(lǐng)域。

在 RL 領(lǐng)域，Parisotto 和 Salakhutdinov 提出把基于大容量 Transformer 的學(xué)習(xí)器模型轉(zhuǎn)變?yōu)樾∪萘康?actor 模型，以避免 Transformer 的高推理延遲。然而，這種方法在內(nèi)存和計算方面仍然很昂貴。目前，RL 社區(qū)還未充分探索高效或輕量級的 Transformer。

強(qiáng)化學(xué)習(xí)中的 Transformer

盡管 Transformer 已成為大多數(shù)監(jiān)督學(xué)習(xí)研究的基礎(chǔ)模型，但由于前述挑戰(zhàn)，它在 RL 社區(qū)長期未得到廣泛應(yīng)用。實際上，TransformRL 的大多數(shù)早期嘗試都將 Transformer 用于狀態(tài)表征學(xué)習(xí)或提供記憶信息（memory information），同時仍然將標(biāo)準(zhǔn) RL 算法用于智能體學(xué)習(xí)，例如時序差分學(xué)習(xí)和策略優(yōu)化。

因此，盡管引入 Transformer 作為函數(shù)逼近器，這些方法仍然受到傳統(tǒng) RL 框架的挑戰(zhàn)。直到最近，離線 RL 使得從大規(guī)模離線數(shù)據(jù)中學(xué)習(xí)最優(yōu)策略成為可能。受離線 RL 的啟發(fā)，最近的工作進(jìn)一步將 RL 問題視作固定經(jīng)驗的條件序列建模問題。這樣做有助于繞過傳統(tǒng) RL 中的 bootstrapping error 挑戰(zhàn)，從而使 Transformer 架構(gòu)釋放其強(qiáng)大的順序建模能力。

論文回顧了 TransformRL 的進(jìn)展，并按分類展示現(xiàn)有方法。作者將現(xiàn)有方法分為四類：表征學(xué)習(xí)、模型學(xué)習(xí)、順序決策和通用智能體。圖 2 顯示相關(guān)分類的概覽。

用于表征學(xué)習(xí)的 Transformer

考慮到 RL 任務(wù)的順序性，使用 Transformer 編碼器模塊是合理的。事實上，RL 任務(wù)中的各種序列都需要處理，例如局部 per-timestep 序列（多實體序列 [Vinyals et al., 2019; Baker et al., 2019]、多智能體序列 [Wen et al., 2022]）、時序序列（[Parisotto et al., 2020; Banino et al., 2021]）等。

局部 per-timestep 序列的編碼器

這種方法早期顯著的成功體現(xiàn)在使用 Transformer 處理智能體觀察到的可變數(shù)量實體的復(fù)雜信息。[Zambaldi et al. 2018a] 首先提出用多頭點積注意力捕獲結(jié)構(gòu)化觀察的關(guān)系推理，隨后 AlphaStar [Vinyals et al., 2019] 實現(xiàn)了在具有挑戰(zhàn)性的多智能體環(huán)境（星際爭霸 II）中處理多實體觀察。在這種稱為實體 Transformer 的機(jī)制中，觀察結(jié)果以如下形式編碼：

其中 e_i 代表智能體對實體 i 的觀察，要么直接從整個觀察中切片，要么由實體 tokenizer 給出。

一些后續(xù)工作豐富了實體 Transformer 機(jī)制。[Hu et al. 2020] 提出了一種兼容的解耦策略，以明確地將行動與各種實體相關(guān)聯(lián)，并利用注意力機(jī)制進(jìn)行策略解釋。為了實現(xiàn)具有挑戰(zhàn)性的 one-shot 視覺模仿，Dasari 和 Gupta [2021] 使用 Transformer 來學(xué)習(xí)專注于特定任務(wù)元素的表征。

類似于分散在觀察中的實體，一些研究利用 Transformer 來處理其他局部的 per-timestep 序列。Tang 和 Ha [2021] 利用 Transformer 的注意力機(jī)制來處理感知序列并構(gòu)建一個置換不變性輸入策略。在不兼容的多任務(wù) RL 中，[Kurin et al., 2020] 提出使用 Transformer 來提取形態(tài)域知識。

時序編碼器

同時，用 Transformer 處理時序序列也是合理的。時序編碼器被用作存儲架構(gòu)，

其中 o_t 表示智能體在時間 t 的觀察，Emb_0:t 表示從初始觀察到當(dāng)前觀察的歷史觀察的嵌入。

在早期的工作中，[Mishra et al. 2018] 無法使用 vanilla Transformer 處理時序序列，并且發(fā)現(xiàn)它在某些特定任務(wù)中甚至比隨機(jī)策略表現(xiàn)更差。Gated Transformer-XL (GTrXL) [Parisotto et al., 2020] 是第一個使用 Transformer 作為存儲架構(gòu)來處理軌跡的有效方案。GTrXL 通過 Identity Map Reordering 修改 Transformer-XL 架構(gòu) [Dai et al., 2019]，以提供從時序輸入到 Transformer 輸出的「skip」路徑，這可能有助于形成從一開始就穩(wěn)定的訓(xùn)練過程。[Loynd et al. 2020] 提出了一種用于長期依賴的記憶向量快捷機(jī)制，[Irie et al. 2021] 將線性 Transformer 與快速加權(quán)編程器（Fast Weight Programmer）相結(jié)合以獲得更好的性能。[Melo 2022] 提出使用自注意力機(jī)制來模擬基于存儲的元 RL 的存儲恢復(fù)。

雖然隨著存儲的增長和參數(shù)規(guī)模的擴(kuò)大，Transformer 的性能優(yōu)于 LSTM/RNN，但它在 RL 上的數(shù)據(jù)效率不佳。后續(xù)工作利用一些輔助自監(jiān)督任務(wù)來促進(jìn)學(xué)習(xí) [Banino et al., 2021] 或使用預(yù)訓(xùn)練的 Transformer 架構(gòu)作為時序編碼器 [Li et al., 2022; Fan et al.，2022]。

用于模型學(xué)習(xí)的 Transformer

除了使用 Transformer 作為序列嵌入的編碼器，Transformer 架構(gòu)還在基于模型的算法中作為環(huán)境模型的 backbone。與以單步觀察和行動為條件的預(yù)測不同，Transformer 使環(huán)境模型能夠預(yù)測以一定長度的歷史信息為條件的變換（transition）。

實際上，Dreamer 及其后續(xù)算法的成功 [Hafner et al., 2020, 2021; Seo et al., 2022] 已經(jīng)在一些部分可觀察的環(huán)境或需要記憶機(jī)制的任務(wù)中證明了基于歷史信息的世界模型的優(yōu)點。以歷史信息為條件的世界模型由一個捕獲抽象信息的觀察編碼器和一個學(xué)習(xí)潛在空間中變換的變換模型組成。

已有研究使用 Transformer 架構(gòu)而不是 RNN 來構(gòu)建基于歷史的世界模型。[Chen et al. 2022] 用基于 Transformer 的模型 TSSM（Transformer State-Space Model）替換 Dreamer 中基于 RNN 的循環(huán)狀態(tài)空間模型（RSSM）。IRIS（Imagination with autoRegression over an Inner Speech）[Micheli et al., 2022] 通過對 rollout 經(jīng)驗的自回歸學(xué)習(xí)來學(xué)習(xí)基于 Transformer 的世界模型，而沒有像 Dreamer 那樣的 KL 平衡，并在 Atari [Bellemare et al., 2013] 上取得了很好的結(jié)果。

此外，還有研究嘗試用基于 Transformer 的世界模型做規(guī)劃。[Ozair et al. 2021] 驗證了使用 Transformer 變換模型進(jìn)行規(guī)劃來完成隨機(jī)任務(wù)的有效性。[Sun et al. 2022] 提出了一種以目標(biāo)為條件的 Transformer 變換模型，該模型在程序任務(wù)的視覺基礎(chǔ)規(guī)劃中是很有效的。

RNN 和 Transformer 都適合學(xué)習(xí)基于歷史信息的世界模型。然而，[Micheli et al. 2022] 發(fā)現(xiàn)與 Dreamer 相比，Transformer 架構(gòu)是數(shù)據(jù)效率更高的世界模型。TSSM 的實驗結(jié)果表明，Transformer 架構(gòu)在需要長期記憶的任務(wù)中表現(xiàn)出眾。

用于順序決策的 Transformer

除了融入到傳統(tǒng) RL 算法中作為高性能架構(gòu)以外，Transformer 還可以直接用作順序決策模型。這是因為可以把 RL 看作一個條件序列建模問題：生成可以產(chǎn)生高回報的行動序列。

鑒于 Transformer 在序列預(yù)測方面的優(yōu)異準(zhǔn)確性，Bootstrapped Transformer (BooT) [Wang et al., 2022] 提出通過 bootstrap Transformer 來生成數(shù)據(jù)，同時優(yōu)化數(shù)據(jù)以進(jìn)行順序決策。Bootstrapping Transformer 用于數(shù)據(jù)增強(qiáng)可以擴(kuò)大離線數(shù)據(jù)集的數(shù)量和覆蓋范圍，從而提升性能。具體地說，BooT 比較了不同的數(shù)據(jù)生成方案和 bootstraping 方案，以分析 BooT 如何助力策略學(xué)習(xí)。結(jié)果表明，它可以生成與底層 MDP 一致的數(shù)據(jù)，而無需額外的約束。

用于通用智能體的 Transformer

Decision Transformer 已經(jīng)在離線數(shù)據(jù)的各種任務(wù)中發(fā)揮巨大作用，有研究者開始考慮 Transformer 是否可以像 CV 和 NLP 領(lǐng)域那樣讓通用智能體解決多個不同任務(wù)或問題。

泛化到多個任務(wù)

一些研究者借鑒了 CV 和 NLP 中對大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的思想，并嘗試從大規(guī)模多任務(wù)數(shù)據(jù)集中抽象出通用策略。Multi-Game Decision Transformer (MGDT) [Lee et al., 2022] 是 DT 的一個變體，該模型在由專家和非專家數(shù)據(jù)組成的多樣化數(shù)據(jù)集上學(xué)習(xí) DT，并使用一組參數(shù)在多個 Atari 游戲上實現(xiàn)接近人類的水平。為了在非專家級數(shù)據(jù)集上獲得專家級的表現(xiàn)，MGDT 設(shè)計了專家行動推理機(jī)制，從 return-to-go 的先驗分布計算專家級的 return-to-go 后驗分布并根據(jù)貝葉斯公式預(yù)設(shè)專家級 return-to-go 的概率。

同樣，Switch Trajectory Transformer (SwitchTT) [Lin et al., 2022] 是 TT 的多任務(wù)擴(kuò)展，利用稀疏激活模型，將 FFN 層替換為混合專家層，以實現(xiàn)高效的多任務(wù)離線學(xué)習(xí)。此外，SwitchTT 還采用分布式 trajectory 值估計器對值估計的不確定性進(jìn)行建模。依靠這兩個增強(qiáng)功能，SwitchTT 在性能和訓(xùn)練速度方面都比 TT 提升了很多。MGDT 和 SwitchTT 利用從多個任務(wù)和各種性能級策略中收集的經(jīng)驗來學(xué)習(xí)通用策略。然而，構(gòu)建大規(guī)模的多任務(wù)數(shù)據(jù)集并非易事。

與 CV 和 NLP 中的大規(guī)模數(shù)據(jù)集通常使用來自互聯(lián)網(wǎng)的海量數(shù)據(jù)和簡單的人工標(biāo)記不同，RL 中的順序決策數(shù)據(jù)總是缺少行動信息，并且不易標(biāo)記。因此，[Baker et al. 2022] 提出了一種半監(jiān)督方案，利用沒有行動信息的大規(guī)模在線數(shù)據(jù)，學(xué)習(xí)基于 Transformer 的逆向動態(tài)模型（IDM）。該模型利用對過去和未來的觀察來預(yù)測行動信息，能夠標(biāo)記大量在線視頻數(shù)據(jù)。IDM 是在包含手動標(biāo)記行動的小型數(shù)據(jù)集上學(xué)習(xí)的，并且足夠準(zhǔn)確。

NLP 的許多已有工作證明了 prompt 在適應(yīng)新任務(wù)方面的有效性，一些工作利用基于 DT 方法的 prompt 技術(shù)來實現(xiàn)快速適應(yīng)。Prompt-based Decision Transformer (Prompt-DT) [Xu et al., 2022] 從少樣本（few-shot）演示數(shù)據(jù)集中采樣一系列變換作為 prompt，并將少樣本策略泛化到離線元 RL 任務(wù)上。[Reed et al. 2022] 進(jìn)一步利用基于 prompt 的架構(gòu)，通過在涵蓋自然語言、圖像、時間決策和多模態(tài)數(shù)據(jù)的超大規(guī)模數(shù)據(jù)集上進(jìn)行自回歸序列建模來學(xué)習(xí)通用智能體（Gato）。Gato 能夠執(zhí)行來自不同領(lǐng)域的一系列任務(wù)，包括文本生成和決策。

[Laskin et al. 2022] 提出了算法蒸餾 (AD)，以在單任務(wù) RL 算法學(xué)習(xí)過程的 across-episode 序列上訓(xùn)練 Transformer。因此，即使在新任務(wù)中，Transformer 也可以學(xué)會在自回歸生成過程中逐步改進(jìn)其策略。

泛化到更廣泛領(lǐng)域

除了泛化到多個任務(wù)，Transformer 還是一個強(qiáng)大的「通用」模型，可以用于與順序決策相關(guān)的一系列領(lǐng)域。受 NLP 中掩碼語言建模（masked language modeling）[Devlin et al., 2018] 技術(shù)的啟發(fā)，[Carroll et al. 2022] 提出了 Uni [MASK]，它將各種常用研究領(lǐng)域統(tǒng)一為 mask 推理問題，包括行為克隆、離線 RL、GCRL、過去 / 未來推理和動態(tài)預(yù)測。Uni [MASK] 比較了不同的 mask 方案，包括任務(wù)特定 mask、隨機(jī) mask 和微調(diào)變體。結(jié)果表明，用隨機(jī) mask 訓(xùn)練的單個 Transformer 可以解決任意推理任務(wù)。

此外，[Reid et al. 2022] 發(fā)現(xiàn)，使用在語言數(shù)據(jù)集或包含語言模態(tài)的多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練的 Transformer 對 DT 進(jìn)行微調(diào)是有益的。這表明，即使是來自非 RL 領(lǐng)域的知識也可以通過 transformer 進(jìn)行 RL 訓(xùn)練。

感興趣的讀者可以閱讀論文原文，了解更多研究細(xì)節(jié)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

強(qiáng)化學(xué)習(xí)AI

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述

RL 中的網(wǎng)絡(luò)架構(gòu)

強(qiáng)化學(xué)習(xí)中的 Transformer

強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述