自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清北聯(lián)合出品!一篇Survey整明白「Transformer+強(qiáng)化學(xué)習(xí)」的來龍去脈

人工智能 新聞
Transformer與強(qiáng)化學(xué)習(xí)結(jié)合的綜述!

Transformer模型自發(fā)布后,很快就成了自然語言處理和計(jì)算機(jī)視覺領(lǐng)域在有監(jiān)督學(xué)習(xí)設(shè)置下的主流神經(jīng)架構(gòu)。

雖然Transformer的熱潮已經(jīng)開始席卷強(qiáng)化學(xué)習(xí)領(lǐng)域,但由于RL本身的特性,例如需要進(jìn)行獨(dú)特的特征、架構(gòu)設(shè)計(jì)等,當(dāng)前Transformer與強(qiáng)化學(xué)習(xí)的結(jié)合并不順利,其發(fā)展路線也缺乏相關(guān)論文進(jìn)行貫穿性地總結(jié)。

最近來自清華大學(xué)、北京大學(xué)、騰訊的研究人員聯(lián)手發(fā)表了一篇關(guān)于Transformer與強(qiáng)化學(xué)習(xí)結(jié)合的調(diào)研論文,系統(tǒng)性地回顧了在強(qiáng)化學(xué)習(xí)中使用Transformer的動(dòng)機(jī)和發(fā)展歷程。

圖片

論文鏈接:https://arxiv.org/pdf/2301.03044.pdf

文章中對現(xiàn)有的相關(guān)工作成果進(jìn)行分類,并對每個(gè)子領(lǐng)域進(jìn)行深入討論,最后還總結(jié)了該研究方向的未來前景。

Transformer配RL

強(qiáng)化學(xué)習(xí)(RL)為序列決策(sequential decision-making)提供了一個(gè)數(shù)學(xué)化的形式,可以讓模型自動(dòng)獲得智能行為。

RL為基于學(xué)習(xí)的控制提供了一個(gè)通用框架,隨著深度神經(jīng)網(wǎng)絡(luò)的引入,深度強(qiáng)化學(xué)習(xí)(DRL)的通用性在近年來也取得了巨大的進(jìn)展,但樣本效率問題阻礙了DRL在現(xiàn)實(shí)世界中的廣泛應(yīng)用。

為了解決這個(gè)問題,一個(gè)有效的機(jī)制是在DRL框架中引入inductive bias,其中比較重要的是函數(shù)近似器架構(gòu)的選擇(the choice of function approximator architectures),例如DRL智能體的神經(jīng)網(wǎng)絡(luò)的參數(shù)化。

然而,與監(jiān)督學(xué)習(xí)(SL)中的架構(gòu)設(shè)計(jì)相比,在DRL中選擇架構(gòu)設(shè)計(jì)的問題仍然沒有得到充分的探討,大多數(shù)現(xiàn)有的關(guān)于RL架構(gòu)的工作是由(半)監(jiān)督學(xué)習(xí)社區(qū)的成功所激發(fā)的。

例如,處理DRL中基于圖像的高維輸入的常見做法是引入卷積神經(jīng)網(wǎng)絡(luò)(CNN);處理部分可觀察性的另一種常見做法是引入遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。

近年來,Transformer架構(gòu)在廣泛的SL任務(wù)中徹底改變了學(xué)習(xí)范式,并表現(xiàn)出比CNN和RNN更優(yōu)越的性能,比如Transformer架構(gòu)能夠?qū)^長的依賴關(guān)系進(jìn)行建模,并具有出色的可擴(kuò)展性。

受SL成功啟發(fā),行業(yè)內(nèi)對在強(qiáng)化學(xué)習(xí)中應(yīng)用Transformer的興趣激增,最早可以追溯到2018年的一篇論文,其中自注意機(jī)制被用于結(jié)構(gòu)化狀態(tài)表示的關(guān)系推理。

之后,許多研究人員開始試圖將自注意力應(yīng)用于表示學(xué)習(xí),以提取實(shí)體之間的關(guān)系,從而可以更好地進(jìn)行策略學(xué)習(xí)。

圖片

除了狀態(tài)表示學(xué)習(xí)外,先前的工作還用Transformer來捕捉多步驟的時(shí)間依賴性,以處理部分可觀察性問題。

最近,離線RL由于其利用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注,相關(guān)研究結(jié)果也表明,Transformer架構(gòu)可以直接作為序列決策的模型,并可推廣到多個(gè)任務(wù)和領(lǐng)域。

這篇調(diào)研論文的目的是介紹Transformers in Reinforcement Learning領(lǐng)域(TransformRL)。

圖片

盡管Transformer已經(jīng)被認(rèn)為是目前大多數(shù)SL研究的基礎(chǔ)模型,但它在RL社區(qū)的探索仍然較少。事實(shí)上,與SL領(lǐng)域相比,在RL中使用Transformer作為函數(shù)近似器需要解決一些不同的問題:

1. RL智能體的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù),這在Transformer學(xué)習(xí)的過程中會(huì)引起不平穩(wěn)性(non-stationarity)。

2. 現(xiàn)有的RL算法通常對訓(xùn)練過程中的設(shè)計(jì)選擇高度敏感,包括網(wǎng)絡(luò)架構(gòu)和容量等。

3. 基于Transformer的架構(gòu)經(jīng)常受到高計(jì)算和內(nèi)存成本的影響,也就是說訓(xùn)練和推理起來既慢又貴。

比如在一些游戲中的人工智能案例中,樣本生成的效率在很大程度上影響了訓(xùn)練性能,取決于RL策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的計(jì)算成本。

TransformRL的未來

論文中簡要回顧了Transformers for RL的進(jìn)展情況,其優(yōu)勢主要包括:

1. Transformers可以作為RL中的一個(gè)powerful模塊,比如作為一個(gè)表示模塊或世界模型;

2. Transformer可以作為一個(gè)序列決策器;

3. Transformer可以提升跨任務(wù)和領(lǐng)域的泛化性能。

鑒于Transformer在更廣泛的人工智能社區(qū)都表現(xiàn)出強(qiáng)大的性能,研究人員認(rèn)為將Transformer和RL結(jié)合起來是一個(gè)有前途的研究方向,下面是一些關(guān)于該方向的未來前景和開放性問題。

結(jié)合強(qiáng)化學(xué)習(xí)和(自)監(jiān)督學(xué)習(xí)

追溯TransformRL的發(fā)展,可以發(fā)現(xiàn)其訓(xùn)練方法同時(shí)涵蓋了RL和(自)監(jiān)督學(xué)習(xí)。

當(dāng)作為一個(gè)在傳統(tǒng)RL框架下訓(xùn)練的表示模塊時(shí),Transformer架構(gòu)的優(yōu)化通常是不穩(wěn)定的。當(dāng)使用Transformer通過序列建模來解決決策問題時(shí),(自)監(jiān)督學(xué)習(xí)范式可以消除deadly triad problem。

在(自)監(jiān)督學(xué)習(xí)的框架下,策略的性能深受離線數(shù)據(jù)質(zhì)量的約束,利用(exploitation)和探索(exploration)之間的明確權(quán)衡不復(fù)存在,因此在Transformer學(xué)習(xí)中結(jié)合RL和(自)監(jiān)督學(xué)習(xí)時(shí),可能會(huì)學(xué)到更好的策略。

一些工作已經(jīng)嘗試了監(jiān)督預(yù)訓(xùn)練和RL參與的微調(diào)方案,但在相對固定的策略下,探索會(huì)受到限制,這也是有待解決的瓶頸問題之一。

另外,沿著這條路線,用于性能評估的任務(wù)也相對簡單,Transfomer是否可以將這種(自)監(jiān)督學(xué)習(xí)擴(kuò)展到更大的數(shù)據(jù)集、更復(fù)雜的環(huán)境和現(xiàn)實(shí)世界的應(yīng)用也值得進(jìn)一步探索。

此外,研究人員希望未來的工作能夠提供更多的理論和經(jīng)驗(yàn)見解,以確定在哪些條件下這種(自)監(jiān)督學(xué)習(xí)有望表現(xiàn)良好。

圖片

通過Transformer連接在線和離線學(xué)習(xí)

踏入離線RL是TransformRL的一個(gè)里程碑,但實(shí)際上,利用Transformer來捕捉?jīng)Q策序列中的依賴關(guān)系并抽象出策略,主要是與所使用的相當(dāng)多的離線數(shù)據(jù)的支持分不開的。

然而,對于一些決策任務(wù)來說,在實(shí)際應(yīng)用中擺脫在線框架是不可行的。

一方面,在某些任務(wù)中獲得專家數(shù)據(jù)并不那么容易;另一方面,有些環(huán)境是開放式的(如Minecraft),這意味著策略必須不斷調(diào)整,以處理在線互動(dòng)過程中未見的任務(wù)。

因此,研究人員認(rèn)為把在線學(xué)習(xí)和離線學(xué)習(xí)連接在一起是必要的。

Decision Transformer之后的大多數(shù)研究進(jìn)展都集中在離線學(xué)習(xí)框架上,一些工作試圖采用離線預(yù)訓(xùn)練和在線微調(diào)的范式。然而,在線微調(diào)中的分布轉(zhuǎn)變?nèi)匀淮嬖谟陔x線RL算法中,研究人員期望通過對Decision Transformer進(jìn)行一些特殊設(shè)計(jì)來解決這個(gè)問題。

此外,如何從頭開始訓(xùn)練一個(gè)在線Decision Transformer是一個(gè)有趣的開放性問題。

為Decision-making問題量身定做的Transformer結(jié)構(gòu)

目前Decision Transformer系列方法中的Transformer結(jié)構(gòu)主要是vanilla Transformer,它最初是為文本序列設(shè)計(jì)的,可能具有一些不適合決策問題的性質(zhì)。

例如,對軌跡序列采用vanilla的自注意力機(jī)制是否合適?決策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以區(qū)分?

此外,由于在不同的Decision Transformer算法中,將軌跡表示為序列的變體有很多,如何從中選擇,仍缺乏系統(tǒng)的研究。

例如,在行業(yè)中部署此類算法時(shí),如何選擇穩(wěn)健的hindsight信息?

并且vanilla Transformer也是一個(gè)計(jì)算成本巨大的結(jié)構(gòu),這使得它在訓(xùn)練和推理階段都很昂貴,而且內(nèi)存占用率很高,也限制了它捕獲依賴關(guān)系的長度。

為了緩解這些問題,NLP中的一些工作改進(jìn)了Transformer的結(jié)構(gòu),但類似的結(jié)構(gòu)是否可以用于決策問題也值得探討。

用Transformer實(shí)現(xiàn)更多的通用智能體

論文中對通用智能體(generalist agents)Transformers的回顧已經(jīng)顯示了Transformers作為一種通用策略的潛力。

事實(shí)上,Transformer的設(shè)計(jì)允許使用類似處理blocks的方式來處理多種模態(tài)(如圖像、視頻、文本和語音),并展示了對超大容量網(wǎng)絡(luò)和巨大數(shù)據(jù)集的出色可擴(kuò)展性。

最近的工作也在訓(xùn)練能夠執(zhí)行多模態(tài)和跨領(lǐng)域任務(wù)的智能體上取得了重大進(jìn)展。

不過,鑒于這些智能體是在大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,目前還不能確定它們是否只是記住了數(shù)據(jù)集,以及它們是否能進(jìn)行有效的泛化。

因此,如何學(xué)習(xí)到一個(gè)能夠在沒有強(qiáng)假設(shè)(strong assumption)的情況下對未見過的任務(wù)進(jìn)行泛化的智能體仍然是一個(gè)值得研究的問題。

此外,研究人員也很好奇,Transformer是否足夠強(qiáng)大到可以用來學(xué)習(xí)一個(gè)可用于不同任務(wù)和場景的通用世界模型。

RL for Transformers

雖然文章中已經(jīng)討論了RL如何從Transformer模型中受益,但反過來說,用RL來提升Transformer訓(xùn)練仍然是一個(gè)有趣的開放性問題,還沒有被很好地探索過。

可以看到,最近來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)可以學(xué)習(xí)到一個(gè)獎(jiǎng)勵(lì)模型,并使用RL算法對Transformer進(jìn)行微調(diào),以使語言模型與人類意圖相一致。

在未來,研究人員認(rèn)為RL可以成為一個(gè)有用的工具,進(jìn)一步完善Transformer在其他領(lǐng)域的表現(xiàn)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2022-11-14 10:22:12

訓(xùn)練強(qiáng)化學(xué)習(xí)

2023-02-10 13:19:50

2023-02-01 13:07:05

AI

2020-07-10 08:03:35

DNS網(wǎng)絡(luò)ARPAne

2024-08-02 14:50:00

數(shù)據(jù)AI

2021-10-31 14:14:33

內(nèi)存接口協(xié)議

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-08-07 09:02:51

2024-12-09 08:45:00

模型AI

2022-08-26 14:44:32

強(qiáng)化學(xué)習(xí)AI

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2023-04-06 08:37:24

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2020-08-16 11:34:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-08-14 08:46:54

AI論文
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號