系統(tǒng)回顧深度強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練,在線、離線等研究這一篇就夠了
近年來,強(qiáng)化學(xué)習(xí) (RL) 在深度學(xué)習(xí)的帶動(dòng)下發(fā)展迅速,從游戲到機(jī)器人領(lǐng)域的各種突破,激發(fā)了人們對(duì)設(shè)計(jì)復(fù)雜、大規(guī)模 RL 算法和系統(tǒng)的興趣。然而,現(xiàn)有 RL 研究普遍讓智能體在面對(duì)新的任務(wù)時(shí)只能從零開始學(xué)習(xí),難以利用預(yù)先獲取的先驗(yàn)知識(shí)來輔助決策,導(dǎo)致很大的計(jì)算開銷。
而在監(jiān)督學(xué)習(xí)領(lǐng)域,預(yù)訓(xùn)練范式已經(jīng)被驗(yàn)證為有效的獲得可遷移先驗(yàn)知識(shí)的方式,通過在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,網(wǎng)絡(luò)模型能夠快速適應(yīng)不同的下游任務(wù)上。相似的思路同樣在 RL 中有所嘗試,尤其是近段時(shí)間關(guān)于 “通才” 智能體 [1, 2] 的研究,讓人不禁思考是否在 RL 領(lǐng)域也能誕生如 GPT-3 [3] 那樣的通用預(yù)訓(xùn)練模型。
然而,預(yù)訓(xùn)練在 RL 領(lǐng)域的應(yīng)用面臨著諸多挑戰(zhàn),例如上下游任務(wù)之間的顯著差異、預(yù)訓(xùn)練數(shù)據(jù)如何高效獲取與利用、先驗(yàn)知識(shí)如何有效遷移等問題都阻礙了預(yù)訓(xùn)練范式在 RL 中的成功應(yīng)用。同時(shí),過往研究考慮的實(shí)驗(yàn)設(shè)定和方法存在很大差異,這令研究者很難在現(xiàn)實(shí)場(chǎng)景下設(shè)計(jì)合適的預(yù)訓(xùn)練模型。
為了梳理預(yù)訓(xùn)練在 RL 領(lǐng)域的發(fā)展以及未來可能的發(fā)展方向,來自上海交通大學(xué)和騰訊的研究者撰文綜述,討論現(xiàn)有 RL 預(yù)訓(xùn)練在不同設(shè)定下的細(xì)分方法和待解決的問題。
論文地址:https://arxiv.org/pdf/2211.03959.pdf
RL 預(yù)訓(xùn)練簡(jiǎn)介
強(qiáng)化學(xué)習(xí)(RL)為順序決策提供了一個(gè)通用的數(shù)學(xué)形式。通過 RL 算法和深度神經(jīng)網(wǎng)絡(luò),在不同領(lǐng)域的各種應(yīng)用上實(shí)現(xiàn)了以數(shù)據(jù)驅(qū)動(dòng)的方式、優(yōu)化指定獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)到的智能體取得了超越人類的表現(xiàn)。然而,雖然 RL 已被證明可以有效地解決指定任務(wù),但樣本效率和泛化能力仍然是阻礙 RL 在現(xiàn)實(shí)世界應(yīng)用中的兩大障礙。在 RL 研究中,一個(gè)標(biāo)準(zhǔn)的范式是讓智能體從自己或他人收集的經(jīng)驗(yàn)中學(xué)習(xí),針對(duì)單一任務(wù),通過隨機(jī)初始化來優(yōu)化神經(jīng)網(wǎng)絡(luò)。與之相反,對(duì)人類來說,世界先驗(yàn)知識(shí)對(duì)決策過程有很大的幫助。如果任務(wù)與以前看到的任務(wù)有關(guān),人類傾向于復(fù)用已經(jīng)學(xué)到的知識(shí)來快速適應(yīng)新的任務(wù),而不需要從頭開始學(xué)習(xí)。因此,與人類相比, RL 智能體存在數(shù)據(jù)效率低下問題,而且容易出現(xiàn)過擬合現(xiàn)象。
然而,機(jī)器學(xué)習(xí)其他領(lǐng)域的最新進(jìn)展積極倡導(dǎo)利用從大規(guī)模預(yù)訓(xùn)練中構(gòu)建的先驗(yàn)知識(shí)。通過對(duì)廣泛的數(shù)據(jù)進(jìn)行大規(guī)模訓(xùn)練,大型基礎(chǔ)模型 (foundation models) 可以快速適應(yīng)各種下游任務(wù)。這種預(yù)訓(xùn)練 - 微調(diào)范式在計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域已被證明有效。然而,預(yù)訓(xùn)練還沒有對(duì) RL 領(lǐng)域產(chǎn)生重大影響。盡管這種方法很有前景,但設(shè)計(jì)大規(guī)模 RL 預(yù)訓(xùn)練的原則面臨諸多挑戰(zhàn)。1)領(lǐng)域和任務(wù)的多樣性;2)有限的數(shù)據(jù)源;3)快速適應(yīng)解決下游任務(wù)的難度。這些因素源于 RL 的內(nèi)在特征,需要研究者加以特別考慮。
預(yù)訓(xùn)練對(duì) RL 有很大的潛力,這項(xiàng)研究可以作為對(duì)這一方向感興趣的人的起點(diǎn)。本文中,研究者試圖對(duì)現(xiàn)有深度強(qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練工作進(jìn)行系統(tǒng)的回顧。
近年來,深度強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練經(jīng)歷了幾次突破性進(jìn)展。首先,基于專家示范的預(yù)訓(xùn)練使用監(jiān)督學(xué)習(xí)來預(yù)測(cè)專家所采取的行動(dòng),已經(jīng)在 AlphaGo 上得到應(yīng)用。為了追求更少監(jiān)督的大規(guī)模預(yù)訓(xùn)練,無監(jiān)督 RL 領(lǐng)域發(fā)展迅速,它允許智能體在沒有獎(jiǎng)勵(lì)信號(hào)的情況下從與環(huán)境的互動(dòng)中學(xué)習(xí)。此外,離線強(qiáng)化學(xué)習(xí) (offline RL) 發(fā)展迅猛,又促使研究人員進(jìn)一步考慮如何利用無標(biāo)簽和次優(yōu)的離線數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。最后,基于多任務(wù)和多模態(tài)數(shù)據(jù)的離線訓(xùn)練方法進(jìn)一步為通用的預(yù)訓(xùn)練范式鋪平了道路。
在線預(yù)訓(xùn)練
以往 RL 的成功都是在密集和設(shè)計(jì)良好的獎(jiǎng)勵(lì)函數(shù)下實(shí)現(xiàn)的。在諸多領(lǐng)域取得巨大進(jìn)展的傳統(tǒng) RL 范式,在擴(kuò)展到大規(guī)模預(yù)訓(xùn)練時(shí)面臨兩個(gè)關(guān)鍵挑戰(zhàn)。首先,RL 智能體很容易過擬合,用復(fù)雜的任務(wù)獎(jiǎng)勵(lì)預(yù)訓(xùn)練得到的智能體很難在從未見過的任務(wù)上取得很好的性能。此外,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)通常十分昂貴,需要大量專家知識(shí),這在實(shí)際中無疑是個(gè)很大的挑戰(zhàn)。
無獎(jiǎng)勵(lì)信號(hào)的在線預(yù)訓(xùn)練可能會(huì)成為學(xué)習(xí)通用先驗(yàn)知識(shí)的可用解決方案,并且是無需人工參與的監(jiān)督信號(hào)。在線預(yù)訓(xùn)練旨在在沒有人類監(jiān)督的情況下,通過與環(huán)境的交互來獲得先驗(yàn)知識(shí)。在預(yù)訓(xùn)練階段,智能體被允許與環(huán)境進(jìn)行長(zhǎng)時(shí)間的交互,但不能獲得外在獎(jiǎng)勵(lì)。這種解決方案,也被稱為無監(jiān)督 RL,近年來研究者一直在積極研究。
為了激勵(lì)智能體在沒有任何監(jiān)督信號(hào)的情況下從環(huán)境中獲取先驗(yàn)知識(shí),一種成熟的方法是為智能體設(shè)計(jì)內(nèi)在獎(jiǎng)勵(lì) (intrinsic reward) ,鼓勵(lì)智能體通過收集多樣的經(jīng)驗(yàn)或掌握可遷移的技能,相應(yīng)地設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制。先前研究已經(jīng)表明,通過內(nèi)在獎(jiǎng)勵(lì)和標(biāo)準(zhǔn) RL 算法進(jìn)行在線預(yù)訓(xùn)練,智能體能夠快速適應(yīng)下游任務(wù)。
離線預(yù)訓(xùn)練
盡管在線預(yù)訓(xùn)練在無需人類監(jiān)督的情況下能夠取得很好的預(yù)訓(xùn)練效果,但對(duì)于大規(guī)模應(yīng)用來說,在線預(yù)訓(xùn)練仍然是有限的。畢竟,在線的交互與在大型和多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練的需求在一定程度上是互斥的。為了解決這個(gè)問題,人們往往希望將數(shù)據(jù)收集和預(yù)訓(xùn)練環(huán)節(jié)脫鉤,直接利用從其他智能體或人類收集的歷史數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
一個(gè)可行的解決方案是離線強(qiáng)化學(xué)習(xí)。離線強(qiáng)化學(xué)習(xí)的目的是從離線數(shù)據(jù)中獲得一個(gè)獎(jiǎng)勵(lì)最大化的 RL 策略。其所面臨的一個(gè)基本挑戰(zhàn)是分布偏移問題,即訓(xùn)練數(shù)據(jù)和測(cè)試期間看到的數(shù)據(jù)之間的分布差異?,F(xiàn)有的離線強(qiáng)化學(xué)習(xí)方法關(guān)注如何在使用函數(shù)近似時(shí)解決這一挑戰(zhàn)。例如,策略約束方法明確要求學(xué)到的策略避免采取數(shù)據(jù)集中未見的動(dòng)作,價(jià)值正則化方法則通過將價(jià)值函數(shù)擬合到某種形式的下限,緩解了價(jià)值函數(shù)的高估問題。然而,離線訓(xùn)練的策略是否能泛化到離線數(shù)據(jù)集中未見的新環(huán)境中,仍然沒有得到充分的探索。
或許,我們可以避開 RL 策略的學(xué)習(xí),而是利用離線數(shù)據(jù)學(xué)習(xí)有利于下游任務(wù)的收斂速度或最終性能的先驗(yàn)知識(shí)。更有趣的是,如果我們的模型能夠在沒有人類監(jiān)督的情況下利用離線數(shù)據(jù),它就有可能從海量的數(shù)據(jù)中獲益。本文中,研究者把這種設(shè)定稱為離線預(yù)訓(xùn)練,智能體可以從離線數(shù)據(jù)中提取重要的信息(例如,良好的表征和行為先驗(yàn))。
邁向通用智能體
在單一環(huán)境和單一模態(tài)下的預(yù)訓(xùn)練方法主要集中于以上提到的在線預(yù)訓(xùn)練和離線預(yù)訓(xùn)練設(shè)定,而在最近,領(lǐng)域內(nèi)的研究者對(duì)建立一個(gè)單一的通用決策模型的興趣激增(例如,Gato [1] 和 Multi-game DT [2]),使得同一模型能夠處理不同環(huán)境中不同模態(tài)的任務(wù)。為了使智能體能夠從各種開放式任務(wù)中學(xué)習(xí)并適應(yīng)這些任務(wù),該研究希望能夠利用不同形式的大量先驗(yàn)知識(shí),如視覺感知和語言理解。更為重要地是,如果研究者能成功地在 RL 和其他領(lǐng)域的機(jī)器學(xué)習(xí)之間架起一座橋梁,將以前的成功經(jīng)驗(yàn)結(jié)合起來,或許可以建立一個(gè)能夠完成各種任務(wù)的通用智能體模型。