大神Aviral Kumar:價(jià)值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎? 原創(chuàng)
動(dòng)機(jī)
- 離線強(qiáng)化學(xué)習(xí) (RL) 和模仿學(xué)習(xí)之間的主要區(qū)別在于使用價(jià)值函數(shù),并且離線 RL 中的大多數(shù)先前工作都側(cè)重于使用更好的技術(shù)學(xué)習(xí)更好的價(jià)值函數(shù)。
- 所以價(jià)值函數(shù)學(xué)習(xí)是離線 RL 的主要瓶頸……對(duì)嗎?
- 在這項(xiàng)工作中,研究人員表明,實(shí)踐中情況往往并非如此!
分析離線強(qiáng)化學(xué)習(xí)的瓶頸
這項(xiàng)工作的主要目標(biāo)是了解離線 RL 的性能在實(shí)踐中如何受到瓶頸限制。
離線 RL 有三個(gè)潛在瓶頸:
- (B1 )數(shù)據(jù)價(jià)值評(píng)估不完善
- (B2)從學(xué)習(xí)到的價(jià)值函數(shù)中提取不完善的策略
- (B3)測(cè)試時(shí)策略泛化不完善,表明策略在評(píng)估期間訪問
請(qǐng)注意,離線 RL 算法的瓶頸總是可以歸因于這些因素中的一個(gè)或幾個(gè),因?yàn)槿绻幸蛩囟纪昝?,代理將獲得最佳性能。因此需要做的就是分別剖析這些組件!
主要假設(shè)
首先陳述本項(xiàng)研究的主要研究假設(shè):
“離線 RL 的主要瓶頸是策略學(xué)習(xí),而不是價(jià)值學(xué)習(xí)。”
換句話說,盡管價(jià)值學(xué)習(xí)當(dāng)然很重要,如何從價(jià)值函數(shù)(B2 )中提取策略以及策略如何很好地推廣到它在評(píng)估時(shí)訪問的狀態(tài)(B3)通常是顯著影響許多問題中的性能和可擴(kuò)展性的主要因素。
為了驗(yàn)證這一假設(shè),在本文中進(jìn)行了兩項(xiàng)主要分析:在第一次分析中,比較了價(jià)值學(xué)習(xí)和策略提?。˙1和B2);在第二次分析中,分析了策略泛化的效果(B3)。
長(zhǎng)話短說
這是本文分析的簡(jiǎn)要內(nèi)容 ??:
- (1)策略提取通常比價(jià)值學(xué)習(xí)更重要:不要使用加權(quán)行為克隆(AWR);始終使用行為約束策略梯度(DDPG + BC)。
- (2)測(cè)試時(shí)間策略泛化是離線 RL 中最顯著的瓶頸之一:當(dāng)前的離線 RL 通常已經(jīng)擅長(zhǎng)在數(shù)據(jù)集狀態(tài)下學(xué)習(xí)有效策略,而性能通常僅僅由其在分布外狀態(tài)下的性能決定。
分析1:是價(jià)值還是政策?(B1和B2)
- 價(jià)值學(xué)習(xí)還是策略提取哪個(gè)更重要?
- 為了回答這個(gè)問題,研究人員使用不同數(shù)量的數(shù)據(jù)運(yùn)行不同的算法進(jìn)行價(jià)值函數(shù)訓(xùn)練和策略提取,并繪制數(shù)據(jù)縮放矩陣來可視化結(jié)果。
- 這說明(1)性能的瓶頸在于價(jià)值還是策略;(2)各種價(jià)值學(xué)習(xí)和策略提取算法之間的性能差異。
- 為了清楚地剖析價(jià)值學(xué)習(xí)和策略提取,在本研究中重點(diǎn)關(guān)注具有解耦價(jià)值和策略學(xué)習(xí)階段的離線 RL 方法(例如IQL、一步式 RL、CRL 等)。這聽起來可能有點(diǎn)限制性,但即使在這些解耦方法中,策略學(xué)習(xí)通常也是主要瓶頸!
分析設(shè)置
在本分析中考慮以下算法和環(huán)境。
三種價(jià)值學(xué)習(xí)算法:
- (1)隱式 Q 學(xué)習(xí)(IQL)
- (2)一步 RL(SARSA)
- (3)對(duì)比 RL(CRL)。
三種策略提取算法:
- (1)加權(quán)行為克?。ɡ鏏WR、RWR、AWAC 等)
- (2)行為約束策略梯度(例如DDPG+BC、TD3+BC 等)
- (3) 基于采樣的動(dòng)作選擇(例如,SfBC,BCQ,IDQL 等)
八項(xiàng)任務(wù)(包括目標(biāo)條件(“ gc- ”)和基于像素的任務(wù)!):
- (1) gc-antmaze-large
- (2) antmaze-large
- (3) d4rl-hopper
- (4) d4rl-walker2d
- (5) exorl-walker
- (6) exorl-cheetah
- (7) kitchen
- (8)(基于像素的)gc-roboverse。
結(jié)果
顯示全部結(jié)果
- 上圖顯示了數(shù)據(jù)縮放矩陣。重點(diǎn)介紹了exorl-walker和exorl-cheetah上的結(jié)果。單擊上面的按鈕可查看八個(gè)任務(wù)的完整數(shù)據(jù)縮放矩陣,這些矩陣是從總共 7744 次運(yùn)行中匯總而來的。為每個(gè)矩陣條目單獨(dú)調(diào)整了策略提取超參數(shù)。
- 通過查看顏色漸變,可以看到每個(gè)算法的性能如何隨著更多數(shù)據(jù)的增加而擴(kuò)展以及/或者如何出現(xiàn)瓶頸。下面,重點(diǎn)介紹一些關(guān)鍵觀察結(jié)果。
- 首先,可以看到,策略提取算法通常對(duì)性能和數(shù)據(jù)擴(kuò)展趨勢(shì)的影響遠(yuǎn)遠(yuǎn)大于一般的價(jià)值學(xué)習(xí)目標(biāo)(也許除了antmaze-large),即使它們從相同的價(jià)值函數(shù)中提取策略!
- 在策略提取算法中,可以發(fā)現(xiàn)DDPG+BC 幾乎總是全面實(shí)現(xiàn)最佳性能和擴(kuò)展行為,其次是 SfBC,而 AWR 的性能在許多情況下明顯落后于其他兩種。
- 還可以看到,AWR 的數(shù)據(jù)縮放矩陣總是具有垂直或?qū)蔷€的顏色漸變,這表明它沒有充分利用價(jià)值函數(shù)(請(qǐng)參閱下文以獲得更明顯的證據(jù))。
分析2:策略泛化(B3)
- 現(xiàn)在,將注意力轉(zhuǎn)向離線 RL 中的第三個(gè)獨(dú)特瓶頸:策略泛化。
- 在離線 RL 中,代理在測(cè)試時(shí)會(huì)遇到新的、可能超出分布的狀態(tài),而它對(duì)這些新狀態(tài)的推廣程度會(huì)直接影響性能。
分析設(shè)置
- 為了理解這個(gè)泛化瓶頸,首先定義三個(gè)量化策略準(zhǔn)確性的關(guān)鍵指標(biāo):
- 直觀地講,這些指標(biāo)衡量了該策略在三種不同分布上的準(zhǔn)確度。
- 也許你已經(jīng)熟悉訓(xùn)練 MSE和驗(yàn)證 MSE。但還有另一個(gè)指標(biāo):評(píng)估 MSE,它看起來可能與驗(yàn)證 MSE 相似,但實(shí)際上非常不同。
- 驗(yàn)證 MSE 和評(píng)估 MSE 之間的關(guān)鍵區(qū)別在于,驗(yàn)證 MSE 衡量的是分布內(nèi)的策略準(zhǔn)確率,而評(píng)估 MSE 衡量的是分布外的策略準(zhǔn)確率(見上圖)。評(píng)估 MSE 恰好對(duì)應(yīng)于要測(cè)量的泛化瓶頸。
- 為了了解這些數(shù)量與性能之間的關(guān)系,觀察了這些指標(biāo)和性能如何隨著額外的在線交互數(shù)據(jù)而發(fā)展(通常稱為離線到在線 RL設(shè)置)。
結(jié)果
- 上圖顯示了回報(bào)和 MSE 指標(biāo)如何隨著更多在線互動(dòng)數(shù)據(jù)而改善。用紅色表示在線訓(xùn)練步驟。
- 結(jié)果非常令人驚訝!可以看到:(1)離線到在線 RL 大多只會(huì)改善評(píng)估 MSE,而驗(yàn)證 MSE 和訓(xùn)練 MSE 通常保持完全平坦;(2)離線 RL 的性能與評(píng)估 MSE指標(biāo)呈非常強(qiáng)(負(fù))相關(guān)性。
- 這是什么意思?這意味著當(dāng)前的離線 RL 算法可能已經(jīng)足夠擅長(zhǎng)在離線數(shù)據(jù)集覆蓋的狀態(tài)分布中學(xué)習(xí)最佳策略,并且性能通常僅由代理在測(cè)試時(shí)遇到的新狀態(tài)的策略準(zhǔn)確性決定!
- 這為離線 RL 中的泛化提供了一個(gè)新的視角,這與之前對(duì)悲觀主義和行為正則化的關(guān)注有些不同。
- 那么,如何才能提高測(cè)試時(shí)策略的泛化能力呢?不幸的是,這在原則上非常困難,因?yàn)樗枰夯揭粋€(gè)可能完全不同的分布。盡管如此,如果稍微放寬假設(shè),就可以解決這個(gè)問題,在本文中提出了兩種這樣的解決方案。
解決方案 1:提高離線數(shù)據(jù)覆蓋率
- 第一個(gè)解決方案是使用高覆蓋率的數(shù)據(jù)集。
- 理由很簡(jiǎn)單:如果測(cè)試時(shí)間分布外的泛化是瓶頸,可以簡(jiǎn)單地使用更多數(shù)據(jù)使測(cè)試時(shí)間狀態(tài)分布內(nèi)(當(dāng)然,當(dāng)可以收集更多數(shù)據(jù)時(shí)??)!
- 在上面的圖中,盡管高覆蓋率數(shù)據(jù)集的次優(yōu)性有所增加,但它們確實(shí)提高了性能。另外,請(qǐng)注意,在這種情況下,使用正確的策略提取目標(biāo) (DDPG+BC) 也很重要!
解決方案 2:測(cè)試時(shí)策略改進(jìn)
- 如果無法控制數(shù)據(jù),那么提高測(cè)試時(shí)間策略準(zhǔn)確性的另一種方法就是在測(cè)試時(shí)間狀態(tài)下即時(shí)訓(xùn)練或指導(dǎo)策略。
- 為此,在論文中提出了一種非常簡(jiǎn)單的方法,稱為即時(shí)策略提?。∣PEX)。關(guān)鍵思想是在評(píng)估時(shí)簡(jiǎn)單地按照價(jià)值梯度的方向調(diào)整策略動(dòng)作。
- 具體來說,在測(cè)試時(shí)從策略?
- 中采樣一個(gè)動(dòng)作后,會(huì)根據(jù)凍結(jié)的學(xué)習(xí)到的 Q 函數(shù)進(jìn)一步調(diào)整該動(dòng)作,公式如下。
其中
是與測(cè)試時(shí)“學(xué)習(xí)率”相對(duì)應(yīng)的超參數(shù)。
- OPEX 在評(píng)估時(shí)只需要一行額外的代碼,并且根本不會(huì)改變訓(xùn)練程序!
- 在本文中,研究人員提出了另一種方法,即測(cè)試時(shí)訓(xùn)練(TTT),它在測(cè)試時(shí)推出期間進(jìn)一步更新策略參數(shù)。
- 這些即時(shí)策略改進(jìn)技術(shù)通過緩解測(cè)試時(shí)間策略泛化瓶頸,提高了各種任務(wù)的性能。
要點(diǎn):測(cè)試時(shí)策略泛化是離線強(qiáng)化學(xué)習(xí)中最顯著的瓶頸之一。使用高覆蓋率數(shù)據(jù)集。使用即時(shí)策略改進(jìn)技術(shù)提高測(cè)試時(shí)狀態(tài)下的策略準(zhǔn)確性。
那么,這說明了什么?
- 與之前認(rèn)為價(jià)值學(xué)習(xí)是離線 RL 的主要瓶頸的觀點(diǎn)有些相反, 當(dāng)前的離線 RL 方法通常嚴(yán)重受限于從價(jià)值函數(shù)中提取策略的準(zhǔn)確性以及該策略推廣到測(cè)試時(shí)間狀態(tài)的準(zhǔn)確性。
- 對(duì)于實(shí)踐者來說,分析表明離線 RL 有一個(gè)明確的方案:在盡可能多樣化的數(shù)據(jù)上訓(xùn)練價(jià)值函數(shù),并允許策略最大限度地利用價(jià)值函數(shù),并采用最佳策略提取目標(biāo)(例如DDPG+BC)和/或潛在的測(cè)試時(shí)間策略改進(jìn)策略。
- 對(duì)于未來的算法研究,強(qiáng)調(diào)離線 RL 中的兩個(gè)重要開放問題:(1)從學(xué)習(xí)到的價(jià)值函數(shù)中提取策略的最佳方法是什么?有沒有比 DDPG+BC 更好的方法?(2)如何訓(xùn)練策略,使其在測(cè)試時(shí)間狀態(tài)下具有很好的泛化能力?
- 第二個(gè)問題特別有趣,因?yàn)樗岢隽伺c離線 RL 中普遍存在的悲觀主義主題截然相反的觀點(diǎn),其中只有少數(shù)作品明確旨在解決離線 RL 的這種泛化方面!
譯自(有刪改):https://seohong.me/projects/offrl-bottlenecks/
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線
