自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從數(shù)據(jù)增強(qiáng)的隱藏作用出發(fā),揭示視覺強(qiáng)化學(xué)習(xí)可塑性損失的獨(dú)特機(jī)制

人工智能 新聞
基于對視覺強(qiáng)化學(xué)習(xí)中可塑性損失的深入分析,該研究最終提出了一種創(chuàng)新的訓(xùn)練方法 —— 自適應(yīng)回放比例。

Sutton 等研究人員近期在《Nature》上發(fā)表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一個重要發(fā)現(xiàn):在持續(xù)學(xué)習(xí)環(huán)境中,標(biāo)準(zhǔn)深度學(xué)習(xí)方法的表現(xiàn)竟不及淺層網(wǎng)絡(luò)。研究指出,這一現(xiàn)象的主要原因是 "可塑性損失"(Plasticity Loss):深度神經(jīng)網(wǎng)絡(luò)在面對非平穩(wěn)的訓(xùn)練目標(biāo)持續(xù)更新時,會逐漸喪失從新數(shù)據(jù)中學(xué)習(xí)的能力

深度強(qiáng)化學(xué)習(xí)任務(wù)中的神經(jīng)網(wǎng)絡(luò)實(shí)際上面臨著更為嚴(yán)峻的可塑性損失問題。這源于強(qiáng)化學(xué)習(xí)智能體必須通過與環(huán)境的持續(xù)互動來不斷調(diào)整其策略,使得非平穩(wěn)的數(shù)據(jù)流和優(yōu)化目標(biāo)成為深度強(qiáng)化學(xué)習(xí)范式中的固有特征。值得注意的是,即使在單任務(wù)強(qiáng)化學(xué)習(xí)中,在線數(shù)據(jù)收集和策略更新也會導(dǎo)致數(shù)據(jù)分布和優(yōu)化目標(biāo)持續(xù)動態(tài)變化。因此,嚴(yán)重的可塑性損失已然成為制約深度強(qiáng)化學(xué)習(xí)算法樣本利用效率的關(guān)鍵瓶頸。

要突破視覺強(qiáng)化學(xué)習(xí)樣本利用效率低下這一瓶頸,關(guān)鍵在于深入解構(gòu)深度強(qiáng)化學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)可塑性損失的細(xì)節(jié),從而明確問題的根源。針對這一挑戰(zhàn),來自清華大學(xué)、悉尼大學(xué)、華盛頓大學(xué)、京東探索研究院和南洋理工大學(xué)的研究人員展開了一項(xiàng)全面而深入的研究。他們選取視覺強(qiáng)化學(xué)習(xí)任務(wù)作為深度強(qiáng)化學(xué)習(xí)的典型代表,創(chuàng)新性地從數(shù)據(jù)、模塊和訓(xùn)練階段三個關(guān)鍵角度對神經(jīng)網(wǎng)絡(luò)的可塑性損失特征進(jìn)行分析。

圖片

  • 論文鏈接:https://arxiv.org/abs/2310.07418
  • 代碼鏈接:https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio

這項(xiàng)研究不僅解釋了視覺強(qiáng)化學(xué)習(xí)中一些此前難以理解的反?,F(xiàn)象,還揭示了一系列與直覺相悖的有趣結(jié)論。該研究成果已在 ICLR 2024 上發(fā)表,本文將對其中一系列引人深思的發(fā)現(xiàn)進(jìn)行進(jìn)一步梳理和總結(jié)。其中最核心的要點(diǎn)可概括如下:

1. 揭示了數(shù)據(jù)增強(qiáng)的作用機(jī)制:簡單的數(shù)據(jù)增強(qiáng)能夠顯著提升視覺強(qiáng)化學(xué)習(xí)的樣本利用效率,其效果令人矚目。在自動駕駛?cè)蝿?wù) CARLA 中,引入數(shù)據(jù)增強(qiáng)將性能提高至基準(zhǔn)的 235%。更令人驚訝的是,在 DeepMind Control suite 的 9 種機(jī)器人控制任務(wù)中,數(shù)據(jù)增強(qiáng)平均將性能提升至基準(zhǔn)的 431%。然而,盡管這些驚人的效果早已被觀察到,但數(shù)據(jù)增強(qiáng)為何能帶來如此顯著的性能提升一直是一個未解之謎。該研究的突破性發(fā)現(xiàn)揭示了視覺強(qiáng)化學(xué)習(xí)中數(shù)據(jù)增強(qiáng)背后的作用機(jī)制:它能直接有效地緩解訓(xùn)練過程中的可塑性損失。

2. 明確了樣本利用效率的關(guān)鍵瓶頸:過去多年,學(xué)界普遍認(rèn)為導(dǎo)致視覺強(qiáng)化學(xué)習(xí)樣本利用效率低下的主要瓶頸在于訓(xùn)練視覺表征器的難度。然而,這項(xiàng)研究通過一系列巧妙的實(shí)驗(yàn),顛覆了這一長期以來的觀點(diǎn)。研究結(jié)果表明,目前限制視覺強(qiáng)化學(xué)習(xí)樣本利用效率的關(guān)鍵因素并非編碼器(Encoder)的視覺表征能力,而是評價者網(wǎng)絡(luò)(Critic)的可塑性損失

3. 突出了訓(xùn)練早期干預(yù)的重要性:可塑性損失指的是模型的學(xué)習(xí)能力隨著訓(xùn)練不斷減弱的現(xiàn)象。然而,不同訓(xùn)練階段對于避免災(zāi)難性可塑性損失的作用是否有所不同,這一問題此前一直未被深入探索。該研究填補(bǔ)了這一空白,揭示了一個關(guān)鍵發(fā)現(xiàn):訓(xùn)練早期對 Critic 網(wǎng)絡(luò)可塑性的干預(yù)極為重要:若未能在訓(xùn)練早期及時將網(wǎng)絡(luò)可塑性恢復(fù)到高水平,將會導(dǎo)致訓(xùn)練后期難以逆轉(zhuǎn)的災(zāi)難性可塑性損失。

從視覺強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)開始

圖片

數(shù)據(jù)增強(qiáng)已成為實(shí)現(xiàn)高樣本利用效率的視覺強(qiáng)化學(xué)習(xí)算法中不可或缺的組件。與監(jiān)督學(xué)習(xí)中數(shù)據(jù)增強(qiáng)僅帶來漸進(jìn)式改進(jìn)不同,在多種視覺強(qiáng)化學(xué)習(xí)任務(wù)中,數(shù)據(jù)增強(qiáng)對算法效果起到了決定性作用。如上圖所示,在不使用數(shù)據(jù)增強(qiáng)的情況下,算法幾乎無法訓(xùn)練出有效的策略。相反,僅僅引入對輸入觀察圖像的簡單數(shù)據(jù)增強(qiáng),就能在不修改算法其他部分的前提下,實(shí)現(xiàn)一個具有高漸進(jìn)效果和樣本效率的視覺強(qiáng)化學(xué)習(xí)算法。

這種顯著的提升顯然無法用傳統(tǒng)視覺任務(wù)中數(shù)據(jù)增強(qiáng)的作用機(jī)理來解釋。更可能的是,數(shù)據(jù)增強(qiáng)有效緩解或解決了強(qiáng)化學(xué)習(xí)中的一個關(guān)鍵瓶頸。在沒有數(shù)據(jù)增強(qiáng)的情況下,智能體的性能在短暫上升后幾乎停滯,這一現(xiàn)象與智能體遭受可塑性損失,無法從新收集的數(shù)據(jù)中學(xué)習(xí)的后果非常吻合。基于這一觀察,該研究設(shè)計了巧妙的實(shí)驗(yàn),旨在驗(yàn)證數(shù)據(jù)增強(qiáng)的背后作用機(jī)制是否確實(shí)在于有效緩解了災(zāi)難性的可塑性損失。

Reset 是一種簡單而直接的方法,通過周期性地重新初始化智能體網(wǎng)絡(luò)最后幾層全連接層來恢復(fù)神經(jīng)網(wǎng)絡(luò)的可塑性。在這項(xiàng)研究中,研究人員巧妙地將 Reset 作為一種診斷工具,用來判斷使用與不使用數(shù)據(jù)增強(qiáng)時網(wǎng)絡(luò)的可塑性損失情況。實(shí)驗(yàn)結(jié)果揭示了以下關(guān)鍵發(fā)現(xiàn):

  • 在不使用數(shù)據(jù)增強(qiáng)的情況下,實(shí)施 Reset 均能夠帶來顯著的性能提升。這明確地表明,在缺乏數(shù)據(jù)增強(qiáng)的訓(xùn)練過程中,網(wǎng)絡(luò)確實(shí)經(jīng)歷了嚴(yán)重的可塑性損失。
  • 但當(dāng)引入數(shù)據(jù)增強(qiáng)后,Reset 的實(shí)施只帶來輕微的改善,有時甚至?xí)?dǎo)致性能下降。這一結(jié)果表明,只通過數(shù)據(jù)增強(qiáng)就能有效提升智能體的可塑性。

這一巧妙的實(shí)驗(yàn)證明數(shù)據(jù)增強(qiáng)能夠非常顯著地緩解視覺強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的可塑性損失,從而解釋了為什么數(shù)據(jù)增強(qiáng)對于提高樣本利用效率如此關(guān)鍵。通過有效維持神經(jīng)網(wǎng)絡(luò)的可塑性,數(shù)據(jù)增強(qiáng)實(shí)際上延長了神經(jīng)網(wǎng)絡(luò)的有效學(xué)習(xí)期,使其能夠更充分地利用每一個訓(xùn)練樣本。

圖片

研究還對比了數(shù)據(jù)增強(qiáng)和其他先前提出的用來緩解可塑性損失的方法。實(shí)驗(yàn)結(jié)果再次證明,作為一種從數(shù)據(jù)角度出發(fā)(data-centric)的方法,數(shù)據(jù)增強(qiáng)在緩解可塑性損失方面展現(xiàn)出卓越的效果,相對于目前已有的其他方案具有明顯優(yōu)勢

解構(gòu)視覺強(qiáng)化學(xué)習(xí)不同模塊中可塑性損失的不同影響

圖片

相較于基于狀態(tài)向量的強(qiáng)化學(xué)習(xí)任務(wù),視覺強(qiáng)化學(xué)習(xí)一直面臨著樣本利用效率嚴(yán)重低下的困擾。近年來,縮小基于圖像和基于狀態(tài)向量的強(qiáng)化學(xué)習(xí)在樣本利用效率上的差距已成為整個視覺強(qiáng)化學(xué)習(xí)社區(qū)關(guān)注的重點(diǎn)。這兩種學(xué)習(xí)范式的關(guān)鍵區(qū)別在于:視覺強(qiáng)化學(xué)習(xí)需要在進(jìn)行策略優(yōu)化的同時進(jìn)行表征學(xué)習(xí)?;谶@一認(rèn)識,大量研究致力于通過改進(jìn)視覺表征學(xué)習(xí)來提升視覺強(qiáng)化學(xué)習(xí)的樣本利用效率。常見的方法包括添加額外的輔助表征任務(wù),或使用預(yù)訓(xùn)練的視覺編碼器(Encoder)。但是,高維視覺表征真的是影響視覺強(qiáng)化學(xué)習(xí)樣本利用效率的關(guān)鍵瓶頸嗎?

圖片

該研究通過一個巧妙的實(shí)驗(yàn)回答了這個問題。研究者采用了 PIE-G 提出的預(yù)訓(xùn)練編碼器方案,并測試了數(shù)據(jù)增強(qiáng)對訓(xùn)練過程的影響。這個實(shí)驗(yàn)設(shè)計有兩個關(guān)鍵點(diǎn):

  • 使用在 ImageNet 上預(yù)訓(xùn)練的編碼器,確保了足夠的視覺表征能力。
  • 在整個訓(xùn)練過程中保持編碼器不變,排除了數(shù)據(jù)增強(qiáng)對編碼器的直接影響。

研究假設(shè):如果表征學(xué)習(xí)是當(dāng)前限制樣本利用效率的關(guān)鍵,或者可塑性損失主要發(fā)生在編碼器,那么數(shù)據(jù)增強(qiáng)的使用與否不應(yīng)顯著影響算法的訓(xùn)練過程。

圖片

然而,實(shí)驗(yàn)結(jié)果令人驚訝:

  • 數(shù)據(jù)增強(qiáng)對基于預(yù)訓(xùn)練編碼器的視覺強(qiáng)化學(xué)習(xí)的樣本利用效率產(chǎn)生了顯著影響。
  • 在不使用數(shù)據(jù)增強(qiáng)的情況下,即使是簡單的 Walker Walk 任務(wù),智能體的性能在訓(xùn)練后期也明顯停滯,表現(xiàn)出嚴(yán)重的可塑性損失。

這一發(fā)現(xiàn)具有重要意義:即使有了良好的視覺表征,視覺強(qiáng)化學(xué)習(xí)仍然存在嚴(yán)重的可塑性損失。這表明對于當(dāng)前的視覺強(qiáng)化學(xué)習(xí)算法,高維視覺的表征已經(jīng)不構(gòu)成影響樣本利用效率的關(guān)鍵瓶頸。更為關(guān)鍵的是,該實(shí)驗(yàn)證明了嚴(yán)重的可塑性損失并非發(fā)生在編碼器模塊,而應(yīng)該是存在于 Actor 或 Critic 中。

研究者進(jìn)一步使用可塑性注入(Plasticity Injection)作為可靠的診斷工具來最終判定災(zāi)難性的可塑性損失究竟發(fā)生在 Actor 還是 Critic 中。不同于 Reset,可塑性注入在恢復(fù)網(wǎng)絡(luò)可塑性的同時不會破壞網(wǎng)絡(luò)現(xiàn)有知識,因此不會出現(xiàn)明顯的性能波動。這使得可塑性注入更適合用來作為判斷特定網(wǎng)絡(luò)模塊是否發(fā)生災(zāi)難性可塑性損失的診斷工具。

圖片

實(shí)驗(yàn)結(jié)果揭示了兩個關(guān)鍵發(fā)現(xiàn):

  • 在使用數(shù)據(jù)增強(qiáng)的情況下,對 Actor 或者 Critic 實(shí)施可塑性注入都不會明顯影響智能體的訓(xùn)練過程。這表明在 Walker Run 任務(wù)中,僅僅通過使用數(shù)據(jù)增強(qiáng)就足以維持訓(xùn)練所需的網(wǎng)絡(luò)可塑性。
  • 在初始 100 萬步訓(xùn)練中不使用數(shù)據(jù)增強(qiáng)的情況下,對 Critic 實(shí)施可塑性注入會導(dǎo)致性能顯著提升。相反,對 Actor 進(jìn)行可塑性注入也并不能使智能體恢復(fù)正常訓(xùn)練。這一結(jié)果充分證明,Critic 嚴(yán)重的可塑性損失是造成視覺強(qiáng)化學(xué)習(xí)樣本利用效率嚴(yán)重低下的關(guān)鍵原因

圖片

分析視覺強(qiáng)化學(xué)習(xí)不同訓(xùn)練階段中可塑性損失的不同性質(zhì)

圖片

最后,該研究設(shè)計了一個巧妙的實(shí)驗(yàn),通過在訓(xùn)練過程中的不同時間點(diǎn)開啟或關(guān)閉數(shù)據(jù)增強(qiáng),來探究數(shù)據(jù)增強(qiáng)在不同訓(xùn)練階段對解決可塑性損失的影響。具體來說,他們在訓(xùn)練進(jìn)行到三分之一時改變數(shù)據(jù)增強(qiáng)的使用狀態(tài),觀察其對訓(xùn)練效果的影響。這個實(shí)驗(yàn)揭示了兩個重要發(fā)現(xiàn):

  • 在 Critic 的可塑性已經(jīng)恢復(fù)后停止使用數(shù)據(jù)增強(qiáng),并不會明顯影響訓(xùn)練效率。這表明在訓(xùn)練的后期,不需要采取特定干預(yù)來維持可塑性
  • 當(dāng)可塑性已經(jīng)顯著喪失,且未能在早期階段及時干預(yù)的情況下,后期引入數(shù)據(jù)增強(qiáng)也無法使智能體恢復(fù)正常的訓(xùn)練。這一觀察強(qiáng)調(diào)了在訓(xùn)練早期維持可塑性的至關(guān)重要性,否則,這種損失將變得無法挽回

這一實(shí)驗(yàn)不僅證實(shí)了數(shù)據(jù)增強(qiáng)在訓(xùn)練早期階段的關(guān)鍵作用,更重要的是,它揭示了可塑性損失的不可逆特性。實(shí)驗(yàn)結(jié)果表明,如果在訓(xùn)練早期沒有通過有效干預(yù)(如數(shù)據(jù)增強(qiáng))使 Critic 網(wǎng)絡(luò)的可塑性恢復(fù)到較高水平,就會導(dǎo)致不可逆的災(zāi)難性可塑性損失。

圖片

在訓(xùn)練的初始階段,由于收集到的經(jīng)驗(yàn)數(shù)據(jù)質(zhì)量低且數(shù)量有限,通過自舉學(xué)習(xí)所得出的訓(xùn)練目標(biāo)(Target Q Value)表現(xiàn)出高度的非平穩(wěn)性,并顯著偏離真實(shí)的 Q 值。這種嚴(yán)重的非平穩(wěn)性導(dǎo)致 Critic 的可塑性迅速下降,使其失去從新收集數(shù)據(jù)中繼續(xù)優(yōu)化策略的能力。隨之,智能體持續(xù)收集低質(zhì)量的數(shù)據(jù),形成了一個惡性循環(huán)。這一連鎖反應(yīng)最終阻礙了智能體獲得有效策略,導(dǎo)致訓(xùn)練早期階段出現(xiàn)災(zāi)難性的可塑性損失。

然而,訓(xùn)練過程的后期呈現(xiàn)出不同的特征:盡管 Critic 的可塑性在訓(xùn)練早期恢復(fù)到高水平后仍然會緩慢下降,但這種下降可以被理解為逐步逼近當(dāng)前任務(wù)最優(yōu)值函數(shù)的過程。對于不需要智能體保持持續(xù)學(xué)習(xí)能力的單任務(wù)視覺強(qiáng)化學(xué)習(xí)而言,這種后期的可塑性損失被視為良性的

這種在訓(xùn)練不同階段所觀察到的可塑性變化差異,為解決視覺強(qiáng)化學(xué)習(xí)中的可塑性損失挑戰(zhàn)提供了新的視角,暗示了針對訓(xùn)練不同階段采取差異化策略的可能性。

基于對視覺強(qiáng)化學(xué)習(xí)中可塑性損失的深入分析,該研究最終提出了一種創(chuàng)新的訓(xùn)練方法 —— 自適應(yīng)回放比例。這種方法巧妙地根據(jù) Critic 網(wǎng)絡(luò)的可塑性水平動態(tài)調(diào)整回放比例(Replay Ratio),成功破解了視覺強(qiáng)化學(xué)習(xí)算法難以使用高回放比例的長期困境。對該方法的技術(shù)細(xì)節(jié)感興趣的讀者,可以前往論文原文深入了解。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-09-27 15:37:21

深度學(xué)習(xí)算法

2024-07-08 13:02:06

2024-08-29 14:20:00

AI訓(xùn)練

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2023-05-05 13:11:16

2021-11-25 07:46:06

云計算云計算環(huán)境云應(yīng)用

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2022-07-11 11:14:47

強(qiáng)化學(xué)習(xí)AI基于模型

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2024-01-18 15:10:47

開源模型開源InternLM2

2022-11-07 07:28:39

大腦創(chuàng)傷功能

2023-07-20 15:18:42

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2010-07-09 10:32:56

路由器協(xié)議

2017-04-04 19:52:24

強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2024-12-09 08:45:00

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號