強化學習也涌現(xiàn)?自監(jiān)督RL擴展到1000層網(wǎng)絡,機器人任務提升50倍
雖然大多數(shù)強化學習(RL)方法都在使用淺層多層感知器(MLP),但普林斯頓大學和華沙理工的新研究表明,將對比 RL(CRL)擴展到 1000 層可以顯著提高性能,在各種機器人任務中,性能可以提高最多 50 倍。
- 論文標題:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- 論文鏈接:https://arxiv.org/abs/2503.14858
- GitHub 鏈接:https://github.com/wang-kevin3290/scaling-crl
研究背景
最近在人工智能領域里,強化學習的重要性因為 DeepSeek R1 等研究再次凸顯出來,該方法通過試錯讓智能體學會在復雜環(huán)境中完成任務。盡管自監(jiān)督學習近年在語言和視覺領域取得了顯著突破,但 RL 領域的進展相對滯后。
與其他 AI 領域廣泛采用的深層網(wǎng)絡結(jié)構(gòu)(如 Llama 3 和 Stable Diffusion 3 擁有數(shù)百層結(jié)構(gòu))相比,基于狀態(tài)的強化學習任務通常僅使用 2-5 層的淺層網(wǎng)絡。相比之下,在視覺和語言等領域,模型往往只有在規(guī)模超過某個臨界值時才能獲得解決特定任務的能力,因此研究人員一直在尋找 RL 中類似的能力涌現(xiàn)現(xiàn)象。
創(chuàng)新方法
普林斯頓大學和華沙理工的最新研究提出,通過將神經(jīng)網(wǎng)絡深度從常見的 2-5 層擴展到 1024 層,可以顯著提升自監(jiān)督 RL 的性能,特別是在無監(jiān)督目標條件任務中的目標達成能力。
這一發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)觀點。過去認為訓練大型 RL 網(wǎng)絡困難是因為 RL 問題提供的反饋極為稀少(如長序列觀測后的稀疏獎勵),導致反饋與參數(shù)比率很小。傳統(tǒng)觀點認為大型 AI 系統(tǒng)應主要以自監(jiān)督方式訓練,而強化學習僅用于微調(diào)。
研究團隊從三個關鍵方面進行創(chuàng)新:
- 范式融合:重新定義「強化學習」和「自監(jiān)督學習」的關系,將它們結(jié)合形成自監(jiān)督強化學習系統(tǒng),采用對比強化學習(Contrastive RL, CRL)算法;
- 增加數(shù)據(jù)量:通過近期的 GPU 加速強化學習框架增加可用數(shù)據(jù)量;
- 網(wǎng)絡深度突破:將網(wǎng)絡深度增加到比先前工作深 100 倍,并融合多種架構(gòu)技術穩(wěn)定訓練過程,包括:殘差連接(Residual Connections)、層歸一化(Layer Normalization)、Swish 激活函數(shù)。
此外,研究還探究了批大小(batch size)和網(wǎng)絡寬度(network width)的相對重要性。
關鍵發(fā)現(xiàn)
隨著網(wǎng)絡深度的擴大,我們能發(fā)現(xiàn)虛擬環(huán)境中的強化學習智能體出現(xiàn)了新行為:在深度 4 時,人形機器人會直接向目標墜落,而在深度 16 時,它學會了直立行走。在人形機器人 U-Maze 環(huán)境中,在深度 256 時,出現(xiàn)了一種獨特的學習策略:智能體學會了越過迷宮高墻。
進一步研究,人們發(fā)現(xiàn)在具有高維輸入的復雜任務中,深度擴展的優(yōu)勢更大。在擴展效果最為突出的 Humanoid U-Maze 環(huán)境中,研究人員測試了擴展的極限,并觀察到高達 1024 層的性能持續(xù)提升。
另外,更深的網(wǎng)絡可以學習到更好的對比表征。僅在導航任務中,Depth-4 網(wǎng)絡使用到目標的歐幾里得距離簡單地近似 Q 值,而 Depth-64 能夠捕捉迷宮拓撲,并使用高 Q 值勾勒出可行路徑。
擴展網(wǎng)絡深度也能提高 AI 的泛化能力。在訓練期間未見過的起始-目標對上進行測試時,與較淺的網(wǎng)絡相比,較深的網(wǎng)絡在更高比例的任務上取得了成功。
技術細節(jié)
該研究采用了來自 ResNet 架構(gòu)的殘差連接,每個殘差塊由四個重復單元組成,每個單元包含一個 Dense 層、一個層歸一化(Layer Normalization)層和 Swish 激活函數(shù)。殘差連接在殘差塊的最終激活函數(shù)之后立即應用。
在本論文中,網(wǎng)絡深度被定義為架構(gòu)中所有殘差塊的 Dense 層總數(shù)。在所有實驗中,深度指的是 actor 網(wǎng)絡和兩個 critic encoder 網(wǎng)絡的配置,這些網(wǎng)絡被共同擴展。
研究貢獻
本研究的主要貢獻在于展示了一種將多種構(gòu)建模塊整合到單一強化學習方法中的方式,該方法展現(xiàn)出卓越的可擴展性:
- 實證可擴展性:研究觀察到性能顯著提升,在半數(shù)測試環(huán)境中提升超過 20 倍,這對應著隨模型規(guī)模增長而涌現(xiàn)的質(zhì)變策略;
- 網(wǎng)絡架構(gòu)深度的擴展:雖然許多先前的強化學習研究主要關注增加網(wǎng)絡寬度,但在擴展深度時通常只能報告有限甚至負面的收益。相比之下,本方法成功解鎖了沿深度軸擴展的能力,產(chǎn)生的性能改進超過了僅靠擴展寬度所能達到的;
- 實證分析:研究表明更深的網(wǎng)絡表現(xiàn)出增強的拼接能力,能夠?qū)W習更準確的價值函數(shù),并有效利用更大批量大小帶來的優(yōu)勢。
不過,拓展網(wǎng)絡深度是以消耗計算量為代價的,使用分布式訓練來提升算力,以及剪枝蒸餾是未來的擴展方向。
預計未來研究將在此基礎上,通過探索額外的構(gòu)建模塊來進一步發(fā)展這一方法。