《自然》發(fā)表強(qiáng)化學(xué)習(xí)的大殺器!DreamerV3劍指AGI終極目標(biāo) 精華
如何開發(fā)一個(gè)通用算法,使其能夠在不同任務(wù)領(lǐng)域中不依賴大量人工調(diào)參,甚至無需人類先驗(yàn)數(shù)據(jù)即可實(shí)現(xiàn)“開箱即用”的效果?這種通用性的重要性不言而喻。它不僅意味著AI能夠更廣泛地適應(yīng)真實(shí)世界的復(fù)雜場景,還將顯著降低應(yīng)用AI技術(shù)的門檻,讓開發(fā)者得以聚焦于更高層次的創(chuàng)新。
在這一背景下,“世界模型”(World Models)成為了重要突破口。通過學(xué)習(xí)環(huán)境的緊湊表示并預(yù)測未來情景,世界模型為AI提供了一種類似人類“想象力”的能力,讓算法能夠在“腦海中”進(jìn)行推演,而無需過度依賴真實(shí)交互數(shù)據(jù)。這一特性不僅提升了效率,還為強(qiáng)化學(xué)習(xí)的規(guī)劃與推理開辟了新路徑。
基于此,第三代 Dreamer 算法橫空出世。自然(Nature)近期發(fā)表Google DeepMind 最新研究成果《通過世界模型掌握各種控制任務(wù)》(Mastering diverse control tasks through world models),研究團(tuán)隊(duì)提出了一個(gè)真正意義上的通用RL算法:它能夠以固定的超參數(shù)配置處理超過 150 項(xiàng)多樣化的控制任務(wù),從經(jīng)典的Atari游戲到模擬機(jī)器人任務(wù),再到極具挑戰(zhàn)的Minecraft鉆石獲取,Dreamer一次性解決了這些高度異構(gòu)的問題,創(chuàng)造了人工智能領(lǐng)域的里程碑。
尤其值得一提的是,Dreamer在Minecraft中達(dá)成了一個(gè)被廣泛認(rèn)為極為困難的挑戰(zhàn)——從無到有地獲取鉆石。相比其他方法依賴人類專家數(shù)據(jù)或手工設(shè)計(jì)的課程指導(dǎo),Dreamer完全依靠自身,從稀疏的獎(jiǎng)勵(lì)信號(hào)中推斷出復(fù)雜策略。這不僅是技術(shù)的突破,更是人工智能在通用性和自主性方面的一次飛躍。
這項(xiàng)研究由Google DeepMind與多倫多大學(xué)的科學(xué)家聯(lián)合完成。Google DeepMind作為AI領(lǐng)域的領(lǐng)軍者,一直以解決“科學(xué)中的大問題”為使命,而多倫多大學(xué)更是在機(jī)器學(xué)習(xí)研究領(lǐng)域享有盛譽(yù)。來自這兩大機(jī)構(gòu)的精英們共同打造了Dreamer的“基因”,他們深厚的技術(shù)積累與卓越的跨領(lǐng)域合作能力無疑為研究的成功奠定了基礎(chǔ)。
1.Dreamer 算法概述
算法發(fā)展歷程
Dreamer 算法并非從一開始就具備如今的強(qiáng)大能力,它的發(fā)展歷程可以說是步步攀登,從最初的連續(xù)控制專精到如今通用性極強(qiáng)的第三代版本。DreamerV1 是這一系列的開端,它主要專注于連續(xù)控制任務(wù),通過構(gòu)建世界模型為強(qiáng)化學(xué)習(xí)算法賦予了一定的環(huán)境理解能力。但是它的局限性顯而易見——應(yīng)用領(lǐng)域較窄,只能處理特定類型的任務(wù)。
圖1 |Dreamer的訓(xùn)練過程。世界模型使用編碼器(enc)將感官輸入xt編碼為離散表示zt,這些離散表示由具有給定動(dòng)作的循環(huán)狀態(tài)ht的序列模型預(yù)測。輸入被重建為x?t使用解碼器(dec)來塑造表示。行動(dòng)者和評(píng)論家預(yù)測vt處的行為并重視vt,并從抽象表示z?的軌跡中學(xué)習(xí)t,并對(duì)世界模型預(yù)測的rt進(jìn)行獎(jiǎng)勵(lì)。
DreamerV2 向前邁進(jìn)了一大步,實(shí)現(xiàn)了在 Atari 游戲等離散任務(wù)中的人類級(jí)別表現(xiàn)。其技術(shù)核心在于將世界模型擴(kuò)展到像素輸入的場景,同時(shí)優(yōu)化了模型的數(shù)據(jù)效率。然而它仍然局限于相對(duì)有限的任務(wù)范圍,未能完全跨越領(lǐng)域邊界。
直到 DreamerV3 的問世,這一系列算法終于突破了障礙,成為真正意義上的通用算法。它能夠在超過 150 個(gè)多樣化任務(wù)中表現(xiàn)優(yōu)異,涵蓋了連續(xù)和離散動(dòng)作、低維度和高維度視覺輸入、稀疏和密集獎(jiǎng)勵(lì)等,標(biāo)志著從單一領(lǐng)域?qū)>綇V泛通用的躍遷。
核心思想:世界模型
Dreamer 的成功離不開其核心思想——世界模型。這一技術(shù)的精妙之處在于,它為強(qiáng)化學(xué)習(xí)算法提供了類似人類“想象力”的能力,讓算法能夠?qū)Νh(huán)境進(jìn)行推演,從而優(yōu)化行動(dòng)策略。
圖2|實(shí)驗(yàn)中使用的不同視覺領(lǐng)域。Dreamer在這些領(lǐng)域取得了成功,從Atari游戲中的機(jī)器人運(yùn)動(dòng)和操縱任務(wù),程序生成的ProcGen關(guān)卡,以及需要空間和時(shí)間推理的DMLab任務(wù),到Minecraft的復(fù)雜和無限世界。我們還對(duì)Dreamer進(jìn)行了非視覺領(lǐng)域的評(píng)估。
首先,世界模型通過自編碼器(Autoencoder)提取環(huán)境的感官輸入x t的緊湊表示z t。接著,序列模型以循環(huán)狀態(tài)h t 的形式預(yù)測表示序列,該循環(huán)狀態(tài)由過去的動(dòng)作at t ?1和當(dāng)前時(shí)間步 t的隨機(jī)表示組成。公式表示如下:
世界模型結(jié)合了隨機(jī)表示z t和循環(huán)狀態(tài) h t 構(gòu)建了模型狀態(tài) st ,并用于預(yù)測獎(jiǎng)勵(lì)rt和回合繼續(xù)標(biāo)志 ct ,同時(shí)重建輸入以確保表示的有效性。
通過預(yù)測未來情景,世界模型使 Dreamer 的強(qiáng)化學(xué)習(xí)代理能夠在腦海中模擬潛在行動(dòng)的效果,而無需過度依賴真實(shí)環(huán)境交互數(shù)據(jù)。
主要組件
Dreamer 算法的架構(gòu)由三個(gè)主要組件構(gòu)成,各司其職,共同實(shí)現(xiàn)高效學(xué)習(xí):
- 世界模型: 世界模型是整個(gè)算法的基石,它不僅負(fù)責(zé)感知環(huán)境,還通過預(yù)測潛在動(dòng)作的結(jié)果為規(guī)劃提供支持。其架構(gòu)包括編碼器、序列模型,以及用于重建輸入和預(yù)測獎(jiǎng)勵(lì)的模塊。通過歸一化、平衡和變換技術(shù),世界模型能夠在多任務(wù)、多領(lǐng)域中實(shí)現(xiàn)穩(wěn)健學(xué)習(xí)。
- 行為者(Actor): 行為者負(fù)責(zé)選擇行動(dòng)策略,以最大化預(yù)期回報(bào)。它通過探索正則化(熵正則化)的方式在探索與利用間找到平衡。
- 評(píng)論者(Critic): 評(píng)論者基于世界模型生成的想象軌跡,對(duì)每個(gè)狀態(tài)的回報(bào)分布進(jìn)行估計(jì)。它通過兩熱編碼方法對(duì)獎(jiǎng)勵(lì)和價(jià)值預(yù)測進(jìn)行魯棒化處理,支持從稀疏獎(jiǎng)勵(lì)信號(hào)中提取重要信息。
這三大組件相輔相成,共同確保 Dreamer 的性能不僅在單一領(lǐng)域表現(xiàn)優(yōu)異,更能擴(kuò)展到不同任務(wù)場景。
2.方法論與技術(shù)細(xì)節(jié)
Dreamer 算法的突破性核心在于其世界模型的巧妙設(shè)計(jì)以及為強(qiáng)化學(xué)習(xí)奠定的魯棒性方法。
圖3 |世界模型的視頻預(yù)測。展示了一個(gè)程序迷宮和一個(gè)四足機(jī)器人。給定5個(gè)上下文圖像和一個(gè)看不見的視頻的完整動(dòng)作序列,Dreamer在沒有中間圖像的情況下預(yù)測未來45幀。通過像素觀測,世界模型可以了解每個(gè)環(huán)境的底層結(jié)構(gòu)。
世界模型的建立
Dreamer 的世界模型是實(shí)現(xiàn)高效學(xué)習(xí)的基石,通過將感官輸入映射為緊湊的表示,并預(yù)測潛在行為的未來結(jié)果,賦予了算法“想象力”。
輸入映射與隨機(jī)表示(z t)的學(xué)習(xí)
Dreamer 使用編碼器(encoder)將輸入x t轉(zhuǎn)化為隨機(jī)表示z t,捕捉了環(huán)境在每一時(shí)刻的特征。
循環(huán)狀態(tài)($$h_t$$)的構(gòu)建及與隨機(jī)表示的結(jié)合
為了捕捉時(shí)間序列信息,Dreamer 引入了循環(huán)狀態(tài)h t ,結(jié)合隨機(jī)表示z t形成模型狀態(tài) st,用于預(yù)測環(huán)境動(dòng)態(tài),通過這一構(gòu)建,Dreamer 能夠從歷史信息中提取規(guī)律,并預(yù)測未來可能的環(huán)境狀態(tài)。
預(yù)測獎(jiǎng)勵(lì)、繼續(xù)信號(hào)及重建輸入的綜合損失設(shè)計(jì)
Dreamer 的世界模型不僅預(yù)測獎(jiǎng)勵(lì)rt,還判斷回合是否繼續(xù)(繼續(xù)信號(hào) c t ,并重建原始輸入x t。
魯棒預(yù)測與回報(bào)歸一化
在稀疏獎(jiǎng)勵(lì)場景下,Dreamer 通過 symlog 和symexp 技術(shù)穩(wěn)定優(yōu)化過程。結(jié)合回報(bào)歸一化(采用百分位范圍裁剪策略),該方法確保了不同任務(wù)的信號(hào)尺度兼容性,從而實(shí)現(xiàn)跨領(lǐng)域的穩(wěn)定學(xué)習(xí)。
消融實(shí)驗(yàn)分析
為了驗(yàn)證各項(xiàng)技術(shù)的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了全面的消融實(shí)驗(yàn)。結(jié)果表明:
- 每項(xiàng)魯棒性技術(shù)對(duì)任務(wù)性能均有顯著影響,其中 KL 平衡和自由位貢獻(xiàn)最大;
- 消除無監(jiān)督重建信號(hào)的學(xué)習(xí)會(huì)顯著降低性能,驗(yàn)證了任務(wù)無關(guān)梯度的重要性。
這些實(shí)驗(yàn)不僅揭示了技術(shù)協(xié)同作用的重要性,也為未來算法優(yōu)化指明了方向。
優(yōu)化器與經(jīng)驗(yàn)回放
Dreamer 的優(yōu)化過程基于自適應(yīng)梯度剪裁和 LaProp 優(yōu)化器,實(shí)現(xiàn)了梯度穩(wěn)定性與高效學(xué)習(xí)的平衡:
- 自適應(yīng)梯度剪裁:當(dāng)梯度超過 L2 范數(shù)的 30% 時(shí)進(jìn)行裁剪,避免了異常值對(duì)學(xué)習(xí)的干擾。
- LaProp 優(yōu)化器:相較于 Adam,LaProp 提供了更平滑的動(dòng)量更新,避免了學(xué)習(xí)過程中的不穩(wěn)定現(xiàn)象。
在數(shù)據(jù)利用方面,Dreamer 使用均勻回放緩沖區(qū)結(jié)合在線隊(duì)列進(jìn)行經(jīng)驗(yàn)回放,通過回放比率控制每個(gè)時(shí)間步的訓(xùn)練頻率,從而優(yōu)化了數(shù)據(jù)效率。
模型擴(kuò)展性
Dreamer 的設(shè)計(jì)使其能夠通過簡單的調(diào)整擴(kuò)展至更大規(guī)模的模型。實(shí)驗(yàn)顯示,參數(shù)數(shù)量從 1200 萬擴(kuò)展到 4 億后,Dreamer在任務(wù)性能和數(shù)據(jù)效率上均實(shí)現(xiàn)了顯著提升。此外,固定超參數(shù)設(shè)置下的跨尺度表現(xiàn)也驗(yàn)證了其在資源配置上的靈活性與魯棒性。
3.基準(zhǔn)測試與綜合評(píng)估
Dreamer 算法的卓越表現(xiàn)并非憑空而來,它經(jīng)歷了嚴(yán)苛的基準(zhǔn)測試,涵蓋多個(gè)領(lǐng)域的豐富任務(wù)。這些測試不僅驗(yàn)證了算法的魯棒性,還展現(xiàn)了其跨領(lǐng)域?qū)W習(xí)能力。
圖4|基準(zhǔn)分?jǐn)?shù)。Dreamer在所有領(lǐng)域使用固定超參數(shù),在各種基準(zhǔn)測試和數(shù)據(jù)預(yù)算中都優(yōu)于經(jīng)過調(diào)優(yōu)的專家算法。Dreamer的性能也大大優(yōu)于廣泛適用的PPO算法的高質(zhì)量實(shí)現(xiàn)。IMPALA和R2D2+在DMLab上使用的數(shù)據(jù)量是前者的十倍。
各領(lǐng)域?qū)嶒?yàn)設(shè)計(jì)
Dreamer 的實(shí)驗(yàn)設(shè)置橫跨多個(gè)基準(zhǔn)領(lǐng)域,囊括了強(qiáng)化學(xué)習(xí)的經(jīng)典挑戰(zhàn)與前沿應(yīng)用。這些任務(wù)包括:
- Atari 游戲:57 項(xiàng)任務(wù)測試算法在離散動(dòng)作與視覺輸入下的表現(xiàn),例如《太空侵略者》(Space Invaders)等經(jīng)典游戲。
- ProcGen 游戲集:16 款游戲引入了隨機(jī)化關(guān)卡與視覺干擾,旨在評(píng)估算法的泛化能力。
- DMLab 環(huán)境:30 項(xiàng)三維任務(wù)挑戰(zhàn)空間與時(shí)間推理能力,包括在迷宮中尋找路徑。
- Atari100k:僅有 400,000 幀的數(shù)據(jù)預(yù)算,使其成為強(qiáng)化學(xué)習(xí)領(lǐng)域的效率測試基準(zhǔn)。
- 控制任務(wù):包括 Proprio 控制(機(jī)器人運(yùn)動(dòng))與 Visual 控制(基于圖像的高維控制),涵蓋從經(jīng)典動(dòng)力學(xué)到機(jī)器人操作的范圍。
- BSuite:23 個(gè)環(huán)境的總計(jì) 468 項(xiàng)配置,通過獎(jiǎng)勵(lì)尺度、記憶、探索等測試算法的魯棒性。
這些任務(wù)的設(shè)計(jì)極具挑戰(zhàn)性,覆蓋了連續(xù)與離散動(dòng)作、稀疏與密集獎(jiǎng)勵(lì),以及二維與三維場景,確保了實(shí)驗(yàn)的多樣性與全面性。
測試協(xié)議與固定超參數(shù)跨領(lǐng)域訓(xùn)練
Dreamer 采用了固定超參數(shù)設(shè)置,以驗(yàn)證其在不同任務(wù)中的通用性與適應(yīng)能力。所有實(shí)驗(yàn)均遵循標(biāo)準(zhǔn)的測試協(xié)議,例如:
- Atari 任務(wù)使用“黏性動(dòng)作”(Sticky Actions)模擬現(xiàn)實(shí)中的動(dòng)作干擾。
- ProcGen 使用難度較高的設(shè)置以及無限級(jí)別隨機(jī)化。
- DMLab 的運(yùn)行預(yù)算為 100 萬步,但為了與以前采用 10 億步基線的工作對(duì)比,提供了這些算法在更高數(shù)據(jù)量下的參考表現(xiàn)。
- 控制任務(wù)的預(yù)算為 1 百萬步,分為低維傳感輸入與高維視覺輸入兩組。
在環(huán)境實(shí)例方面,Dreamer 的實(shí)驗(yàn)使用了單 GPU 運(yùn)行,環(huán)境實(shí)例數(shù)因任務(wù)需求而異。例如,Atari100k 使用單實(shí)例保證數(shù)據(jù)預(yù)算,而 Minecraft 實(shí)驗(yàn)則采用了 64 個(gè)遠(yuǎn)程 CPU 實(shí)例加速運(yùn)行。
為了確保結(jié)果的可靠性,每項(xiàng)實(shí)驗(yàn)運(yùn)行了多個(gè)種子。特別是 Minecraft 實(shí)驗(yàn)使用了 10 個(gè)種子,統(tǒng)計(jì)其成功率,明確了算法的穩(wěn)定性。
評(píng)估指標(biāo)與對(duì)比基線
為了評(píng)估 Dreamer 的性能,研究團(tuán)隊(duì)選擇了多種基線算法進(jìn)行對(duì)比,包括:
- 高質(zhì)量 PPO:基于 Acme 框架實(shí)現(xiàn),調(diào)整了學(xué)習(xí)率與熵正則化因子以最大化性能。
- IMPALA:一種高效擴(kuò)展的強(qiáng)化學(xué)習(xí)算法,適用于復(fù)雜三維場景。
- Rainbow 和 IQN:兩個(gè)針對(duì) Atari 游戲領(lǐng)域優(yōu)化的專家算法。
- TD-MPC:一種結(jié)合經(jīng)典規(guī)劃與連續(xù)動(dòng)作的算法,專為視覺任務(wù)設(shè)計(jì)。
通過對(duì)比可以發(fā)現(xiàn),Dreamer 不僅匹配甚至超越了專家算法的表現(xiàn)。例如,在 ProcGen 游戲中,它顯著優(yōu)于調(diào)優(yōu)的 PPO 與 Rainbow。在DMLab 環(huán)境中,它的數(shù)據(jù)效率比 IMPALA 高出 10 倍。
此外,在連續(xù)控制任務(wù)中,Dreamer 的表現(xiàn)超越了 TD-MPC 等專用方法。這些對(duì)比清晰地展示了其魯棒性與廣泛適用性。
模型消融實(shí)驗(yàn)結(jié)果
為了進(jìn)一步分析 Dreamer 算法的技術(shù)貢獻(xiàn),研究團(tuán)隊(duì)對(duì)其進(jìn)行了消融實(shí)驗(yàn)。這些實(shí)驗(yàn)驗(yàn)證了各項(xiàng)技術(shù)的協(xié)同作用,并揭示了關(guān)鍵性改進(jìn):
- 自由位與 KL 平衡:對(duì)多個(gè)任務(wù)的性能提升尤為顯著。
- Symlog 與 Symexp:在處理稀疏獎(jiǎng)勵(lì)和大尺度信號(hào)方面表現(xiàn)出了穩(wěn)定性優(yōu)勢。
- 無監(jiān)督梯度信號(hào)的重要性:移除任務(wù)無關(guān)重建信號(hào)的實(shí)驗(yàn)結(jié)果表明,這一機(jī)制對(duì)于學(xué)習(xí)過程至關(guān)重要。
實(shí)驗(yàn)結(jié)果以圖形形式展現(xiàn)了各技術(shù)對(duì)性能的影響,清晰地揭示了 Dreamer 算法的內(nèi)在機(jī)制。
4.Minecraft 鉆石挑戰(zhàn)案例研究
《我的世界》(Minecraft)不僅是全球最受歡迎的游戲之一,更以其開放性和復(fù)雜性成為人工智能研究的重要場景。在這里,玩家面對(duì)的不僅僅是像素化的方塊世界,還有稀疏獎(jiǎng)勵(lì)、長時(shí)序策略和開放式目標(biāo)的嚴(yán)峻挑戰(zhàn)。Dreamer 算法在這一任務(wù)中的表現(xiàn),不僅證明了其技術(shù)深度,更展示了人工智能適應(yīng)多樣性任務(wù)的潛力。
圖5 | Minecraft Diamond挑戰(zhàn)賽的表現(xiàn)。a、 據(jù)我們所知,Dreamer是第一個(gè)完成通往鉆石的所有12個(gè)里程碑的算法,從沒有人類數(shù)據(jù)或課程的稀疏獎(jiǎng)勵(lì)開始。b、 在鉆石任務(wù)中發(fā)現(xiàn)三個(gè)最新項(xiàng)目的訓(xùn)練有素的代理人的比例,以及他們獲得該項(xiàng)目的事件比例。盡管之前的算法已經(jīng)發(fā)展到鐵鎬,但Dreamer是唯一一個(gè)發(fā)現(xiàn)鉆石的比較算法,并且在每次訓(xùn)練中都會(huì)這樣做。陰影區(qū)域表示一個(gè)標(biāo)準(zhǔn)偏差。
環(huán)境構(gòu)建與任務(wù)定義
Minecraft 的世界充滿了復(fù)雜的元素與無數(shù)的可能性。為了讓這一環(huán)境適用于強(qiáng)化學(xué)習(xí),研究團(tuán)隊(duì)基于 MineRL v0.4.4 構(gòu)建了“Minecraft 鉆石環(huán)境”。該環(huán)境以一系列需要收集資源、制作工具的步驟為基礎(chǔ),其終極目標(biāo)是獲取鉆石,一種極其稀有且難以獲取的資源。
- MineRL 競賽環(huán)境的特點(diǎn)MineRL 提供了抽象的制作(Crafting)動(dòng)作,并允許代理通過視覺感知和低級(jí)控制與環(huán)境交互。然而,這一環(huán)境也存在多項(xiàng)限制:
a.稀疏獎(jiǎng)勵(lì):僅在收集特定物品(如木材、石塊或鐵塊)時(shí)提供獎(jiǎng)勵(lì),并且一次回合內(nèi)只能獲得一次相同物品獎(jiǎng)勵(lì)。
b.復(fù)雜的技術(shù)樹:代理需要遵循一系列遞進(jìn)步驟(如制作工具、采集資源),最終才能獲得鉆石。
- 定制修改研究團(tuán)隊(duì)對(duì)環(huán)境進(jìn)行了一系列改進(jìn)以提高學(xué)習(xí)效率:
a.動(dòng)作空間優(yōu)化:將復(fù)雜的字典動(dòng)作轉(zhuǎn)化為簡單的25 類動(dòng)作,這些動(dòng)作覆蓋了移動(dòng)、跳躍、開采和制作等核心功能。
b.獎(jiǎng)勵(lì)設(shè)計(jì):為每個(gè)里程碑(如成功獲取木板、鐵鎬等)分配統(tǒng)一的獎(jiǎng)勵(lì)(+1),讓回報(bào)更加直觀。
c.塊破壞速度加速:破壞一塊方塊默認(rèn)需要幾百個(gè)時(shí)間步,研究團(tuán)隊(duì)通過加速破壞時(shí)間,降低了動(dòng)作序列探索的難度,同時(shí)保留了 Minecraft 核心的挑戰(zhàn)性。
鉆石作為長期稀疏獎(jiǎng)勵(lì)任務(wù)的挑戰(zhàn)性
在這個(gè)任務(wù)中,鉆石的獲取被視為 AI 的“終極考驗(yàn)”,因?yàn)樗枰硗瓿砷L時(shí)序的規(guī)劃與探索:
- 探索復(fù)雜性:鉆石僅存在于深地下的礦脈中,代理需要經(jīng)歷從地表到地底的漫長路徑,并找到正確的開采區(qū)域。
- 稀疏獎(jiǎng)勵(lì)信號(hào):代理需要通過 12 個(gè)里程碑的逐步解鎖獲得獎(jiǎng)勵(lì),而每個(gè)里程碑的完成都依賴于之前目標(biāo)的成功完成。
- 長時(shí)序依賴:在整個(gè)學(xué)習(xí)過程中,代理需要記住哪些資源已被收集、哪些工具已被制作,還要確保自己的存活狀態(tài)(如避免饑餓或生命值歸零)。
這些特點(diǎn)讓 Minecraft 成為了強(qiáng)化學(xué)習(xí)領(lǐng)域中難度最高的任務(wù)之一。
Dreamer 在 Minecraft 中的表現(xiàn)
Dreamer 算法的最大亮點(diǎn)在于其“開箱即用”的能力。無需依賴人類先驗(yàn)數(shù)據(jù),也無需專門為任務(wù)設(shè)計(jì)的課程指導(dǎo),Dreamer 展現(xiàn)出了非凡的適應(yīng)性。
- 開箱即用的成功表現(xiàn)在 Minecraft 環(huán)境中,Dreamer 完全依靠自己的世界模型和無監(jiān)督目標(biāo),成功從頭開始學(xué)習(xí)并實(shí)現(xiàn)鉆石獲取。這一成就標(biāo)志著 Dreamer 成為第一個(gè)在 Minecraft 鉆石挑戰(zhàn)中完成目標(biāo)的算法。
- 多輪實(shí)驗(yàn)與成功率統(tǒng)計(jì)研究團(tuán)隊(duì)運(yùn)行了多輪實(shí)驗(yàn),每輪模擬約 1 億環(huán)境步,相當(dāng)于 100 天的游戲時(shí)間。結(jié)果顯示,Dreamer 能在所有實(shí)驗(yàn)中成功解鎖鉆石獎(jiǎng)勵(lì),其成功率顯著高于其他算法(如 Rainbow、IMPALA 等)。
- 橫向?qū)Ρ?/strong>
a.Dreamer 無需人類數(shù)據(jù)支持,而許多基線算法(如 VPT)依賴于大規(guī)模專家演示。
b.算法的計(jì)算資源需求也更低:Dreamer 使用 1 張 GPU 即可完成訓(xùn)練,而同類算法需要數(shù)百 GPU 才能接近類似的表現(xiàn)。
技術(shù)難點(diǎn)與解決策略
Dreamer 在解決 Minecraft 鉆石挑戰(zhàn)的過程中,克服了多項(xiàng)技術(shù)難點(diǎn),其方法在多個(gè)方面具有啟示意義:
- 稀疏獎(jiǎng)勵(lì)與長時(shí)序依賴
a.Dreamer 的世界模型通過預(yù)測環(huán)境動(dòng)態(tài),幫助代理從稀疏獎(jiǎng)勵(lì)信號(hào)中提取有用的信息。
b.代理能夠“想象”未來可能的情景,從而有效規(guī)劃一系列復(fù)雜步驟來完成目標(biāo)。
- 無監(jiān)督目標(biāo)與跨任務(wù)遷移
a.Dreamer 強(qiáng)調(diào)無監(jiān)督學(xué)習(xí)目標(biāo)的重要性,世界模型的重建信號(hào)與任務(wù)獨(dú)立,使得算法能夠快速適應(yīng)不同任務(wù)。
b.這一策略也為 AI 的跨任務(wù)遷移能力奠定了技術(shù)基礎(chǔ),表明強(qiáng)化學(xué)習(xí)不再局限于單一領(lǐng)域的專用優(yōu)化。
5.討論與未來研究方向
值得注意的是,較大的模型不僅可以提高任務(wù)性能,而且需要更少的環(huán)境交互。d、 更高的重播率可以提高Dreamer的性能。再加上模型大小,這使得從業(yè)者能夠通過使用更多的計(jì)算資源來提高任務(wù)性能和數(shù)據(jù)效率。
圖6|Dreamer的燒蝕和穩(wěn)健擴(kuò)展。a、 平均而言,所有單獨(dú)的魯棒性技術(shù)都有助于Dreamer的性能,盡管每種單獨(dú)的技術(shù)可能只影響一些任務(wù)。個(gè)別任務(wù)的訓(xùn)練曲線包含在補(bǔ)充信息中。advnorm,優(yōu)勢規(guī)范化。b、Dreamer的性能主要取決于其世界模型的無監(jiān)督重建損失,這與大多數(shù)主要依賴獎(jiǎng)勵(lì)和價(jià)值預(yù)測梯度的先前算法不同7,9,10。c、 Dreamer的性能隨著模型尺寸的增大而單調(diào)增加,參數(shù)從1200萬到4億不等。
值得注意的是,較大的模型不僅可以提高任務(wù)性能,而且需要更少的環(huán)境交互。d、 更高的重播率可以提高Dreamer的性能。再加上模型大小,這使得從業(yè)者能夠通過使用更多的計(jì)算資源來提高任務(wù)性能和數(shù)據(jù)效率。
DreamerV3 的出現(xiàn),標(biāo)志著強(qiáng)化學(xué)習(xí)領(lǐng)域的一次里程碑式的突破。它不僅在技術(shù)上解決了固定超參數(shù)跨領(lǐng)域?qū)W習(xí)的難題,更以驚人的效率和適應(yīng)性刷新了我們對(duì)強(qiáng)化學(xué)習(xí)的認(rèn)知。在超過 150 項(xiàng)多樣化任務(wù)中,Dreamer 展現(xiàn)了強(qiáng)大的能力,涵蓋離散與連續(xù)動(dòng)作、低維與高維輸入、稀疏與密集獎(jiǎng)勵(lì)等。這一算法以統(tǒng)一的技術(shù)解決多樣化問題,擺脫了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法高度依賴人工調(diào)參的局限。
在實(shí)驗(yàn)成果方面,DreamerV3 在經(jīng)典基準(zhǔn)測試(如 Atari 游戲集、DMLab 和 ProcGen 等)以及復(fù)雜的開放世界任務(wù)(如 Minecraft 鉆石挑戰(zhàn))中表現(xiàn)卓越。它的“開箱即用”特性無需人類數(shù)據(jù)支持或適應(yīng)性課程設(shè)計(jì),彰顯了其跨領(lǐng)域的強(qiáng)適應(yīng)性。這不僅大幅降低了人工智能應(yīng)用的門檻,也為算法在實(shí)際場景中的廣泛應(yīng)用鋪平了道路。
此外,Dreamer 優(yōu)雅地平衡了數(shù)據(jù)效率與計(jì)算資源。盡管固定超參數(shù)設(shè)置可能聽上去局限性較強(qiáng),但實(shí)驗(yàn)結(jié)果證明 Dreamer 能夠以較少的數(shù)據(jù)和計(jì)算資源實(shí)現(xiàn)頂級(jí)表現(xiàn)。從高效的數(shù)據(jù)利用到對(duì)硬件預(yù)算的合理適配,這一算法為強(qiáng)化學(xué)習(xí)研究提供了一種新的思路。
對(duì)強(qiáng)化學(xué)習(xí)研究的啟示
DreamerV3 的成功并非偶然,它為強(qiáng)化學(xué)習(xí)領(lǐng)域帶來了許多啟發(fā),尤其是在以下幾個(gè)方面:
- 無監(jiān)督預(yù)訓(xùn)練的潛力Dreamer 強(qiáng)調(diào)世界模型的無監(jiān)督學(xué)習(xí)目標(biāo),通過重建信號(hào)讓模型能夠獨(dú)立構(gòu)建環(huán)境的理解。這表明,未來的算法可以借助無監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)更廣泛的知識(shí)基礎(chǔ),為更復(fù)雜的任務(wù)提供支持。
- 世界模型的廣泛適用性Dreamer 的世界模型展現(xiàn)了在復(fù)雜環(huán)境中的規(guī)劃能力。這一技術(shù)不僅適用于游戲和仿真任務(wù),還能延伸至從互聯(lián)網(wǎng)視頻中學(xué)習(xí)世界知識(shí)、開發(fā)通用智能體等領(lǐng)域。比如,AI 能夠從無數(shù)的線上內(nèi)容中提取豐富的環(huán)境動(dòng)態(tài),應(yīng)用于交通規(guī)劃、醫(yī)療診斷甚至科學(xué)實(shí)驗(yàn)。
Dreamer 算法為強(qiáng)化學(xué)習(xí)研究提供了一種全新的范式:從任務(wù)特定的調(diào)優(yōu)逐步邁向廣泛的普適性。
未來工作展望
盡管 DreamerV3 已取得令人矚目的成績,但它的未來發(fā)展空間仍然廣闊。以下是幾個(gè)關(guān)鍵的研究方向:
- 進(jìn)一步擴(kuò)展世界模型的訓(xùn)練規(guī)模隨著計(jì)算資源的不斷提升,世界模型可以擴(kuò)展到更大規(guī)模的數(shù)據(jù)集與參數(shù)空間。通過增加模型的復(fù)雜度與泛化能力,Dreamer 有望處理更多樣化的任務(wù)。
- 探索更復(fù)雜的環(huán)境與任務(wù)Minecraft 鉆石挑戰(zhàn)已經(jīng)證明 Dreamer 在開放世界任務(wù)中的潛力,但還有更多領(lǐng)域等待開發(fā),例如實(shí)時(shí)動(dòng)態(tài)環(huán)境、多人交互任務(wù)等。同時(shí),融合語言與視覺的多模態(tài)輸入將進(jìn)一步提升算法的適用性與表現(xiàn)。
- 實(shí)際應(yīng)用與商業(yè)落地前景Dreamer 的“開箱即用”特性使其在工業(yè)場景中有著極大的應(yīng)用潛力。從自動(dòng)駕駛到智能客服,從機(jī)器人操作到科學(xué)研究,其普適性與數(shù)據(jù)效率使其能夠勝任多種實(shí)際任務(wù),并且有望促進(jìn)人工智能商業(yè)化的進(jìn)一步推進(jìn)。
DreamerV3 的出現(xiàn)不僅刷新了技術(shù)的邊界,更為人工智能的未來繪制了一幅藍(lán)圖。作為一項(xiàng)通用算法,它的成功故事不僅是技術(shù)發(fā)展的縮影,也是人工智能邁向普遍適用性的象征。在不遠(yuǎn)的將來,我們或許會(huì)看到以世界模型為核心的人工智能,徹底改變我們認(rèn)知與工作方式的時(shí)代。
參考資料:???https://www.nature.com/articles/s41586-025-08744-2??
本文轉(zhuǎn)載自??獨(dú)角噬元獸??,作者:FlerkenS
