LeCun 的世界模型初步實(shí)現(xiàn)!基于預(yù)訓(xùn)練視覺特征,看一眼任務(wù)就能零樣本規(guī)劃
在 LLM 應(yīng)用不斷迭代升級更新的當(dāng)下,圖靈獎得主 Yann LeCun 卻代表了一股不同的聲音。他在許多不同場合都反復(fù)重申了自己的一個觀點(diǎn):當(dāng)前的 LLM 根本無法理解世界。他曾說過:LLM「理解邏輯的能力非常有限…… 無法理解物理世界,沒有持續(xù)性記憶,不能推理(只要推理的定義是合理的)、不能規(guī)劃?!?/span>
Yann LeCun 批評 LLM 的推文之一
相反,他更注重所謂的世界模型(World Model),也就是根據(jù)世界數(shù)據(jù)擬合的一個動態(tài)模型。比如驢,正是有了這樣的世界模型,它們才能找到更省力的負(fù)重登山方法。
近日,LeCun 團(tuán)隊(duì)發(fā)布了他們在世界模型方面的一項(xiàng)新研究成果:基于預(yù)訓(xùn)練的視覺特征訓(xùn)練的世界模型可以實(shí)現(xiàn)零樣本規(guī)劃!也就是說該模型無需依賴任何專家演示、獎勵建模或預(yù)先學(xué)習(xí)的逆向模型。
- 論文標(biāo)題:DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
- 論文地址:https://arxiv.org/pdf/2411.04983v1
- 項(xiàng)目地址:https://dino-wm.github.io/
該團(tuán)隊(duì)提出的 DINO-WM 是一種可基于離線的軌跡數(shù)據(jù)集構(gòu)建與任務(wù)無關(guān)的世界模型的簡單新方法。據(jù)介紹,DINO-WM 是基于世界的緊湊嵌入建模世界的動態(tài),而不是使用原始的觀察本身。
對于嵌入,他們使用的是來自 DINOv2 模型的預(yù)訓(xùn)練圖塊特征,其能提供空間的和以目標(biāo)為中心的表征先驗(yàn)。該團(tuán)隊(duì)推測,這種預(yù)訓(xùn)練的表征可實(shí)現(xiàn)穩(wěn)健且一致的世界建模,從而可放寬對具體任務(wù)數(shù)據(jù)的需求。
有了這些視覺嵌入和動作后,DINO-WM 會使用 ViT 架構(gòu)來預(yù)測未來嵌入。
完成模型訓(xùn)練之后,在解決任務(wù)時,規(guī)劃會被構(gòu)建成視覺目標(biāo)的達(dá)成,即給定當(dāng)前觀察達(dá)成未來的預(yù)期目標(biāo)。由于 DINO-WM 的預(yù)測質(zhì)量很高,于是就可以簡單地使用模型預(yù)測控制和推理時間優(yōu)化來達(dá)成期望的目標(biāo),而無需在測試期間使用任何額外信息。
DINO 世界模型
概述和問題表述:該研究遵循基于視覺的控制任務(wù)框架,即將環(huán)境建模為部分可觀察的馬爾可夫決策過程 (POMDP)。POMDP 可定義成一個元組 (O, A, p),其中 O 表示觀察空間,A 表示動作空間。p (o_{t+1} | o≤t, a≤t) 是一個轉(zhuǎn)移分布,建模了環(huán)境的動態(tài),可根據(jù)過去的動作和觀察預(yù)測未來的觀察。
這項(xiàng)研究的目標(biāo)是從預(yù)先收集的離線數(shù)據(jù)集中學(xué)習(xí)與任務(wù)無關(guān)的世界模型,然后在測試時間使用這些世界模型來執(zhí)行視覺推理。
在測試時間,該系統(tǒng)可從一個任意的環(huán)境狀態(tài)開始,然后根據(jù)提供的目標(biāo)觀察(RGB 圖像形式),執(zhí)行一系列動作 a_0, ..., a_T,使得目標(biāo)狀態(tài)得以實(shí)現(xiàn)。
該方法不同于在線強(qiáng)化學(xué)習(xí)中使用的世界模型,其目標(biāo)是優(yōu)化手頭一組固定任務(wù)的獎勵;也不同于基于文本的世界模型,其目標(biāo)需要通過文本提示詞指定。
基于 DINO 的世界模型(DINO-WM)
該團(tuán)隊(duì)將環(huán)境動態(tài)建模到了隱藏空間中。更具體而言,在每個時間步驟 t,該世界模型由以下組分構(gòu)成:
其中,觀察模型是將圖像觀察編碼成隱藏狀態(tài) z_t,而轉(zhuǎn)移模型則是以長度為 H 的過去隱藏狀態(tài)歷史為輸入。解碼器模型則是以隱藏的 z_t 為輸入,重建出圖像觀察 o_t。這里的 θ 表示這些模型的參數(shù)。
該團(tuán)隊(duì)指出,其中的解碼器是可選的,因?yàn)榻獯a器的訓(xùn)練目標(biāo)與訓(xùn)練世界模型的其余部分無關(guān)。這樣一來,就不必在訓(xùn)練和測試期間重建圖像了;相比于將觀察模型和解碼器的訓(xùn)練結(jié)合在一起的做法,這還能降低計(jì)算成本。
DINO-WM 僅會建模環(huán)境中離線軌跡數(shù)據(jù)中可用的信息,這不同于近期的在線強(qiáng)化學(xué)習(xí)世界模型方法(還需要獎勵和終止條件等與任務(wù)相關(guān)的信息)。
使用 DINO-WM 實(shí)現(xiàn)視覺規(guī)劃
為了評估世界模型的質(zhì)量,需要了解其在下游任務(wù)上的推理和規(guī)劃能力。一種標(biāo)準(zhǔn)的評估指標(biāo)是在測試時間使用世界模型執(zhí)行軌跡優(yōu)化并測量其性能。雖然規(guī)劃方法本身相當(dāng)標(biāo)準(zhǔn),但它可以作為一種展現(xiàn)世界模型質(zhì)量的手段。
為此,該團(tuán)隊(duì)使用 DINO-WM 執(zhí)行了這樣的操作:以當(dāng)前觀察 o_0 和目標(biāo)觀察 o_g(都是 RGB 圖像)為輸入,規(guī)劃便是搜索能使智能體到達(dá) o_g 的一個動作序列。為了實(shí)現(xiàn)這一點(diǎn),該團(tuán)隊(duì)使用了模型預(yù)測性控制(MPC),即通過考慮未來動作的結(jié)果來促進(jìn)規(guī)劃。
為了優(yōu)化每次迭代的動作序列,該團(tuán)隊(duì)還使用了一種隨機(jī)優(yōu)化算法:交叉熵方法(CEM)。其規(guī)劃成本定義為當(dāng)前隱藏狀態(tài)與目標(biāo)隱藏狀態(tài)之間的均方誤差(MSE),如下所示:
實(shí)驗(yàn)
該團(tuán)隊(duì)基于以下四個關(guān)鍵問題進(jìn)行了實(shí)驗(yàn):
- 能否使用預(yù)先收集的離線數(shù)據(jù)集有效地訓(xùn)練 DINO-WM?
- 訓(xùn)練完成后,DINO-WM 可以用于視覺規(guī)劃嗎?
- 世界模型的質(zhì)量在多大程度上取決于預(yù)訓(xùn)練的視覺表征?
- DINO-WM 是否可以泛化到新的配置,例如不同的空間布局和物體排列方式?
為了解答這些問題,該團(tuán)隊(duì)在 5 個環(huán)境套件(Point Maze、Push-T、Wall、Rope Manipulation、Granular Manipulation)中訓(xùn)練和評估了 DINO-WM,并將其與多種在隱藏空間和原始像素空間中建模世界的世界模型進(jìn)行了比較。
使用 DINO-WM 優(yōu)化行為
該團(tuán)隊(duì)研究了 DINO-WM 是否可直接用于在隱藏空間中實(shí)現(xiàn)零樣本規(guī)劃。
如表 1 所示,在 Wall 和 PointMaze 等較簡單的環(huán)境中,DINO-WM 與 DreamerV3 等最先進(jìn)的世界模型相當(dāng)。但是,在需要準(zhǔn)確推斷豐富的接觸信息和物體動態(tài)才能完成任務(wù)的操縱環(huán)境中,DINO-WM 的表現(xiàn)明顯優(yōu)于之前的方法。
下面展示了一些可視化的規(guī)劃結(jié)果:
預(yù)訓(xùn)練的視覺表征重要嗎?
該團(tuán)隊(duì)使用不同的預(yù)訓(xùn)練通用編碼器作為世界模型的觀察模型,并評估了它們的下游規(guī)劃性能。
在涉及簡單動態(tài)和控制的 PointMaze 任務(wù)中,該團(tuán)隊(duì)觀察到具有不同觀察編碼器的世界模型都實(shí)現(xiàn)了近乎完美的成功率。然而,隨著環(huán)境復(fù)雜性的增加(需要更精確的控制和空間理解),將觀察結(jié)果編碼為單個隱藏向量的世界模型的性能會顯著下降。他們猜想基于圖塊的表征可以更好地捕獲空間信息,而 R3M、ResNet 和 DINO CLS 等模型是將觀察結(jié)果簡化為單個全局特征向量,這樣會丟失操作任務(wù)所需的關(guān)鍵空間細(xì)節(jié)。
泛化到全新的環(huán)境配置
該團(tuán)隊(duì)也評估了新提出的模型對不同環(huán)境的泛化能力。為此,他們構(gòu)建了三類環(huán)境:WallRandom、PushObj 和 GranularRandom。實(shí)驗(yàn)中,世界模型會被部署在從未見過的環(huán)境中去實(shí)現(xiàn)從未見過的任務(wù)。圖 6 展示了一些示例。
結(jié)果見表 3??梢钥吹剑珼INO-WM 在 WallRandom 環(huán)境中的表現(xiàn)明顯更好,這表明世界模型已經(jīng)有效地學(xué)習(xí)了墻壁和門的一般概念,即使它們位于訓(xùn)練期間未曾見過的位置。相比之下,其他方法很難做到這一點(diǎn)。
PushObj 任務(wù)對于所有方法來說都挺難,因?yàn)樵撃P蛢H針對四種物體形狀進(jìn)行了訓(xùn)練,這使其很難精確推斷重心和慣性等物理參數(shù)。
在 GranularRandom 中,智能體遇到的粒子不到訓(xùn)練時出現(xiàn)的一半,導(dǎo)致圖像出現(xiàn)在了訓(xùn)練實(shí)例的分布之外。盡管如此,DINO-WM 依然準(zhǔn)確地編碼了場景,并成功地將粒子聚集到與基線相比具有最小 Chamfer Distance(CD)的指定方形位置。這說明 DINO-WM 具有更好的場景理解能力。該團(tuán)隊(duì)猜想這是由于 DINO-WM 的觀察模型會將場景編碼為圖塊特征,使得粒子數(shù)量的方差仍然在每個圖塊的分布范圍內(nèi)。
與生成式視頻模型的定性比較
鑒于生成式視頻模型的突出地位,可以合理地假設(shè)它們可以很容易地用作世界模型。為了研究 DINO-WM 相對于此類視頻生成模型的實(shí)用性,該團(tuán)隊(duì)將其與 AVDC(一個基于擴(kuò)散的生成式模型)進(jìn)行了比較。
如圖 7 所示,可以看到,在基準(zhǔn)上訓(xùn)練的擴(kuò)散模型能得到看起來相當(dāng)真實(shí)的未來圖像,但它們在物理上并不合理,因?yàn)榭梢钥吹皆趩蝹€預(yù)測時間步驟中就可能出現(xiàn)較大的變化,并且可能難以達(dá)到準(zhǔn)確的目標(biāo)狀態(tài)。
DINO-WM 所代表的方法看起來頗有潛力,該團(tuán)隊(duì)表示:「DINO-WM 朝著填補(bǔ)任務(wù)無關(guān)型世界建模以及推理和控制之間的空白邁出了一步,為現(xiàn)實(shí)世界應(yīng)用中的通用世界模型提供了光明的前景。」