生成模型構(gòu)建交互式現(xiàn)實世界模擬器,LeCun覺得非常酷
基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的生成模型徹底改變了文本、圖像和視頻內(nèi)容的創(chuàng)建方式。有研究者預(yù)測,也許生成模型的下一個里程碑是能夠模擬人類體驗世界的方方面面,比如在公路上如何駕駛汽車,又比如如何準備飯菜。
現(xiàn)如今,借助非常全面的真實世界模擬器(real-world simulator),人類可以與不同場景和物體進行交互,機器人也可以從模擬經(jīng)驗中進行學(xué)習,從而避免出現(xiàn)物理損壞的風險。
然而,構(gòu)建這樣一個真實世界模擬器的主要障礙之一在于可用的數(shù)據(jù)集。雖然互聯(lián)網(wǎng)上有數(shù)十億的文本、圖像和視頻片段,但不同的數(shù)據(jù)集涵蓋不同的信息軸,必須將這些數(shù)據(jù)集中在一起才能模擬出對世界的真實體驗。例如,成對的文本圖像數(shù)據(jù)包含豐富的場景和對象,但很少有動作,視頻字幕和問答數(shù)據(jù)包含豐富的高級活動描述,但很少有低級運動細節(jié), 人類活動數(shù)據(jù)包含豐富的人類動作但很少有機械運動,而機器人數(shù)據(jù)包含豐富的機器人動作但數(shù)量有限。
以上列舉的信息差異是自然的且難以克服,這給構(gòu)建一個旨在捕捉現(xiàn)實世界真實體驗的真實世界模擬器帶來了困難。
本文中,來自 UC 伯克利、Google DeepMind、MIT 等機構(gòu)的研究者探索了通過生成模型學(xué)習真實世界交互的通用模擬器 UniSim,邁出了構(gòu)建通用模擬器的第一步。例如 UniSim 可以通過模擬「打開抽屜」等高級指令和低級指令的視覺結(jié)果來模擬人類和智能體如何與世界交互。
- 論文地址:https://arxiv.org/pdf/2310.06114.pdf
- 論文主頁:https://universal-simulator.github.io/unisim/
本文將大量數(shù)據(jù)(包括互聯(lián)網(wǎng)文本 - 圖像對,來自導(dǎo)航、人類活動、機器人動作等的豐富數(shù)據(jù),以及來自模擬和渲染的數(shù)據(jù))結(jié)合到一個條件視頻生成框架中。然后通過仔細編排沿不同軸的豐富數(shù)據(jù),本文表明 UniSim 可以成功地合并不同軸數(shù)據(jù)的經(jīng)驗并泛化到數(shù)據(jù)之外,通過對靜態(tài)場景和對象的細粒度運動控制來實現(xiàn)豐富的交互。
下面視頻演示了 UniSim 如何模擬具有長交互視界的示例,視頻顯示 UniSim 一口氣模擬了機器人八個動作指令:
UniSim 對人類動作的模擬:
UniSim 對 RL 策略的模擬部署如下所示:
對于這項研究,Meta 首席 AI 科學(xué)家 Yann LeCun、英偉達高級研究科學(xué)家 Jim Fan 等業(yè)界人士進行了轉(zhuǎn)發(fā)。LeCun 給出一個「Cool」字的評價。
Jim Fan 表示,這項工作非常有趣,視頻擴散模型被用作了數(shù)據(jù)驅(qū)動物理模擬,其中智能體可以規(guī)劃、探索和學(xué)習最優(yōu)行動,并且無需接觸機器人硬件也不會造成損害??梢哉f LLM 不僅是一個 OS,還化身為完整的現(xiàn)實模擬器。
論文一作、UC 伯克利博士生 Sherry Yang 表示,「學(xué)習現(xiàn)實世界模型正在成為現(xiàn)實」。
模擬現(xiàn)實世界的交互
如下圖 3 所示,UniSim 能夠模擬一系列豐富動作,例如廚房場景中洗手、拿碗、切胡蘿卜、擦干手這一系列動作;圖 3 右上是按下不同的開關(guān);圖 3 下是兩個導(dǎo)航場景。
對應(yīng)上圖 3 右下的導(dǎo)航場景
對應(yīng)上圖3右下的導(dǎo)航場景
在長程模擬方面,下圖 4 是一個 UniSim 自回歸地順序模擬 8 個交互的例子:
除了支持豐富動作和長程交互,UniSim 還支持高度多樣化和隨機的環(huán)境變換,例如移除頂部毛巾后顯示的對象具有多樣性(下圖 5 左)。
UniSim 在真實世界遷移的結(jié)果。UniSim 的真正價值在于模擬現(xiàn)實世界,圖 7 顯示了 VLM 生成的語言規(guī)劃,UniSim 根據(jù)語言規(guī)劃生成的視頻,以及在真實機器人上的執(zhí)行情況。
除了測試 UniSim 在真實世界的遷移能力之外,本文還進行了基于模擬器的評估,結(jié)果如表 2 所示:
用于強化學(xué)習的真實世界模擬器
實驗還評估了 UniSim 在模擬真實機器人執(zhí)行各種動作方面的質(zhì)量如何,機器人通過重復(fù)執(zhí)行低級控制操作約 20-30 個步驟來左、右、下、上移動端點 。表 3 顯示,RL 訓(xùn)練顯著提高了 VLA 策略在各種任務(wù)中的性能,尤其是在指向藍色塊等任務(wù)中。然后,本文直接將在 UniSim 中訓(xùn)練的 RL 策略零樣本部署到真實機器人上,如圖 8(底行)所示。