自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

UC伯克利DeepMind等聯(lián)合發(fā)布真實世界模擬器,打破虛實邊界

人工智能 新聞
在NeurlPS 2023上,來自UC伯克利、谷歌DeepMind、MIT和阿爾伯塔大學的研究人員展示了真實世界模擬器,幫助解決智能體無法適應真實物理世界的問題。

真實世界模擬器來啦!

還在發(fā)愁訓練出的大模型無法適應真實的物理世界嗎?

AI Agent想要進入我們的生活還有多遠的距離?

——UC伯克利、谷歌DeepMind、MIT和阿爾伯塔大學的研究人員告訴你答案。

在NeurlPS 2023上,研究人員將展示他們最新的工作:真實世界模擬器UniSim。

視頻演示:https://universal-simulator.github.io/unisim/

論文地址:https://arxiv.org/pdf/2310.06114.pdf

當今的生成式大模型徹底改變了文本、圖像和視頻內容的創(chuàng)建方式。

那么,生成式AI的下一步會是什么呢?

也許是模擬現(xiàn)實體驗,——以響應人類、機器人和其他交互式代理所采取的行動。

要達到這個目標,就需要用到真實世界模擬器。

真實世界模擬器有很多應用場景,比如游戲和電影中的可控內容創(chuàng)建,或者訓練可以直接部署在現(xiàn)實世界中的具身代理。

長視距模擬

UniSim的真正價值在于模擬長事件,通過搜索、規(guī)劃、最佳控制或強化學習來優(yōu)化決策。下面的視頻演示了UniSim如何模擬長視距的交互式體驗。

使用UniSim進行強化學習(RL)

RL代理可以在UniSim提供的模擬世界中進行有效訓練,之后可以直接轉移到真實的機器人上,避免了在現(xiàn)實世界中搭建昂貴而復雜的訓練環(huán)境。

經(jīng)過上面在UniSim中的訓練之后,可以零樣本部署到真實機器人上:

使用UniSim進行長期規(guī)劃

輸入長期指令,使用UniSim推理和生成視頻。然后,生成的視頻和說明可用于訓練視覺語言模型 (VLM) ,生成模擬計劃,并零樣本轉移到真實機器人。

代表真實世界的模擬器,顯然需要大量真實世界的數(shù)據(jù)。

研究人員發(fā)現(xiàn),可用于學習的自然數(shù)據(jù)集通常包含很多維度,比如圖像數(shù)據(jù)中的豐富對象,機器人數(shù)據(jù)中的密集采樣動作,以及導航數(shù)據(jù)中的不同運動。

通過對各種數(shù)據(jù)集的精心編排,每個數(shù)據(jù)集都提供了整體體驗的不同方面。

UniSim 可以通過模擬高級指令(如「打開抽屜」)和低級控件(如「按 x、y 移動」)的視覺結果,來模擬人類或代理與世界的交互方式。

UniSim可以用來訓練高級視覺語言規(guī)劃器,和低級強化學習策略,并且能夠做到零樣本(zero-shot)遷移到真實世界的應用中。

此外,其他類型的AI(如視頻字幕模型)也可以從UniSim提供的模擬體驗中獲益。

從汽車在街上行駛,到家具的組裝和飯菜的準備,通過全面的真實世界模擬器,人類可以與不同的場景和物體進行交互,

機器人可以從模擬經(jīng)驗中學習而不必擔心物理損壞的風險,并且可以模擬大量真實世界數(shù)據(jù)來訓練其他類型的機器智能。

不過,想要構建這樣一個真實世界的模擬器,一個障礙就是可用的數(shù)據(jù)集。

雖然互聯(lián)網(wǎng)上有數(shù)十億個文本、圖像和視頻片段,但不同的數(shù)據(jù)集涵蓋了不同的信息軸,必須將這些軸匯集在一起以模擬世界的真實體驗。

例如,成對的文本圖像數(shù)據(jù)包含豐富的場景和物體,但沒有運動數(shù)據(jù),

視頻字幕和問答數(shù)據(jù)包含豐富的高級活動描述,但很少有低級運動細節(jié),

人類活動數(shù)據(jù)包含豐富的人體動作,但沒有機械運動信息,

機器人數(shù)據(jù)包含豐富的機器人動作,但數(shù)據(jù)集本身很有限。

由于不同的數(shù)據(jù)集是由不同的工業(yè)或研究社區(qū),針對不同的任務策劃的,所以信息的差異是自然的,很難克服。

本文的工作邁出了通過生成式建模,構建真實世界交互通用模擬器(UniSim)的第一步。

論文細節(jié)

研究人員將大量數(shù)據(jù)(互聯(lián)網(wǎng)文本圖像和導航、操作、人類活動、機器人技術以及模擬和渲染的數(shù)據(jù))組合在一個有條件的視頻生成框架中。

通過對不同維度的豐富數(shù)據(jù)進行精心編排,UniSim成功地合并了各種不同的體驗信息,并在數(shù)據(jù)之外進行了泛化,通過對其他靜態(tài)場景和對象的細粒度運動控制,來實現(xiàn)豐富的交互。

此外,UniSim融合了條件視頻生成,與部分可觀測馬爾可夫決策過程(POMDP),可以跨視頻生成邊界,一致地模擬長視距交互。

交互式真實世界模擬器

對比一般的視頻生成模型,交互式真實世界模擬器需要支持一組不同的操作和長期交互。

要訓練這樣的模擬器,首先需要從廣泛的數(shù)據(jù)中提取信息。

這里的重點數(shù)據(jù)是對世界的視覺觀察,以及導致這些視覺觀察發(fā)生變化的行動。

將來自不同類型數(shù)據(jù)集的觀察和行動提取并融合成一種通用格式,

然后用一個將視頻和文本聯(lián)系起來的通用接口,來融合不同數(shù)據(jù)集之間的信息。

模擬執(zhí)行和渲染

雖然為真實世界的視頻注釋動作很昂貴,但模擬引擎能夠渲染各種各樣的動作,可以使用從模擬引擎收集的數(shù)據(jù)集來訓練UniSim。

對于模擬的連續(xù)控制操作,通過語言嵌入對其進行編碼,并將文本嵌入與離散化的控制值連接起來。

真實的機器人數(shù)據(jù)

真實機器人執(zhí)行視頻數(shù)據(jù)往往與任務描述配對,盡管機器人之間的低級控制操作通常不同,但任務描述可以作為UniSim中的高級操作。

人類活動視頻

有很多紀錄人類活動的數(shù)據(jù)集,如Ego4D、EPIC-KITCHENS和Something-Something,這些活動視頻包含人類與世界互動的高級動作。

文中將視頻標簽轉換為文本操作,并對視頻進行子采樣,以幀速率構建觀察塊,以捕獲有意義的操作。

全景掃描

目前有大量的3D掃描(比如Matterport3D)數(shù)據(jù)。這些靜態(tài)掃描不包含操作,但可以通過截斷全景掃描來構建動作(比如左轉),還可以利用兩張圖像之間相機姿勢變化等信息。

互聯(lián)網(wǎng)文本圖像數(shù)據(jù)

成對的文本圖像數(shù)據(jù)集(如LAION),包含豐富的靜態(tài)對象,但沒有動作。

不過,文本標簽通常會包含運動信息,例如“一個人在走路”。此外,與上述其他數(shù)據(jù)集相比,互聯(lián)網(wǎng)文本圖像數(shù)據(jù)可以描述更豐富的對象集。

為了在UniSim中使用文本圖像數(shù)據(jù),這里將單個圖像視為單幀視頻,將文本標簽視為操作。

有了從這些數(shù)據(jù)集中提取的觀測和行動數(shù)據(jù),就可以訓練一個擴散模型來預測當前條件下的下一個觀察幀。

根據(jù)擴散模型的原理,首先將包含時間信息的高斯噪聲添加到先前觀測值中,然后以輸入動作為條件, UniSim學習將先前的噪聲觀測值降噪到下一個觀測值。

由于來自不同環(huán)境的觀察結果都已轉換為視頻,而不同模態(tài)的動作(文本描述、運動控制、相機角度等)都已轉換為連續(xù)嵌入,因此UniSim可以利用所有的數(shù)據(jù)集學習單個世界模型。

上圖展示了UniSim的訓練和推理。UniSim(T)是一個視頻擴散模型,給定前一個觀測(o)和動作輸入(a)的噪聲版本,UniSim可以預測下一個(可變長度的)觀察幀(o)。

UniSim可以處理不同模態(tài)的動作,例如不同長度的電機控制指令、動作的語言描述,以及從相機運動和其他來源中提取的動作。

通過POMDP實現(xiàn)長期交互

結合不同的數(shù)據(jù)可以實現(xiàn)豐富的交互,但UniSim的真正價值在于模擬長期交互。

UniSim中的推理類似于在部分可觀察的馬爾可夫決策過程(POMDP)中執(zhí)行部署,能夠使用已建立的算法學習決策策略。

POMDP可以定義一個由狀態(tài)、動作和觀測空間以及獎勵、轉換和觀測發(fā)射函數(shù)組成的元組。

POMDP可以表征與現(xiàn)實世界的交互,而UniSim作為過渡函數(shù)。

上圖展示了UniSim對于各種動作的模擬,可以同一初始幀開始,根據(jù)指令推理出不同的發(fā)展。

上圖展示了UniSim按順序自回歸模擬8次交互,長期交互中保持了時間一致性,正確地保留了對象和位置。

在初始幀中指示一個人執(zhí)行各種廚房任務(左上角),按下不同的開關(右上角)或導航場景(底部)。

除了支持豐富的動作和長視距交互外,UniSim還可以支持高度多樣化和隨機的環(huán)境轉換。

比如物體顏色和位置的多樣性,以及現(xiàn)實世界的可變性,例如風和攝像機角度的變化。

可以使用語言動作來指定不同物體的外觀,并利用視頻生成的隨機采樣過程,來支持風和攝像機角度等環(huán)境隨機性。

由于擴散模型在捕獲多模態(tài)分布方面非常靈活,因此可以生成代表高度隨機環(huán)境的各種樣本。

上圖顯示了UniSim的多樣化隨機模擬。

UniSim的應用

下面展示使用UniSim通過模擬高度逼真的體驗,來訓練其他類型的機器智能。

視覺語言規(guī)劃器

通過在UniSim中對每個軌跡進行3-5次部署,從UniSim創(chuàng)建總共10k個長期軌跡,其中每個部署對應于一個類似于原始數(shù)據(jù)集的腳本語言指令。

然后使用每個長期部署的最后一幀作為目標輸入,并使用腳本語言指令作為訓練VLM策略的監(jiān)督。

下圖顯示了VLM生成的語言計劃、UniSim根據(jù)語言計劃生成的視頻,以及在真實機器人上的執(zhí)行。在UniSim中訓練的策略可以以零樣本的方式直接在現(xiàn)實世界中執(zhí)行遠距離任務。

根據(jù)UniSim的數(shù)據(jù)進行訓練的VLM,可以通過成功移動三個塊(藍色、綠色、黃色)來匹配它們在目標圖像中的目標位置,從而規(guī)劃長期任務。

強化學習策略

UniSim可以通過為智能體提供可以并行訪問的逼真模擬器,來實現(xiàn)對RL智能體的有效訓練。

在上圖中,通過重復應用低級控制動作,來評估UniSim在模擬真實機器人執(zhí)行中的質量,在20-30個步驟中向左、向右、向下、向上和對角線移動色塊,RL策略可以成功完成「將藍色立方體移動到綠色圓圈」的任務。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-04 08:15:00

2023-08-05 13:45:46

模型AI

2023-10-12 16:37:36

模型學習

2025-01-22 15:21:00

2023-04-07 09:28:31

模型訓練

2023-05-04 14:55:02

模型AI

2022-06-30 17:53:56

機器狗智能

2025-04-30 09:09:00

2023-04-04 13:17:00

GPUCMU開源

2025-04-18 08:42:52

模型推理AI

2025-01-24 15:30:00

2023-08-15 14:18:19

智能研究

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2024-12-18 07:20:00

2024-04-07 00:45:00

開源模型

2021-07-12 13:02:50

機器人人工智能算法

2023-05-19 13:34:02

2024-11-26 13:40:00

2025-02-14 09:20:00

模型數(shù)據(jù)訓練

2023-07-09 14:50:48

模型調優(yōu)
點贊
收藏

51CTO技術棧公眾號