合成數(shù)據(jù)也能通吃真實世界?首個融合重建-預(yù)測-規(guī)劃的生成式世界模型AETHER開源
近日,上海人工智能實驗室(上海 AI 實驗室)開源了生成式世界模型 AETHER。該模型全部由合成數(shù)據(jù)訓(xùn)練而成,不僅在傳統(tǒng)重建與生成任務(wù)中表現(xiàn)領(lǐng)先,更首次賦予大模型在真實世界中的 3D 空間決策與規(guī)劃能力,可助力機(jī)器人完成目標(biāo)導(dǎo)向的視覺規(guī)劃、4D 動態(tài)重建、動作條件的視頻預(yù)測等復(fù)雜任務(wù)。
研究團(tuán)隊將幾何重建與生成式建模深度融合,首創(chuàng)「重建 — 預(yù)測 — 規(guī)劃」 一體化框架,通過 AETHER 使大模型能夠感知周圍環(huán)境,理解物體之間的位置、運動和因果關(guān)系,從而做出更智能的行動決策。
實驗表明,傳統(tǒng)世界模型通常聚焦于 RGB 圖像的預(yù)測而忽略了背后隱含的幾何信息,引入空間建模后,各項指標(biāo)均顯著提升,其中視頻一致性指標(biāo)提升約 4%。更重要的是,即使只使用合成數(shù)據(jù)進(jìn)行訓(xùn)練,模型在真實環(huán)境中依然展現(xiàn)出強(qiáng)大的零樣本泛化能力。
論文與模型已經(jīng)同步開源。
- 論文標(biāo)題:AETHER: Geometric-Aware Unified World Modeling
- 論文鏈接:https://arxiv.org/abs/2503.18945
- 項目主頁:https://aether-world.github.io
三大核心技術(shù)
攻克動態(tài)環(huán)境中的智能決策困境
傳統(tǒng)世界模型主要應(yīng)用于自動駕駛與游戲開發(fā)等領(lǐng)域,通過其豐富的動作標(biāo)簽來預(yù)測接下來的視覺畫面。
但由于缺乏對真實三維空間的建模能力,這容易導(dǎo)致模型預(yù)測結(jié)果出現(xiàn)不符合物理規(guī)律的現(xiàn)象。同時,由于依賴且缺乏真實數(shù)據(jù),面對更復(fù)雜多變的場景時,其泛化能力也明顯不足。
針對以上問題,研究團(tuán)隊提出了生成式世界模型 AETHER,基于三維時空建模,通過引入并構(gòu)建幾何空間,大幅提升了模型空間推理的準(zhǔn)確性與一致性。
具體而言,研究團(tuán)隊利用海量仿真 RGBD 數(shù)據(jù),開發(fā)了一套完整的數(shù)據(jù)清洗與動態(tài)重建流程,并標(biāo)注了豐富的動作序列。同時,他們提出一種多模態(tài)數(shù)據(jù)的動態(tài)融合機(jī)制,首次將動態(tài)重建、視頻預(yù)測和動作規(guī)劃這三項任務(wù)融合在一個統(tǒng)一的框架中進(jìn)行優(yōu)化,從而實現(xiàn)了真正的一體化多任務(wù)協(xié)同,大幅提高了模型的穩(wěn)定性與魯棒性。
面對復(fù)雜多變的現(xiàn)實世界,如何讓具身智能系統(tǒng)實現(xiàn)可靠、高效的決策是人工智能領(lǐng)域的一項重大挑戰(zhàn)。研究團(tuán)隊在 AETHER 框架中通過三項關(guān)鍵技術(shù)突破,顯著提升了具身系統(tǒng)在動態(tài)環(huán)境中的感知、建模與決策能力。
- 目標(biāo)導(dǎo)向視覺規(guī)劃:可根據(jù)起始與目標(biāo)場景,自動生成一條實現(xiàn)視覺目標(biāo)的合理路徑,并以視頻形式呈現(xiàn)全過程。通過聯(lián)合優(yōu)化重建與預(yù)測目標(biāo),AETHER 內(nèi)嵌空間幾何先驗知識,使生成結(jié)果兼具物理合理性。這使得具身智能系統(tǒng)能像人類一樣「看路規(guī)劃」—— 通過攝像頭觀察環(huán)境后,自動生成既安全又符合物理規(guī)律的行動路線。
- 4D 動態(tài)重建:通過自動標(biāo)注流水線,構(gòu)建合成 4D 數(shù)據(jù)集,無需真實世界數(shù)據(jù)即可實現(xiàn)零樣本遷移,精準(zhǔn)捕捉并重建時空環(huán)境的動態(tài)變化。例如,輸入一段街景視頻,系統(tǒng)即可重建包含時間維度的三維場景模型,精確呈現(xiàn)行人行走、車輛運動等動態(tài)過程,建模精度可達(dá)毫米級。
自動相機(jī)標(biāo)注 pipeline。
- 動作條件視頻預(yù)測:創(chuàng)新性地采用相機(jī)軌跡作為全局動作表征,可直接基于初始視覺觀察和潛在動作,預(yù)測未來場景的變化趨勢。相當(dāng)于給具身智能系統(tǒng)裝上了預(yù)測未來的「鏡頭」。
可零樣本泛化至真實場景
不同于傳統(tǒng)僅預(yù)測圖像變化的世界模型,AETHER 不僅能同時完成四維時空的重建與預(yù)測,還支持由動作控制驅(qū)動的場景推演與路徑規(guī)劃。值得強(qiáng)調(diào)的是,該方法完全在虛擬數(shù)據(jù)上訓(xùn)練,即可實現(xiàn)對真實世界的零樣本泛化,展現(xiàn)出強(qiáng)大的跨域遷移能力。
具體流程如下圖所示,圖中黃色、藍(lán)色和紅色分別表示圖像、動作與深度的潛在變量,灰色表示噪聲項,白色框為零填充區(qū)域。模型通過組合不同的條件輸入(如觀察幀、目標(biāo)幀和動作軌跡),結(jié)合擴(kuò)散過程,實現(xiàn)對多種任務(wù)的統(tǒng)一建模與生成。
就像在拼一副完整的動態(tài)拼圖,觀察幀提供了「現(xiàn)在的樣子」,目標(biāo)幀給出了「未來的樣子」,動作軌跡則是「怎么從這里走到那里」,而擴(kuò)散過程則像是拼圖的拼接邏輯,把這些零散信息有序組合起來,最終還原出一個連續(xù)、合理且可預(yù)測的時空過程。
為了支持同時完成重建、預(yù)測和規(guī)劃這三類不同任務(wù),AETHER 設(shè)計了一種統(tǒng)一的多任務(wù)框架,首次實現(xiàn)在同一個系統(tǒng)中整合動態(tài)重建、視頻預(yù)測和動作規(guī)劃。
其核心在于:能夠融合圖像、動作、深度等多模態(tài)信息,建立一個跨模態(tài)共享的時空一致性建??臻g,實現(xiàn)不同任務(wù)在同一認(rèn)知基礎(chǔ)上的協(xié)同優(yōu)化。
實驗結(jié)果
在多個實驗任務(wù)中,AETHER 在動態(tài)場景重建方面已達(dá)到甚至超過現(xiàn)有 SOTA 水平。同時發(fā)現(xiàn)在多任務(wù)框架下,各個任務(wù)有很好的促進(jìn),尤其在動作跟隨的準(zhǔn)確度上面有較大的提升。
該方法有望為具身智能大模型在數(shù)據(jù)增強(qiáng)、路徑規(guī)劃以及基于模型的強(qiáng)化學(xué)習(xí)等方向研究提供技術(shù)支撐。