世界模型進(jìn)入4D時(shí)代!單視角視頻構(gòu)建的自由視角4D世界來了
人工智能技術(shù)正以前所未有的速度改變著我們對(duì)世界的認(rèn)知與構(gòu)建方式。近期,李飛飛教授團(tuán)隊(duì)通過單張圖片生成三維物理世界的研究,再次向世界展示了空間智能技術(shù)的巨大潛力。
單圖生成三維世界,不僅讓人們能以交互方式探索靜態(tài)圖像,更標(biāo)志著 AI 在重建與理解物理場(chǎng)景方面邁入全新階段。
近日,極佳科技、北京大學(xué)、理想汽車及中國科學(xué)院自動(dòng)化研究所聯(lián)合推出 ReconDreamer,實(shí)現(xiàn)了自動(dòng)駕駛場(chǎng)景自由視角重建+生成。正如同李飛飛及其團(tuán)隊(duì)在「空間智能」模型中展現(xiàn)的革新一樣,ReconDreamer 僅需要單視角輸入視頻,即可通過同時(shí)重建+生成構(gòu)建逼真的 4D 世界,第一次實(shí)現(xiàn)了平移 6 米范圍的高精度渲染,推動(dòng)這一領(lǐng)域從靜態(tài)跨越至動(dòng)態(tài),從單點(diǎn)擴(kuò)展到全域通用。
- 論文鏈接:https://www.arxiv.org/abs/2411.19548
- 項(xiàng)目主頁:https://recondreamer.github.io/
- 代碼地址:https://github.com/GigaAI-research/ReconDreamer
- 論文標(biāo)題:ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
引言&方法概覽
閉環(huán)仿真是實(shí)現(xiàn)大規(guī)模端到端自動(dòng)駕駛落地的關(guān)鍵步驟,而場(chǎng)景重建是閉環(huán)仿真中的重要一步?,F(xiàn)有的駕駛場(chǎng)景重建技術(shù),如 NeRF 和 3DGS,受限于訓(xùn)練數(shù)據(jù)的分布,僅能有效重建與之相似的駕駛環(huán)境。這些方法在處理復(fù)雜駕駛操作(如變道、加速或減速)時(shí),其重建效果往往不盡人意,尤其是在面對(duì)大幅變化的相機(jī)視角時(shí)表現(xiàn)欠佳。
由極佳科技領(lǐng)銜的 DriveDreamer4D 工作,通過利用預(yù)訓(xùn)練的世界模型擴(kuò)展相機(jī)視角,一定程度上緩解了這些問題,但在大范圍視野變化的渲染下仍有局限性。相比之下,ReconDreamer 則通過訓(xùn)練世界模型來減少傳統(tǒng)三維重建算法中的偽影,并引入了一種漸進(jìn)式的修復(fù)策略,確保在大幅度相機(jī)運(yùn)動(dòng)下的高質(zhì)量渲染。
如下圖所示,ReconDreamer 相較于 DriveDreamer4D 和 Street Gaussians,在大范圍相機(jī)運(yùn)動(dòng)下展現(xiàn)了顯著更優(yōu)的渲染質(zhì)量,不僅提升了駕駛前景(如車輛)和背景(如車道線)的時(shí)空一致性,還大大增強(qiáng)了動(dòng)態(tài)駕駛場(chǎng)景中閉環(huán)仿真的精度和可靠性,為端到端自動(dòng)駕駛系統(tǒng)的開發(fā)和測(cè)試提供了更為逼真和可靠的環(huán)境。
ReconDreamer 的整體框架如下圖所示,首先用傳統(tǒng)方法如 Street Gaussians 進(jìn)行場(chǎng)景重建,然后采樣新軌跡并進(jìn)行渲染,為了消除渲染視頻中的偽影和缺陷,創(chuàng)新性地利用視頻生成世界模型 DriveRestorer 進(jìn)行視頻修復(fù),然后將這些恢復(fù)的視頻與原始視頻一起用于優(yōu)化重建模型。ReconDreamer 還提出了漸進(jìn)式數(shù)據(jù)更新策略,從小位移渲染開始修復(fù),逐步擴(kuò)展到大范圍渲染的修復(fù),這個(gè)迭代過程會(huì)持續(xù)進(jìn)行直到重建模型收斂為止。
為了訓(xùn)練 DriveRestorer,需要構(gòu)建駕駛視頻修復(fù)數(shù)據(jù)集。其構(gòu)建過程如左下圖所示,本文使用原始軌跡的 GT 視頻來訓(xùn)練一個(gè)欠擬合的 3DGS 模型,并在 3DGS 訓(xùn)練過程中渲染低質(zhì)量視頻。這些低質(zhì)量視頻與它們對(duì)應(yīng)的 GT 視頻配對(duì),形成了修復(fù)數(shù)據(jù)集。在訓(xùn)練過程中還利用 mask 讓網(wǎng)絡(luò)加強(qiáng)對(duì)天空、遠(yuǎn)處區(qū)域的關(guān)注。如右下圖所示為修復(fù)數(shù)據(jù)集 pair 的可視化。
經(jīng)過訓(xùn)練后,DriveRestorer 可以修復(fù)低質(zhì)量視頻,如下視頻所示,左下角為修復(fù)前視頻,右下角為修復(fù)后視頻。
此外,ReconDreamer 還提出了一種漸進(jìn)式修復(fù)策略,其算法流程圖如下所示,通過逐漸擴(kuò)大渲染視角范圍來逐步更新訓(xùn)練數(shù)據(jù),以提升大范圍相機(jī)運(yùn)動(dòng)時(shí)的渲染質(zhì)量。
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,如下視頻所示,可以看出當(dāng)前最先進(jìn)的三維重建算法 Street Gaussians 在大范圍相機(jī)變換視角時(shí)(例如平移 6 米)渲染質(zhì)量不佳,其車道線、天空、車輛都會(huì)模糊,甚至出現(xiàn) “鬼影” 現(xiàn)象。而 ReconDreamer 可以提升復(fù)雜變道場(chǎng)景下的視頻渲染效果,不僅消除了 “鬼影”,而且提升了交通元素的渲染質(zhì)量,車輛和車道線都更加清晰。
此外,ReconDreamer 可以實(shí)現(xiàn)大范圍自由視角的變化渲染,例如 z 字漂移,橫跨運(yùn)鏡等渲染操作。
在定量實(shí)驗(yàn)中,本文證明了 ReconDreamer 在大范圍的相機(jī)運(yùn)鏡渲染(例如橫跨 3 米,橫跨 6 米,變道)等場(chǎng)景下,可以顯著超越傳統(tǒng)三維重建算法的性能,尤其是提升車輛和車道線渲染的時(shí)空一致性。
不僅如此,與最近的 DriveDreamer4D 相比,ReconDreamer 所提出的漸進(jìn)式修復(fù)方案可以在大范圍相機(jī)運(yùn)鏡下顯著提升渲染性能,其對(duì)比結(jié)果如下所示。
此外,本文還通過 user study 證明用戶更加偏好 ReconDreamer 的渲染效果,獲得了超過 95% 的投票率。
總結(jié)
本項(xiàng) ReconDreamer 工作是極佳科技研究團(tuán)隊(duì)之前 DriveDreamer、DriveDreamer-2 和 DriveDreamer4D 工作的延續(xù)。
DriveDreamer 是首個(gè)面向真實(shí)駕駛場(chǎng)景的世界模型,可以根據(jù)不同的控制條件生成自動(dòng)駕駛周視視頻,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基礎(chǔ)上,引入大語言模型,可以生成用戶自定義的駕駛數(shù)據(jù),進(jìn)一步提升了長(zhǎng)尾和 corner case 場(chǎng)景下的數(shù)據(jù)生成能力。針對(duì)端到端自動(dòng)駕駛和閉環(huán)仿真對(duì)于場(chǎng)景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新軌跡視頻(例如變道、加減速),從而大幅提升了多種 4DGS 算法的重建效果。
ReconDreamer 則是通過訓(xùn)練世界模型 DriveDreamer-2 讓其具備視頻修復(fù)能力,再通過漸進(jìn)式修復(fù)方案進(jìn)一步提升了大范圍視角變化時(shí)的渲染效果。
團(tuán)隊(duì)介紹
本篇論文的牽頭完成單位為極佳科技,是一家空間智能公司,致力于將視頻生成提升到 4D 世界模型,賦予 AI 大模型對(duì)于 4D 空間的理解、生成、常識(shí)和推理的能力,實(shí)現(xiàn) 4D 空間中的交互和行動(dòng),走向通用空間智能。通用空間智能對(duì)于影視游戲、元宇宙等虛擬空間的內(nèi)容創(chuàng)作,以及自動(dòng)駕駛、具身智能等物理空間的數(shù)據(jù)生成和認(rèn)知推理能力,都有巨大的價(jià)值和作用。極佳科技是國內(nèi)最早開始探索和布局世界模型和空間智能方向的公司,在物理空間和虛擬空間兩方面都已取得顯著的技術(shù)和商業(yè)進(jìn)展,獲得了行業(yè)廣泛的認(rèn)可。