從DriveDreamer v1&v2到4D,聊聊世界模型在駕駛場景重建中為何越來越重要?
本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
閉環(huán)仿真技術是推動端到端自動駕駛系統(tǒng)發(fā)展的關鍵。目前的傳感器仿真方法,如NeRF與3DGS,主要依賴于訓練數(shù)據(jù)分布,若訓練數(shù)據(jù)不足,則這些方法在復雜駕駛操作(例如變道、加速或減速)的重建效果不佳。近來,自動駕駛世界模型(World Model)證明其可以生成豐富駕駛數(shù)據(jù)。
近日,極佳科技聯(lián)合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業(yè)大學等單位提出DriveDreamer4D,是首個利用世界模型增強4D駕駛場景重建效果的工作。DriveDreamer4D可以為駕駛場景提供豐富多樣的視角(包括變道、加速和減速等)數(shù)據(jù),以增加動態(tài)駕駛場景下的閉環(huán)仿真能力。在user study實驗中獲得了超過80%的偏好投票,為走向空間智能和4D世界模型邁出了堅實的一步。
DriveDreamer4D利用世界模型作為數(shù)據(jù)引擎,基于真實世界的駕駛數(shù)據(jù)合成新軌跡視頻(例如變道場景)。如下圖所示,DriveDreamer4D不僅可以提升多種重建算法(PVG,Gaussian,Deformable-GS)的圖像渲染質量,還可以提升駕駛前景(車輛)和背景(車道線)的時空一致性。
DriveDreamer4D 的總體結構框圖如下所示,軌跡生成模塊(NTGM)用于調整原始軌跡動作,如轉向角度和速度,以生成新的軌跡。這些新軌跡為提取結構化信息(如車輛3D框和背景車道線細節(jié))提供了全新的視角。隨后,基于世界模型的視頻生成能力,并利用更新軌跡后得到的結構化信息作為控制條件,可以合成新軌跡的視頻。最后,原始軌跡視頻與新軌跡視頻相結合,進行4DGS模型的優(yōu)化。
在實驗中,如下第一列視頻所示,可以看出多種傳統(tǒng)算法(PVG,Gaussian,Deformable-GS)在變道場景下的車道線、天空、車輛都會模糊,甚至出現(xiàn)“鬼影”現(xiàn)象。而DriveDreamer4D可以提升多種重建算法在復雜變道場景下的視頻渲染效果,不僅消除了“鬼影”,而且提升了交通元素的渲染質量,車輛和車道線都更加清晰。
除了變道,在車輛變速場景下,傳統(tǒng)算法(PVG,Gaussian,Deformable-GS)的表現(xiàn)能力也受到限制,如下第一列視頻所示,這些算法在自車加速時,前方的車輛都出現(xiàn)了“拖影”現(xiàn)象。而經過DriveDreamer4D提升后,渲染的車輛的時空一致性更高。
在定量實驗中,本文證明了DriveDreamer4D不僅可以提升多種重建算法(PVG,Gaussian,Deformable-GS)的圖像渲染質量(如表2),還可以提升車輛和車道線渲染的時空一致性(如表1)。此外,本文還通過user study(表3)證明用戶更加偏好DriveDreamer4D的渲染效果,獲得了超過80%的投票率。
表1 DriveDreamer4D提升了車輛和車道線重建渲染的時空一致性
表2 DriveDreamer4D提升了圖像重建渲染質量
表3 User study證明用戶更加偏好DriveDreamer4D的渲染效果
本項DriveDreamer4D工作是極佳科技研究團隊之前DriveDreamer和DriveDreamer-2工作的延續(xù)。DriveDreamer是首個面向真實駕駛場景的世界模型,可以根據(jù)不同的控制條件生成自動駕駛周視視頻,有效提升了BEV感知的性能;DriveDreamer-2在此基礎上,引入大語言模型,可以生成用戶自定義的駕駛數(shù)據(jù),進一步提升了長尾和corner case場景下的數(shù)據(jù)生成能力。針對端到端自動駕駛和閉環(huán)仿真對于場景重建的迫切需求,DriveDreamer4D利用DriveDreamer系列工作的能力,用以生成新軌跡視頻(例如變道、加減速),從而大幅提升了多種4DGS算法的重建效果。
本篇成果的牽頭單位為極佳科技,致力于將視頻生成提升到4D世界模型,賦予AI大模型對于4D空間的理解、生成、常識和推理的能力,實現(xiàn)4D空間中的交互和行動,走向通用空間智能,是一家成長迅猛的空間智能公司。通用空間智能對于影視游戲、元宇宙等虛擬空間的內容創(chuàng)作,以及自動駕駛、具身智能等物理空間的數(shù)據(jù)生成和認知推理能力,都有巨大的價值和作用。極佳科技是國內最早開始探索和布局世界模型和空間智能方向的公司,在物理空間和虛擬空間兩方面都已取得顯著的技術和商業(yè)進展,獲得了行業(yè)廣泛的認可。
論文鏈接:https://arxiv.org/abs/2410.13571
項目主頁:https://drivedreamer4d.github.io/
代碼地址:https://github.com/GigaAI-research/DriveDreamer4D