世界模型會是L3自動駕駛的唯一解嗎?2025 技術(shù)展望
三維空間占有率(3D Occupancy)預(yù)測的目的是預(yù)測三維空間中的每個體素是否被占有,如果被占有,則對應(yīng)的體素將被標(biāo)記。3D Semantic Occupancy是在三維空間內(nèi)同時編碼占用狀態(tài)和語義信息,成為描述自動駕駛 3D 場景的一種極具吸引力的表示方式。而自動駕駛世界模型(World Model)具備對真實物理世界的理解能力,基于一些歷史信息/狀態(tài),能夠預(yù)測未來時刻的場景變化甚至agents的狀態(tài)變化。因此將OCC和世界模型結(jié)合,除了可以實現(xiàn)當(dāng)前時刻的OCC預(yù)測,還可以預(yù)測未來時刻的OCC演變,可以直接影響到自動駕駛的規(guī)劃/決策,也是這兩年自動駕駛研究的一個重點方向,預(yù)計2025年會有更多的工作問世,今天自動駕駛之心就和大家一起復(fù)盤2024年OCC和世界模型相關(guān)的工作,并在文末總結(jié)未來的趨勢。
Scene as Occupancy
- paper: https://arxiv.org/abs/2306.02851
- code:https://github.com/OpenDriveLab/OccNet
雖然OccNet不屬于世界模型+OCC的范疇,但是有必要簡單介紹一個這個工作,有助于理解后續(xù)介紹的方法。
人類駕駛員能夠通過視覺系統(tǒng)輕松描述復(fù)雜的交通場景。這種精確感知的能力對于駕駛員的規(guī)劃至關(guān)重要。為了實現(xiàn)這一點,一種將物理三維場景量化為具有每個單元語義標(biāo)簽的結(jié)構(gòu)化網(wǎng)格地圖的幾何感知表示形式,即三維占用表示,將是理想的。與邊界框的形式相比,占用表示的關(guān)鍵見解在于它能夠捕捉場景中關(guān)鍵障礙物的細(xì)粒度細(xì)節(jié),從而促進后續(xù)任務(wù)。先前或同時期的文獻主要集中在單個場景補全任務(wù)上,我們可能會認(rèn)為這種占用表示形式的潛力可能會產(chǎn)生更廣泛的影響。在本文中,我們提出了 OccNet,這是一種以多視圖為中心的管道,具有級聯(lián)和時間體素解碼器來重建三維占用。OccNet 的核心是一個通用的占用嵌入來表示三維物理世界。這種描述符可以應(yīng)用于廣泛的駕駛?cè)蝿?wù),包括檢測、分割和規(guī)劃。為了驗證這種新表示形式的有效性和我們提出的算法,針對該算法,我們提出了 OpenOcc,這是首個基于 nuScenes 構(gòu)建的高密度高質(zhì)量 3D 占有率基準(zhǔn)。實證實驗表明,在多個任務(wù)中均有顯著的性能提升,例如,運動規(guī)劃的碰撞率可降低 15% - 58%,這證明了我們方法的優(yōu)越性。
OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving
- paper: https://arxiv.org/pdf/2311.16038
- code: https://github.com/wzzheng/OccWorld
理解三維場景如何演變對于自動駕駛中的決策至關(guān)重要。大多數(shù)現(xiàn)有的方法通過預(yù)測物體檢測框的運動來實現(xiàn)這一點,但無法捕捉到更精細(xì)的場景信息。在本文中,我們探索了一種新的框架,即在三維占用空間中學(xué)習(xí)世界模型,名為OccWorld,以同時預(yù)測自動駕駛汽車的運動和周圍場景的演變。我們提出基于三維占用而非三維邊界框和分割圖來學(xué)習(xí)世界模型,原因有三:1)表達(dá)能力:三維占用能夠描述場景更精細(xì)的三維結(jié)構(gòu);2)效率:三維占用率更易于獲取(例如,從稀疏的激光雷達(dá)點中獲?。?。3)通用性:三維占用率能夠適應(yīng)視覺和激光雷達(dá)。為了便于對世界演變進行建模,我們在三維占用率上學(xué)習(xí)了一種基于重建的場景tokenizer,以獲取離散的場景tokens來描述周圍場景。然后,我們采用類似 GPT 的時空生成轉(zhuǎn)換器來生成后續(xù)場景和ego tokens,以解碼未來的占用率和自車軌跡。在廣泛使用的 nuScenes 基準(zhǔn)上進行的大量實驗表明,OccWorld 能夠有效地對駕駛場景的演變進行建模。OccWorld 還在不使用實例和地圖監(jiān)督的情況下產(chǎn)生了具有競爭力的規(guī)劃結(jié)果。
OccWorld是兩階段模型:
- VQ-VAE 的訓(xùn)練極大地阻礙了效率,并為第二階段引入了性能瓶頸。為場景tokenizer找到合適的超參數(shù)在平衡重建和預(yù)測性能方面仍然具有挑戰(zhàn)性
- 完全依賴于自回歸方式的隱式特征。它要么忽略了相鄰場景中顯式的結(jié)構(gòu)一致性,要么忽略了圖像中容易獲取的紋理信息。這些都阻礙了模型充分捕捉環(huán)境動態(tài)的能力
RenderWorld: World Model with Self-Supervised 3D Label
- paper: https://arxiv.org/abs/2409.11356
僅基于視覺的端到端自動駕駛不僅比激光雷達(dá)與視覺融合的方法更具成本效益,而且比傳統(tǒng)方法更可靠。為了實現(xiàn)經(jīng)濟且魯棒的純視覺自動駕駛系統(tǒng),我們提出了 RenderWorld,這是一種僅基于視覺的端到端自動駕駛框架,它使用基于自監(jiān)督高斯的 Img2Occ 模塊生成 3D 占有率標(biāo)簽,然后通過 AM-VAE 對標(biāo)簽進行編碼,并使用世界模型進行預(yù)測和規(guī)劃。RenderWorld 采用高斯點陣來表示 3D 場景并渲染 2D 圖像,與基于 NeRF 的方法相比,這極大地提高了分割精度并減少了 GPU 內(nèi)存消耗。通過應(yīng)用 AM-VAE 分別對air和non-air進行編碼,RenderWorld 實現(xiàn)了更精細(xì)的場景元素表示,在自回歸世界模型的 4D 占有率預(yù)測和運動規(guī)劃方面均達(dá)到了最先進的性能。
兩階段訓(xùn)練范式。
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving
- paper: https://arxiv.org/abs/2409.03272
多模態(tài)大型語言模型(MLLMs)的興起推動了其在自動駕駛中的應(yīng)用。近期基于 MLLM 的方法通過學(xué)習(xí)從感知到動作的直接映射來執(zhí)行動作,忽略了世界的動態(tài)以及行為與世界動態(tài)之間的關(guān)系。相比之下,人類擁有世界模型,能夠基于三維內(nèi)部視覺表征模擬未來狀態(tài),并據(jù)此規(guī)劃行為。為此,我們提出了 OccLLaMA,這是一種占用-語言-動作生成式世界模型,它采用語義占用作為通用視覺表示,并通過自回歸模型統(tǒng)一了視覺-語言-動作(VLA)模態(tài)。具體而言,我們引入了一種類似 VQVAE 的場景tokenizer,以高效地離散化和重建語義占用場景,同時考慮到其稀疏性和類別不平衡的問題。然后,我們?yōu)橐曈X、語言和動作構(gòu)建了一個統(tǒng)一的多模態(tài)詞匯表。此外,我們增強了大型語言模型(LLM),特別是 LLaMA,使其能夠在統(tǒng)一的詞匯表上進行下一token/場景預(yù)測,以完成自動駕駛中的多項任務(wù)。大量實驗表明,OccLLaMA 在包括 4D 占用預(yù)測、運動規(guī)劃和視覺問答在內(nèi)的多項任務(wù)中均取得了具有競爭力的性能,展示了其作為自動駕駛基礎(chǔ)模型的潛力。
兩階段訓(xùn)練范式。
An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training
- paper: https://arxiv.org/abs/2412.13772
自動駕駛領(lǐng)域?qū)κ澜缒P偷呐d趣日益濃厚,這類模型旨在基于歷史觀測預(yù)測潛在的未來場景。在本文中,我們介紹了 DFIT-OccWorld,這是一種高效的 3D 占有世界模型,它利用了解耦動態(tài)流和圖像輔助訓(xùn)練策略,顯著提升了 4D 場景預(yù)測性能。為了簡化訓(xùn)練過程,我們摒棄了之前的兩階段訓(xùn)練策略,并創(chuàng)新性地將占有預(yù)測問題重新表述為解耦的體素變形過程。我們的模型通過使用體素流對現(xiàn)有觀測進行變形來預(yù)測未來的動態(tài)體素,而靜態(tài)體素則通過姿態(tài)變換輕松獲得。此外,我們的方法還引入了圖像輔助訓(xùn)練范式以增強預(yù)測的可靠性。具體而言,采用可微體積渲染通過預(yù)測的未來體積生成渲染深度圖,并將其用于基于渲染的光度一致性。實驗表明了我們方法的有效性,在 nuScenes 和 OpenScene 基準(zhǔn)測試中展示了其在 4D 占有預(yù)測方面的先進性能。該模型實現(xiàn)了精準(zhǔn)預(yù)測、端到端運動規(guī)劃和點云預(yù)測。具體而言,與現(xiàn)有的 3D 世界模型相比,它達(dá)到了最先進的性能,同時計算成本大幅降低。
效率和性能都比之前的兩階段模型好。
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
- paper:https://arxiv.org/abs/2408.14197
- project page: https://drive-occworld.github.io/
世界模型基于各種ego行為設(shè)想潛在的未來狀態(tài)。它們嵌入了關(guān)于駕駛環(huán)境的大量知識,有助于實現(xiàn)安全且可擴展的自動駕駛。大多數(shù)現(xiàn)有的方法主要側(cè)重于數(shù)據(jù)生成或世界模型的預(yù)訓(xùn)練范式。與上述先前的工作不同,我們提出了 Drive-OccWorld,它將以視覺為中心的 4D 預(yù)測世界模型適應(yīng)于自動駕駛的端到端規(guī)劃。具體而言,我們首先在內(nèi)存模塊中引入語義和運動條件歸一化,該模塊從歷史 BEV 嵌入中積累語義和動態(tài)信息。然后,這些 BEV 特征被傳遞到世界解碼器,用于未來占用和流預(yù)測,同時考慮幾何和時空建模。此外,我們提出將靈活的動作條件(如速度、轉(zhuǎn)向角、軌跡和指令)注入世界模型,以實現(xiàn)可控生成,并促進更廣泛的下游應(yīng)用。此外,我們還探索了將 4D 世界模型的生成能力與端到端規(guī)劃相結(jié)合,從而能夠利用基于占用率的成本函數(shù)連續(xù)預(yù)測未來狀態(tài)并選擇最優(yōu)軌跡。在 nuScenes 數(shù)據(jù)集上進行的大量實驗表明,我們的方法能夠生成合理且可控的 4D 占用率,為駕駛世界生成和端到端規(guī)劃開辟了新的途徑。
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving
- paper: https://arxiv.org/abs/2405.20337
- code: https://github.com/wzzheng/OccSora
理解 3D 場景的演變對于實現(xiàn)有效的自動駕駛至關(guān)重要。雖然傳統(tǒng)方法通過單個實例的運動來建模場景的發(fā)展,但世界模型作為一種生成框架,能夠描述一般的場景動態(tài)。然而,大多數(shù)現(xiàn)有的方法采用自回歸框架來進行下一個token預(yù)測,這在對長期時間演變進行建模時效率低下。為了解決這個問題,我們提出了一種基于擴散的 4D 占有率生成模型 OccSora,用于模擬自動駕駛中的 3D 世界的發(fā)展。我們采用 4D 場景tokenizer來獲取 4D 占有率輸入的緊湊離散時空表示,并實現(xiàn)對長序列占有率視頻的高質(zhì)量重建。然后,我們在時空表示上學(xué)習(xí)擴散Transformer,并根據(jù)軌跡提示生成 4D 占有率。我們在廣泛使用的 nuScenes 數(shù)據(jù)集上進行了大量實驗,該數(shù)據(jù)集帶有 Occ3D 占有率注釋。OccSora 能夠生成具有真實 3D 布局和時間一致性的 16 秒視頻,這表明它能夠理解駕駛場景的空間和時間分布。憑借軌跡感知的 4D 生成能力,OccSora 有可能成為自動駕駛決策的世界模擬器。
DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model
- paper: https://arxiv.org/abs/2410.10429
- project page: https://gusongen.github.io/DOME
我們提出了一種基于擴散的世界模型 DOME,它能夠根據(jù)過去的占用情況預(yù)測未來的占用幀。這種世界模型捕捉環(huán)境演變的能力對于自動駕駛中的規(guī)劃至關(guān)重要。與基于 2D 視頻的世界模型相比,占用世界模型利用了原生的 3D 表示,具有易于獲取的標(biāo)注且不受模態(tài)限制。這種靈活性有可能促進更先進世界模型的發(fā)展?,F(xiàn)有的占用世界模型要么因離散tokens而損失細(xì)節(jié),要么依賴于簡單的擴散架構(gòu),導(dǎo)致預(yù)測未來占用情況時效率低下且難以實現(xiàn)可控性。我們的 DOME 具有兩個關(guān)鍵特性:(1)高保真度和長時生成。我們采用時空擴散Transformer,基于歷史上下文預(yù)測未來的占用幀。這種架構(gòu)能夠高效地捕捉時空信息,從而實現(xiàn)高保真度的細(xì)節(jié),并具備長時間生成預(yù)測的能力。(2)細(xì)粒度可控性。我們通過引入一種軌跡重采樣方法來應(yīng)對預(yù)測中的可控性挑戰(zhàn),這顯著增強了模型生成可控預(yù)測的能力。在廣泛使用的 nuScenes 數(shù)據(jù)集上進行的大量實驗表明,我們的方法在定性和定量評估中均超越了現(xiàn)有的基準(zhǔn),在 nuScenes 上建立了新的最先進性能。具體而言,在占用重建方面,我們的方法在 mIoU 上比基準(zhǔn)高出 10.5%,在 IoU 上高出 21.2%;在 4D 占用預(yù)測方面,在 mIoU 上高出 36.0%,在 IoU 上高出 24.6%。
GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction
- paper: https://arxiv.org/abs/2412.10373
- code: https://github.com/zuosc19/GaussianWorld
3D 占有率預(yù)測對于自動駕駛至關(guān)重要,因為它能全面感知周圍環(huán)境。為了融合序列輸入,大多數(shù)現(xiàn)有方法將先前幀的表示融合起來以推斷當(dāng)前的 3D 占有率。然而,它們未能考慮駕駛場景的連續(xù)性,并且忽略了 3D 場景演變所提供的強大先驗信息(例如,只有動態(tài)物體在移動)。在本文中,我們提出了一種基于世界模型的框架,以利用場景演變進行感知。我們將 3D 占有率預(yù)測重新表述為一個基于當(dāng)前傳感器輸入的 4D 占有率預(yù)測問題。我們將場景演變分解為三個因素:1)靜態(tài)場景的自身運動對齊;2)動態(tài)物體的局部移動;3)新觀察到場景的補全。然后,我們采用高斯世界模型(GaussianWorld)來明確利用這些先驗信息,并在考慮當(dāng)前 RGB 觀測的情況下,在 3D 高斯空間中推斷場景演變。我們在廣泛使用的 nuScenes 數(shù)據(jù)集上評估了我們框架的有效性。我們的GaussianWorld在不增加額外計算量的情況下,將單幀對應(yīng)模型的 mIoU 性能提高了 2% 以上。
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving
- paper: https://arxiv.org/abs/2407.21126
環(huán)境預(yù)測框架對于自動駕駛汽車(AV)在動態(tài)環(huán)境中的安全導(dǎo)航至關(guān)重要。激光雷達(dá)生成的占用網(wǎng)格地圖(L-OGM)為場景表示提供了可靠的鳥瞰視角,能夠?qū)崿F(xiàn)自監(jiān)督的聯(lián)合場景預(yù)測,同時對部分可觀測性和感知檢測失敗具有較強的魯棒性。先前的方法主要集中在網(wǎng)格單元空間內(nèi)的確定性 L-OGM 預(yù)測架構(gòu)上。盡管這些方法取得了一定的成功,但它們經(jīng)常產(chǎn)生不切實際的預(yù)測,并且無法捕捉環(huán)境的隨機性。此外,它們還不能有效地整合自動駕駛汽車中現(xiàn)有的其他傳感器模態(tài)。我們提出的框架在生成架構(gòu)的潛在空間中進行隨機 L-OGM 預(yù)測,并允許基于 RGB 相機、地圖和規(guī)劃軌跡進行條件設(shè)置。我們使用單步解碼器來解碼預(yù)測,該解碼器能夠?qū)崟r提供高質(zhì)量的預(yù)測,或者使用基于擴散的批處理解碼器,該解碼器可以進一步優(yōu)化解碼幀,以解決時間一致性問題并減少壓縮損失。我們在 nuScenes 和 Waymo Open 數(shù)據(jù)集上進行的實驗表明,我們方法的所有變體在定性和定量方面都優(yōu)于先前的方法。
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving
- paper: https://arxiv.org/abs/2405.04390
以視覺為中心的自動駕駛由于成本較低,近來受到了廣泛關(guān)注。預(yù)訓(xùn)練對于提取通用表示至關(guān)重要。然而,當(dāng)前以視覺為中心的預(yù)訓(xùn)練通常依賴于 2D 或 3D 的預(yù)訓(xùn)練任務(wù),忽略了自動駕駛作為 4D 場景理解任務(wù)的時間特性。在本文中,我們通過引入一個基于世界模型的自動駕駛 4D 表示學(xué)習(xí)框架來解決這一挑戰(zhàn),該框架被稱為DriveWorld,能夠從多攝像頭駕駛視頻中以時空方式預(yù)訓(xùn)練。具體而言,我們提出了一種用于時空建模的記憶狀態(tài)空間模型,它由一個動態(tài)記憶庫模塊組成,用于學(xué)習(xí)具有時間感知的潛在動態(tài)以預(yù)測未來變化,以及一個靜態(tài)場景傳播模塊,用于學(xué)習(xí)具有空間感知的潛在靜態(tài)以提供全面的場景上下文。我們還引入了一個任務(wù)提示,以解耦適用于各種下游任務(wù)的任務(wù)感知特征。實驗表明,DriveWorld 在各種自動駕駛?cè)蝿?wù)中取得了令人鼓舞的結(jié)果。在使用 OpenScene 數(shù)據(jù)集進行預(yù)訓(xùn)練時,DriveWorld 在 3D 物體檢測方面實現(xiàn)了 7.5% 的 mAP 提升,在在線地圖繪制方面實現(xiàn)了 3.0% 的 IoU 提升,在多目標(biāo)跟蹤方面實現(xiàn)了 5.0% 的 AMOTA 提升,在運動預(yù)測方面實現(xiàn)了 0.1 米的 minADE 降低,在占用預(yù)測方面實現(xiàn)了 3.0% 的 IoU 提升,在規(guī)劃方面實現(xiàn)了平均 L2 誤差 0.34 米的減少。
MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving
- paper: https://arxiv.org/abs/2311.11762
- code: https://github.com/fzi-forschungszentrum-informatik/muvo
為自動駕駛學(xué)習(xí)無監(jiān)督世界模型有可能極大地提升當(dāng)今系統(tǒng)的推理能力。然而,大多數(shù)工作都忽略了世界的物理屬性,僅關(guān)注傳感器數(shù)據(jù)。我們提出了 MUVO,一種具有空間體素表示的多模態(tài)世界模型,以應(yīng)對這一挑戰(zhàn)。我們利用原始的攝像頭和激光雷達(dá)數(shù)據(jù)來學(xué)習(xí)一種與傳感器無關(guān)的世界幾何表示。我們展示了多模態(tài)的未來預(yù)測,并表明我們的空間表示提高了攝像頭圖像和激光雷達(dá)點云的預(yù)測質(zhì)量。
總結(jié)
- OCC+世界模型的范式具有很大的潛力,相信接下來會有更多的相關(guān)工作;
- 使用diffusion-base的世界模型生成未來時刻的數(shù)據(jù)這個過程比較耗時,同時多幀以及多傳感器的融合策略也可能會影響實時性;
- OCC的演變本身依賴于世界模型的生成能力,但是目前訓(xùn)練一個精確理解物理世界演變的世界模型非常困難,因此一定程度上會影響這類模型的性能;
- Gaussian的強大表達(dá)能力有助于提高幀間的一致性,而且相比NeRF,占用更少的資源,有待進一步探索。