LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
原標(biāo)題:LidarDM: Generative LiDAR Simulation in a Generated World
論文鏈接:https://arxiv.org/pdf/2404.02903.pdf
代碼鏈接:https://github.com/vzyrianov/lidardm
作者單位:伊利諾伊大學(xué) 麻省理工學(xué)院
論文思路:
本文提出了LidarDM,這是一種新穎的激光雷達(dá)生成模型,能夠產(chǎn)生逼真、布局感知(layout-aware)、物理上可信以及時(shí)間上連貫的激光雷達(dá)視頻。LidarDM在激光雷達(dá)生成建模方面具有兩個(gè)前所未有的能力:(一)由駕駛場景引導(dǎo)的激光雷達(dá)生成,為自動(dòng)駕駛模擬提供了重大潛力;(二)4D激光雷達(dá)點(diǎn)云生成,使得創(chuàng)建逼真且時(shí)間上連貫的序列成為可能。本文模型的核心是一個(gè)新穎的綜合4D世界生成框架。具體來說,本文采用隱擴(kuò)散模型(latent diffusion models) 來生成3D場景,將其與動(dòng)態(tài)交通參與者(dynamic actors)結(jié)合,形成底層的4D世界,然后在這個(gè)虛擬環(huán)境中產(chǎn)生逼真的感知觀測數(shù)據(jù)。本文的實(shí)驗(yàn)表明,本文的方法在逼真度、時(shí)間連貫性和布局一致性方面優(yōu)于競爭算法。本文還展示了LidarDM可以作為生成世界模型仿真器,用于訓(xùn)練和測試感知模型。
網(wǎng)絡(luò)設(shè)計(jì):
生成模型在理解數(shù)據(jù)分布和內(nèi)容創(chuàng)作方面已經(jīng)變得引人注目,例如在圖像和視頻生成[10, 33, 52–55]、3D物體生成[10,19,38,52]、壓縮[5,29, 68]以及編輯[37,47]等領(lǐng)域。生成模型對于模擬[6, 11, 18, 34, 46, 60, 64, 66, 76, 82]也顯示出顯著的潛力,能夠創(chuàng)建逼真的場景及其相關(guān)的感知數(shù)據(jù),用于訓(xùn)練和評(píng)估安全關(guān)鍵的具身智能,如機(jī)器人和自動(dòng)駕駛車輛,無需昂貴的手工建?,F(xiàn)實(shí)世界。這些能力對于依賴廣泛閉環(huán)訓(xùn)練或場景測試的應(yīng)用至關(guān)重要。
盡管在條件圖像和視頻生成[15,27,35,44]方面的進(jìn)步非常顯著,但為自動(dòng)駕駛應(yīng)用生成特定場景下逼真的激光雷達(dá)點(diǎn)云序列的具體任務(wù)還未得到充分探索。目前的激光雷達(dá)生成方法主要分為兩大類,每一類都面臨著特定的挑戰(zhàn):
- 當(dāng)前的激光雷達(dá)生成建模方法[8, 72, 79, 83]僅限于單幀生成,并且沒有提供語義可控性和時(shí)間一致性的手段。
- 激光雷達(dá)重模擬(resimulation)[14, 17, 46, 65, 67, 74]嚴(yán)重依賴用戶創(chuàng)建或現(xiàn)實(shí)世界收集的資產(chǎn)。這增加了高昂的操作成本,限制了多樣性,并限制了更廣泛的應(yīng)用性。
為了應(yīng)對這些挑戰(zhàn),本文提出了 LidarDM(激光雷達(dá)擴(kuò)散模型),它能夠創(chuàng)造出逼真的、布局感知的、物理上可信的、以及時(shí)間上連貫的激光雷達(dá)視頻。本文探索了兩種以前未曾涉及的新穎能力:(i) 由駕駛場景引導(dǎo)的激光雷達(dá)合成,這對自動(dòng)駕駛仿真具有巨大潛力,以及 (ii) 旨在產(chǎn)生逼真且時(shí)間上連貫的有標(biāo)注的激光雷達(dá)點(diǎn)云序列的 4D 激光雷達(dá)點(diǎn)云合成。本文實(shí)現(xiàn)這些目標(biāo)的關(guān)鍵洞察在于首先生成和組合底層的 4D 世界,然后在這個(gè)虛擬環(huán)境中創(chuàng)造逼真的感知觀察。為了實(shí)現(xiàn)這一點(diǎn),本文整合了現(xiàn)有的 3D 物體生成方法來創(chuàng)建動(dòng)態(tài)交通參與者(dynamic actors),并開發(fā)了一種基于隱擴(kuò)散模型(latent diffusion models) 的大規(guī)模 3D 場景生成的新方法。這種方法能夠從粗糙的語義布局產(chǎn)生逼真且多樣化的 3D 駕駛場景,據(jù)本文所知,這是首次嘗試。本文應(yīng)用軌跡生成來創(chuàng)造動(dòng)態(tài)效果,同時(shí)確保交通參與者(actors)之間以及交通參與者(actors)與場景之間的真實(shí)互動(dòng)。最后,本文在每個(gè)時(shí)間步驟組合 3D 世界,并執(zhí)行隨機(jī)光線投射模擬(stochastic raycasting simulation)以產(chǎn)生最終的 4D 激光雷達(dá)序列。如圖 1 所示,本文生成的結(jié)果多樣化,與布局條件對齊,既逼真又時(shí)間上連貫。
本文的實(shí)驗(yàn)結(jié)果表明,由 LidarDM 生成的單幀圖像展現(xiàn)出逼真性和多樣性,其性能與最先進(jìn)的無條件單幀激光雷達(dá)點(diǎn)云生成技術(shù)相當(dāng)。此外,本文展示了 LidarDM 能夠產(chǎn)生保持時(shí)間連貫性的激光雷達(dá)視頻,超越了穩(wěn)健的 stable diffusion 傳感器生成基線。據(jù)本文所知,這是第一個(gè)具備此能力的激光雷達(dá)生成方法。本文進(jìn)一步通過展示生成的激光雷達(dá)與真實(shí)激光雷達(dá)在匹配地圖條件下的良好吻合,來證明 LidarDM 的條件生成能力。最后,本文說明了使用 LidarDM 生成的數(shù)據(jù)在用真實(shí)數(shù)據(jù)訓(xùn)練的感知模塊測試時(shí)展現(xiàn)出最小的域差距,并且還可以用來擴(kuò)展訓(xùn)練數(shù)據(jù),顯著提升 3D 檢測器的性能。這為使用生成的激光雷達(dá)模型創(chuàng)造逼真且可控的仿真環(huán)境以訓(xùn)練和測試駕駛模型提供了前提。
圖 1:本文展示了 LidarDM,這是一個(gè)新穎的 4D 激光雷達(dá)生成模型。本文生成的激光雷達(dá)視頻同時(shí)具有逼真性、布局條件性、物理可信性、多樣性和時(shí)間連貫性的優(yōu)勢。
圖 2:LidarDM 的應(yīng)用:(a) 在沒有 3D 捕捉或建模的情況下生成與地圖緊密對齊的激光雷達(dá)(彩色框突出顯示激光雷達(dá)與地圖之間的一致性);(b) 為現(xiàn)有的交通模擬器(Waymax [20])提供傳感器數(shù)據(jù),使其能夠僅從純傳感器數(shù)據(jù)評(píng)估安全關(guān)鍵場景;(c) 生成具有可控障礙物位置的大量激光雷達(dá)數(shù)據(jù)(被視為免費(fèi)獲得的真實(shí)標(biāo)簽),以通過無需昂貴數(shù)據(jù)捕捉和標(biāo)注的預(yù)訓(xùn)練改進(jìn)感知模型。
圖 3:LidarDM 概覽:給定時(shí)間 t = 0 時(shí)的交通布局輸入,LidarDM 首先生成交通參與者(actors)和靜態(tài)場景。然后,本文生成交通參與者(actors)和自車的運(yùn)動(dòng),并構(gòu)建底層的 4D 世界。最后,使用基于生成和物理的仿真來創(chuàng)建逼真的 4D 傳感器數(shù)據(jù)。
圖 4:本文的 3D 場景生成流程。首先,累積的點(diǎn)云被用于重建每個(gè)真實(shí)網(wǎng)格樣本。接下來,訓(xùn)練一個(gè)變分自編碼器(VAE)將網(wǎng)格壓縮成隱式編碼。最后,訓(xùn)練一個(gè)以地圖為條件的擴(kuò)散模型,在 VAE 的隱空間內(nèi)進(jìn)行采樣,產(chǎn)生新的樣本。
圖 5:用于感知噪聲模擬的隨機(jī)光線丟棄(raydrop)網(wǎng)絡(luò),進(jìn)一步增強(qiáng)了真實(shí)感。本文在上方的掩碼距離圖和掩碼激光雷達(dá)圖像中用紅色突出顯示了光線丟棄的(raydropped)點(diǎn)。
實(shí)驗(yàn)結(jié)果:
圖 6:真實(shí)的 KITTI-360 樣本與來自競爭方法的無條件樣本對比。UltraLiDAR 樣本可視化直接從它們的論文中獲取。與之前的方法相比,LidarDM 生成的樣本具有更多數(shù)量、更詳細(xì)的顯著物體(例如,汽車、行人)、更清晰的 3D 結(jié)構(gòu)(例如,直墻)以及更逼真的道路布局。
圖 7:在 2 Waymax [20] 地圖序列上進(jìn)行的以地圖為條件的序列生成的定性結(jié)果。本文還展示了相應(yīng)的累積點(diǎn)云,以突出 LidarDM 的時(shí)序一致性。
總結(jié):
本文提出了 LidarDM,這是一個(gè)新穎的基于布局條件的隱擴(kuò)散模型(latent diffusion models) ,用于生成逼真的激光雷達(dá)點(diǎn)云。本文的方法將問題框定為一個(gè)聯(lián)合的 4D 世界創(chuàng)建和感知數(shù)據(jù)生成任務(wù),并開發(fā)了一個(gè)新穎的隱擴(kuò)散模型(latent diffusion models) 來創(chuàng)建 3D 場景。由此產(chǎn)生的點(diǎn)云視頻是真實(shí)的、連貫的,并且具有布局感知(layout-aware)能力。