CVPR 2024 | 面向真實感場景生成的激光雷達擴散模型

作者：汽車人 2024-04-24 11:29:54

人工智能智能汽車

本文提出了激光雷達擴散模型（LiDMs），這是一個用于激光雷達場景生成的通用條件化框架。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

原標(biāo)題：Towards Realistic Scene Generation with LiDAR Diffusion Models

論文鏈接：https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

代碼鏈接：https://lidar-diffusion.github.io

作者單位：CMU 豐田研究院南加州大學(xué)

論文思路：

擴散模型（DMs）在逼真的圖像合成方面表現(xiàn)出色，但將其適配到激光雷達場景生成中卻面臨著重大挑戰(zhàn)。這主要是因為在點空間運作的DMs 難以保持激光雷達場景的曲線樣式和三維幾何特性，這消耗了它們大部分的表征能力。本文提出了激光雷達擴散模型（LiDMs），這一模型通過在學(xué)習(xí)流程中融入幾何先驗，能夠從為捕獲激光雷達場景的真實感而定制的隱空間中生成逼真的激光雷達場景。本文的方法針對三個主要愿望：模式的真實性、幾何的真實性和物體的真實性。具體來說，本文引入了曲線壓縮來模擬現(xiàn)實世界的激光雷達模式，點級(point-wise)坐標(biāo)監(jiān)督來學(xué)習(xí)場景幾何，以及塊級(patch-wise)編碼以獲得完整的三維物體上下文。憑借這三個核心設(shè)計，本文在無條件激光雷達生成的64線場景中建立了新的SOTA，同時與基于點的DMs相比保持了高效率（最高可快107倍）。此外，通過將激光雷達場景壓縮到隱空間，本文使 DMs 能夠在各種條件下控制，例如語義地圖、相機視圖和文本提示。

主要貢獻：

本文提出了一種新穎的激光雷達擴散模型（LiDM），這是一種生成模型，能夠用于基于任意輸入條件的逼真激光雷達場景生成。據(jù)本文所知，這是第一個能夠從多模態(tài)條件生成激光雷達場景的方法。

本文引入了曲線級壓縮以保持逼真的激光雷達模式，點級坐標(biāo)監(jiān)督以規(guī)范場景級幾何的模型，并且引入了塊級編碼以完全捕捉3D物體的上下文。

本文引入了三個指標(biāo)，用于在感知空間中全面且定量地評估生成的激光雷達場景質(zhì)量，比較包括距離圖像、稀疏體積和點云等多種表示形式。

本文的方法在64線激光雷達場景的無條件場景合成上實現(xiàn)了最新水平，并且相比于基于點的擴散模型實現(xiàn)了高達107倍的速度提升。

網(wǎng)絡(luò)設(shè)計：

近年來，條件生成模型的發(fā)展迅猛，這些模型能夠生成視覺上吸引人且高度逼真的圖像。在這些模型中，擴散模型（DMs）憑借其無可挑剔的性能，已經(jīng)成為最受歡迎的方法之一。為了實現(xiàn)任意條件下的生成，隱擴散模型（LDMs）[51] 結(jié)合了交叉注意力機制和卷積自編碼器，以生成高分辨率圖像。其后續(xù)擴展（例如，Stable Diffusion [2], Midjourney [1], ControlNet [72]）進一步增強了其條件圖像合成的潛力。

這一成功引發(fā)了本文的思考：我們能否將可控的擴散模型（DMs）應(yīng)用于自動駕駛和機器人技術(shù)中的激光雷達場景生成？例如，給定一組邊界框，這些模型能否合成相應(yīng)的激光雷達場景，從而將這些邊界框轉(zhuǎn)化為高質(zhì)量且昂貴的標(biāo)注數(shù)據(jù)？或者，是否有可能僅從一組圖像生成一個3D場景？甚至更有野心地，我們能設(shè)計出一個由語言驅(qū)動的激光雷達生成器來進行可控模擬嗎？為了回答這些交織在一起的問題，本文的目標(biāo)是設(shè)計出能夠結(jié)合多種條件（例如，布局、相機視角、文本）來生成逼真激光雷達場景的擴散模型。

為此，本文從最近自動駕駛領(lǐng)域的擴散模型（DMs）工作中獲取了一些見解。在[75]中，介紹了一種基于點的擴散模型（即LiDARGen），用于無條件的激光雷達場景生成。然而，這個模型往往會產(chǎn)生嘈雜的背景（如道路、墻壁）和模糊不清的物體（如汽車），導(dǎo)致生成的激光雷達場景與現(xiàn)實情況相去甚遠（參見圖1）。此外，在沒有任何壓縮的情況下對點進行擴散，會使得推理過程計算速度變慢。而且，直接應(yīng)用 patch-based 擴散模型（即 Latent Diffusion [51]）到激光雷達場景生成，無論是在質(zhì)量上還是數(shù)量上，都未能達到令人滿意的性能（參見圖1）。

為了實現(xiàn)條件化的逼真激光雷達場景生成，本文提出了一種基于曲線的生成器，稱為激光雷達擴散模型（LiDMs），以回答上述問題并解決近期工作中的不足。LiDMs 能夠處理任意條件，例如邊界框、相機圖像和語義地圖。LiDMs 利用距離圖像作為激光雷達場景的表征，這在各種下游任務(wù)中非常普遍，如檢測[34, 43]、語義分割[44, 66]以及生成[75]。這一選擇是基于距離圖像與點云之間可逆且無損的轉(zhuǎn)換，以及從高度優(yōu)化的二維卷積操作中獲得的顯著優(yōu)勢。為了在擴散過程中把握激光雷達場景的語義和概念本質(zhì)，本文的方法在擴散過程之前，將激光雷達場景的編碼點轉(zhuǎn)換到一個感知等效的隱空間(perceptually equivalent latent space)中。

為了進一步提高真實世界激光雷達數(shù)據(jù)的逼真模擬效果，本文專注于三個關(guān)鍵組成部分：模式真實性、幾何真實性和物體真實性。首先，本文利用曲線壓縮在自動編碼過程中保持點的曲線圖案，這一做法受到[59]的啟發(fā)。其次，為了實現(xiàn)幾何真實性，本文引入了點級坐標(biāo)監(jiān)督，以教會本文的自編碼器理解場景級別的幾何結(jié)構(gòu)。最后，本文通過增加額外的塊級下采樣策略來擴大感受野，以捕捉視覺上較大物體的完整上下文。通過這些提出的模塊增強，所產(chǎn)生的感知空間使得擴散模型能夠高效地合成高質(zhì)量的激光雷達場景（參見圖1），同時在性能上也表現(xiàn)出色，與基于點的擴散模型相比速度提升了107倍（在一臺NVIDIA RTX 3090上評估），并支持任意類型的基于圖像和基于 token 的條件。

圖1. 本文的方法（LiDM）在無條件的激光雷達逼真場景生成方面確立了新的SOTA，并標(biāo)志著從不同輸入模態(tài)生成條件化激光雷達場景方向上的一個里程碑。

圖2. 64線數(shù)據(jù)上 LiDMs 的概覽，包括三個部分：激光雷達壓縮（參見第3.3節(jié)和3.5節(jié)）、多模態(tài)條件化（參見第3.4節(jié)）以及激光雷達擴散（參見第3.5節(jié)）。

實驗結(jié)果：

圖3. 在64線場景下，來自 LiDARGen [75]、Latent Diffusion [51] 以及本文的 LiDMs 的例子。

圖4. 在32線場景下，來自本文 LiDMs 的例子。

圖5. 在SemanticKITTI [5]數(shù)據(jù)集上，用于語義地圖到激光雷達生成的本文的 LiDM 的例子。

圖6. 在KITTI-360 [37]數(shù)據(jù)集上，用于條件相機到激光雷達生成的 LiDM 的例子。橙色框表示輸入圖像所覆蓋的區(qū)域。對于每個場景，KITTI-360提供一個視角，它只覆蓋了場景的一部分。因此，LiDM 對相機覆蓋的區(qū)域執(zhí)行條件生成，對其余未觀測到的區(qū)域執(zhí)行無條件生成。

圖7. 在64線場景下，用于 zero-shot 文本到激光雷達生成的 LiDM 的例子。橙色虛線框起的區(qū)域表示受條件影響的區(qū)域，綠色框突出顯示了可能與提示詞相關(guān)聯(lián)的物體。

圖8. 總體縮放因子（）與采樣質(zhì)量（FRID和FSVD）的對比。本文在KITTI-360 [37]數(shù)據(jù)集上比較了不同規(guī)模的曲線級編碼（Curve）、塊級編碼（Patch）以及帶有一（C+1P）或兩（C+2P）階段塊級編碼的曲線級編碼。

圖9. LiDM 的例子，包括有或沒有點級監(jiān)督，如第3.3節(jié)所提出的。

總結(jié)：

本文提出了激光雷達擴散模型（LiDMs），這是一個用于激光雷達場景生成的通用條件化框架。本文的設(shè)計著重于保留曲線狀的圖案以及場景級別和物體級別的幾何結(jié)構(gòu)，為擴散模型設(shè)計了一個高效的隱空間，以實現(xiàn)激光雷達逼真生成。這種設(shè)計使得本文的 LiDMs 在64線場景下能夠在無條件生成方面取得有競爭力的性能，并在條件生成方面達到了最先進的水平，可以使用多種條件對 LiDMs 進行控制，包括語義地圖、相機視圖和文本提示。據(jù)本文所知，本文的方法是首次成功將條件引入到激光雷達生成中的方法。

引用：

@inproceedings{ran2024towards,
title={Towards Realistic Scene Generation with LiDAR Diffusion Models},
author={Ran, Haoxi and Guizilini, Vitor and Wang, Yue},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2024}
}

責(zé)任編輯：張燕妮來源：自動駕駛之心

模型雷達

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡