自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 | 巨幅提升24%!LiDAR4D會是LiDAR重建的答案么?

人工智能 智能汽車
本文提出了LiDAR4D,這是一種用于新的時空LiDAR視圖合成的LiDAR-only的可微分框架,它重建動態(tài)駕駛場景并端到端生成逼真的LiDAR點云。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

盡管神經(jīng)輻射場(NeRFs)在圖像新視角合成(NVS)方面取得了成功,但激光雷達NVS的發(fā)展卻相對緩慢。之前的方法follow圖像的pipeline,但忽略了激光雷達點云的動態(tài)特性和大規(guī)模重建問題。有鑒于此,我們提出了LiDAR4D,這是一種用于新的時空LiDAR視圖合成的LiDAR-only的可微分框架??紤]到稀疏性和大規(guī)模特征,進一步設(shè)計了一種結(jié)合多平面和網(wǎng)格特征的4D混合表示,以實現(xiàn)從粗到細的有效重建。此外引入了從點云導(dǎo)出的幾何約束,以提高時序一致性。對于激光雷達點云的真實重建,我們結(jié)合了ray-drop概率的全局優(yōu)化,以保持cross-region模式。在KITTI-360和NuScenes數(shù)據(jù)集上進行的大量實驗證明了我們的方法在實現(xiàn)幾何感知和時間一致的動態(tài)重建方面的優(yōu)越性。

開源地址:https://github.com/ispc-lab/LiDAR4D

圖片

總結(jié)來說,本文的主要貢獻如下:

  • 提出了LiDAR4D,這是一種用于新的時空LiDAR視圖合成的LiDAR-only的可微分框架,它重建動態(tài)駕駛場景并端到端生成逼真的LiDAR點云。
  • 介紹了4D混合神經(jīng)表示和從點云導(dǎo)出的運動先驗,用于幾何感知和時間一致的大規(guī)模場景重建。
  • 綜合實驗證明了LiDAR4D在具有挑戰(zhàn)性的動態(tài)場景重建和新穎視圖合成方面的SOTA性能。

相關(guān)工作回顧

激光雷達仿真。CARLA等傳統(tǒng)仿真器基于物理引擎,可以在手工制作的虛擬環(huán)境中通過光線投射生成激光雷達點云。然而,它有多樣性限制,并且嚴重依賴昂貴的3D資產(chǎn)。與真實世界的數(shù)據(jù)相比,domain gap仍然很大。因此,最近的幾項工作通過在仿真之前從真實數(shù)據(jù)重建場景,進一步縮小了這一差距。LiDARsim重建網(wǎng)格表面表示,并使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)光線下降特性。此外,值得注意的是,還有其他表面重建工作,如NKSR,可以將激光雷達點云轉(zhuǎn)換為網(wǎng)格表示。盡管如此,這些顯式重建工作對于在大規(guī)模復(fù)雜場景中恢復(fù)精確的曲面來說是麻煩的,這進一步導(dǎo)致點云合成的精度下降。相反,PCGen直接從點云進行重建,然后以類似光柵化的方式進行渲染并進行第一次峰值平均。盡管它更好地保留了原始信息,但渲染點云仍然相對嘈雜。此外,上述所有這些顯式方法僅適用于靜態(tài)場景。相反,我們的方法通過時空神經(jīng)輻射場隱式重建連續(xù)表示,實現(xiàn)了更高質(zhì)量的真實點云合成,擺脫了靜態(tài)重建的局限。

神經(jīng)輻射場。最近基于神經(jīng)輻射場的大量研究在新視圖合成(NVS)任務(wù)中取得了突破和顯著成就?;贛LP、體素網(wǎng)格、三平面、向量分解和多級哈希網(wǎng)格的各種神經(jīng)表示已被充分用于重建和合成。然而,大多數(shù)工作都集中在以目標為中心的室內(nèi)小場景重建上。隨后,幾部作品逐漸將其擴展到大型戶外場景。盡管如此,神經(jīng)輻射場通常在RGB圖像輸入的情況下存在幾何模糊性。因此,DS-NeRF和DDP-NeRF在提高效率之前引入了深度,URF還利用激光雷達點云來促進重建。在本文中,我們使用新的混合表示和神經(jīng)激光雷達場來重建激光雷達NVS的大規(guī)模場景。

用于激光雷達NVS的NeRF。最近,一些研究開創(chuàng)了基于神經(jīng)輻射場的激光雷達點云新視圖合成的先河,大大超過了傳統(tǒng)的仿真方法。其中,NeRF-LiDAR和UniSim需要RGB圖像和LiDAR點云作為輸入,并在具有光度損失和深度監(jiān)督的情況下重建駕駛場景。隨后,可以通過神經(jīng)深度渲染生成新的視圖LiDAR點云。在僅使用LiDAR的方法中,LiDAR-NeRF和NFL首次提出了可微分LiDAR-NVS框架,該框架同時重建了深度、強度和raydrop概率。然而,這些方法僅限于靜態(tài)場景重建,并且不能處理諸如移動車輛之類的動態(tài)目標。盡管UniSim確實支持動態(tài)場景,但它在很大程度上受到3D目標檢測的地面實況標記以及重建前背景和動態(tài)目標解耦需求的限制。相反,我們的研究專注于僅用于動態(tài)場景重建和新穎時空視圖合成的激光雷達輸入,而無需RGB圖像或地面實況標簽的幫助。值得注意的是,NFL對激光雷達的詳細物理建模做出了重大貢獻,如光束發(fā)散和二次返回,這與我們的正交,可能有利于所有激光雷達NVS工作。

動態(tài)場景重建。大量的研究致力于擴展神經(jīng)輻射場,以涵蓋動態(tài)場景重建。一般來說,動態(tài)NeRF可以大致分為兩組。一種是通過連續(xù)變形場將坐標映射到規(guī)范空間的可變形神經(jīng)輻射場。雖然變形場和輻射場的解耦簡化了優(yōu)化,但建立準確的遠距離對應(yīng)仍然具有挑戰(zhàn)性。另一個是時空神經(jīng)場,它將時間視為構(gòu)建4D時空表示的額外維度輸入。因此,可以靈活地將外觀、幾何結(jié)構(gòu)和運動同時建模為連續(xù)的時變函數(shù)。之前的大多數(shù)工作都集中在室內(nèi)相對較小的位移上,而自動駕駛場景中的大規(guī)模車輛移動則更具挑戰(zhàn)性。此外,我們的工作也是首次將動態(tài)神經(jīng)輻射場引入激光雷達NVS任務(wù)。

詳解LiDAR4D

本節(jié)從新型激光雷達視圖合成的問題公式和NeRF的初步問題開始。在此之后,提供了我們提出的LiDAR4D框架的詳細描述。

問題公式。在動態(tài)駕駛場景中,給定收集的激光雷達點云序列,以及相應(yīng)的傳感器姿態(tài)和時間戳作為輸入。每個單個激光雷達幀Si包含3D坐標x和1D反射強度ρ的K個點。

LiDAR4D的目標是將這種動態(tài)場景重建為基于神經(jīng)場的連續(xù)隱式表示。此外,給定新的傳感器姿態(tài)和任意時刻,LiDAR4D執(zhí)行神經(jīng)渲染,以在新的時空視圖下合成具有強度的LiDAR點云。

NeRF的準備工作。神經(jīng)輻射場,簡稱NeRFs,以位置x∈R3和觀看方向(θ,ξ)的5D輸入為輸入,建立到體積密度σ和顏色c的映射。然后,進行體積渲染,估計像素值,合成未知新視圖中的圖像。詳細地說,它從傳感器中心o發(fā)射方向為d的光線r,即r(t)=o+td,然后沿該光線對N個樣本的神經(jīng)場輸出進行積分,以近似像素顏色C。體積渲染函數(shù)可以形成如下:

圖片

LiDAR4D概述

根據(jù)神經(jīng)輻射場,我們提出的LiDAR4D將點云場景重建為隱式連續(xù)表示。與RGB圖像具有光度損失的原始NeRF不同,我們重新定義了基于激光雷達的神經(jīng)場,稱為神經(jīng)激光雷達場。如圖2所示,它專注于對激光雷達點云的幾何深度、反射強度和光線下降概率進行建模。對于大規(guī)模動態(tài)駕駛場景,LiDAR4D將粗分辨率多平面特征與高分辨率哈希網(wǎng)格表示相結(jié)合,實現(xiàn)高效有效的重建。然后,我們將其提升到4D,并將時間信息編碼引入到新的時空視圖合成中。為了確保幾何感知和時間一致的結(jié)果,我們還引入了從點云導(dǎo)出的顯式幾何約束。最終,我們預(yù)測每條光線的raydrop概率,并使用運行時優(yōu)化的U-Net執(zhí)行全局細化,以提高生成真實性。

4D Hybrid Planar-Grid Representation

圖片

圖3說明了我們提出的新的混合表示如何將4D空間分解為平面和哈希網(wǎng)格特征,這些特征進一步細分為靜態(tài)和動態(tài)特征。與室內(nèi)小物體的重建不同,大規(guī)模自動駕駛場景對特征的表示能力和分辨率提出了更高的要求。然而,TiNeuVox等密集網(wǎng)格表示由于其立方體增長的復(fù)雜性,對于大規(guī)模場景是不可縮放的。因此,我們遵循K平面,將場景空間分解為多個正交平面中的特征組合,以大幅減少參數(shù)量。平面特征可以如下獲得:

圖片

盡管如此,對于跨越數(shù)百米的場景,這種分辨率的提高仍然不夠,尤其是對于高頻強度重建。由于Instant NGP中提出的哈希網(wǎng)格,具有超高分辨率的顯式網(wǎng)格結(jié)構(gòu)是可能的。此外,激光雷達點云場景的稀疏性基本上避免了散列碰撞的不利影響。

圖片

其中密集網(wǎng)格G將通過散列映射被進一步壓縮到有限的存儲器中以用于參數(shù)縮減。類似地,在三線性插值和級聯(lián)之前,4D坐標被投影到靜態(tài)(xyz)和動態(tài)(xyt,xzt,yzt)多級哈希網(wǎng)格中,其中使用Hadamard乘積來乘以動態(tài)特征。

然而,值得注意的是,純哈希網(wǎng)格表示仍然存在視覺偽影和噪聲重建結(jié)果(如圖4所示),這阻礙了精確對象幾何結(jié)構(gòu)的構(gòu)建。有鑒于此,我們采用低分辨率的多平面特征進行整體平滑表示,并采用高分辨率的哈希網(wǎng)格來處理更精細的細節(jié),最終在大規(guī)模場景重建中實現(xiàn)高精度和高效率。

Scene Flow Prior

為了增強當前4D時空表示的時間一致性,我們進一步引入了用于運動估計的流MLP。它將編碼的時空坐標作為輸入,并構(gòu)建從坐標場R4到運動場R3的映射。

圖片

由于在自動駕駛場景中,車輛運動范圍可能跨越很長的距離,因此在可變形神經(jīng)輻射場中很難建立與規(guī)范空間的長期對應(yīng)關(guān)系。因此,我們利用流MLP僅預(yù)測相鄰幀之間的運動,并聚合多幀動態(tài)特征以實現(xiàn)時間一致的重建。

此外,可以從輸入的激光雷達點云進一步導(dǎo)出顯式幾何約束。通過將點云饋送到流MLP中以產(chǎn)生場景流預(yù)測,我們可以將倒角距離調(diào)節(jié)為幾何損失。它對激光雷達4D施加了運動先驗和額外的監(jiān)督,從而實現(xiàn)了幾何感知重建。點云S和的兩個幀之間的倒角距離定義如下:

圖片

Neural LiDAR Fields

激光雷達發(fā)射激光脈沖并測量飛行時間(ToF),以確定物體距離以及反射光的強度。旋轉(zhuǎn)式激光雷達具有360度水平視場(FOV)和有限的垂直視場范圍,可以通過特定的角分辨率激光感知環(huán)境。以與神經(jīng)激光雷達場相同的方式,我們在視場內(nèi)以特定的角度間隔發(fā)射激光,使用激光雷達傳感器的中心作為原點o。激光的方向d由極坐標系下的方位角θ和仰角決定,如下所示。

圖片

然后,我們查詢沿激光器采樣的三維點坐標,并將其輸入神經(jīng)場,以預(yù)測相應(yīng)位置的密度。接下來,對沿著射線的密度進行積分,以獲得深度值D的期望值,該深度值D用作激光束的返回距離。

圖片

此外,我們分別預(yù)測了每個點的強度I和ray-drop概率P,并類似地沿著射線進行α組成。

圖片

我們使用單獨的MLP來獲取時間聚合的平面和哈希特征,以及位置編碼的視點作為預(yù)測的輸入。

圖片

Ray-drop Refinement

在激光測距過程中,一部分發(fā)射的光線不會反射回傳感器,這被稱為光線下降特性。事實上,激光雷達的射線降受到各個方面的顯著影響,包括距離、表面特性和傳感器噪聲。與LiDAR-NeRF中一樣,ray-drop預(yù)測是直接用逐點MLP頭來完成的,這本質(zhì)上是有噪聲和不可靠的。為了解決這個問題,我們使用具有殘差的U-Net來全局細化ray-drop掩模,并更好地保持跨區(qū)域的一致圖案。它以LiDAR4D的全射線下降概率、深度和強度預(yù)測為輸入(與之前的工作不同),并通過二進制交叉熵損失細化最終掩模,如下所示:

圖片

我們強調(diào),輕量級網(wǎng)絡(luò)是在運行時隨機初始化和優(yōu)化的,可以有效地進行重建。如圖5所示,全局優(yōu)化大大提高了預(yù)測結(jié)果,并進一步增強了生成的激光雷達點云的保真度。

圖片

Optimization

對于LiDAR4D的優(yōu)化,總重建損失是深度損失、強度損失、ray-drop損失、流量損失和精細化損失的加權(quán)組合,可以形式化為:

圖片

實驗

LiDAR4D在KITTI-360和NuScenes上展開實驗。

圖片圖片圖片圖片圖片

限制

盡管LiDAR4D在大量實驗中表現(xiàn)出了非凡的性能,但點云的遠距離車輛運動和遮擋問題仍然是懸而未決的問題。與靜態(tài)對象相比,動態(tài)對象的重建仍然存在顯著差距。此外,前景和背景可能難以很好地分離。此外,基于真實世界的數(shù)據(jù)集,NVS的定量評估僅限于自車軌跡,不允許新的空間和時間視圖合成的解耦。

結(jié)論

本文重新審視了現(xiàn)有激光雷達NVS方法的局限性,并提出了一個新的框架來應(yīng)對三大挑戰(zhàn),即動態(tài)重建、大規(guī)模場景表征和逼真合成。我們提出的方法LiDAR4D在大量實驗中證明了其優(yōu)越性,實現(xiàn)了大規(guī)模動態(tài)點云場景的幾何感知和時間一致性重建,并生成了更接近真實分布的新時空視圖LiDAR點云。我們相信,未來更多的工作將集中在將激光雷達點云與神經(jīng)輻射場相結(jié)合,探索動態(tài)場景重建和合成的更多可能性。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-04-12 10:46:26

2024-02-02 09:47:31

自動駕駛感知

2024-01-26 10:02:51

自動駕駛3D

2024-05-15 10:16:18

4D雷達

2023-09-27 09:59:53

自動駕駛訓(xùn)練

2024-12-10 09:49:53

2022-02-14 11:37:59

自動駕駛算法技術(shù)

2023-04-14 09:59:01

傳感器智能

2024-01-23 10:17:24

自動駕駛安全

2021-06-01 12:47:51

自動駕駛數(shù)據(jù)人工智能

2024-02-28 09:38:43

2021-09-03 18:04:28

Velodyne

2025-03-31 08:52:00

AI模型研究

2022-05-30 14:52:27

人工智能5G 網(wǎng)絡(luò)

2024-04-23 09:30:07

3D模型

2020-08-13 10:41:14

達摩院阿里自動駕駛

2023-03-28 08:53:18

操作符數(shù)字字符串
點贊
收藏

51CTO技術(shù)棧公眾號