為自動駕駛而生,Lightning NeRF:速度提升10倍
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
最近的研究強調(diào)了NeRF在自動駕駛環(huán)境中的應(yīng)用前景。然而室外環(huán)境的復(fù)雜性,加上駕駛場景中的視點受限,使精確重建場景幾何體的任務(wù)變得復(fù)雜。這些挑戰(zhàn)往往會導(dǎo)致重建質(zhì)量下降,訓(xùn)練和渲染的持續(xù)時間延長。為了應(yīng)對這些挑戰(zhàn),我們推出了Lightning NeRF。它使用了一種高效的混合場景表示,在自動駕駛場景中有效地利用了激光雷達的幾何先驗。Lightning NeRF顯著提高了NeRF的新穎視圖合成性能,并減少了計算開銷。通過對真實世界數(shù)據(jù)集(如KITTI-360、Argoverse2和我們的私人數(shù)據(jù)集)的評估,我們證明了我們的方法不僅在新視圖合成質(zhì)量方面超過了當(dāng)前最先進的技術(shù),而且在訓(xùn)練速度上提高了五倍,在渲染速度上也提高了十倍。
- 代碼鏈接:https://github.com/VISION-SJTU/Lightning-NeRF
詳解Lightning NeRF
Preliminaries
NeRF表示具有隱式函數(shù)的場景,該隱式函數(shù)通常由MLP參數(shù)化,其返回從觀看方向d觀察到的場景中的隨機3D點x的顏色值c和體積密度預(yù)測σ:
具體地說,為了渲染像素,NeRF利用分層體積采樣沿射線r生成N個點。這些位置的預(yù)測密度和顏色特征通過累積進行組合:
雖然NeRF在新的視圖合成中表現(xiàn)出優(yōu)異的性能,但它的訓(xùn)練時間長,渲染速度慢,部分原因是其采樣策略效率低。為此在訓(xùn)練期間保持粗略的占用網(wǎng)格,并且僅對占用體積內(nèi)的位置進行采樣。我們使用與這些工作類似的采樣策略來提高模型的效率。
Hybrid Scene Representation
混合體積表示已經(jīng)使用緊湊的模型實現(xiàn)了快速優(yōu)化和渲染。鑒于此,我們采用混合體素網(wǎng)格表示來對輻射場進行建模以提高效率。簡言之,我們通過在網(wǎng)格頂點存儲σ來顯式地對體積密度進行建模,同時使用淺MLP以隱式方式將顏色嵌入f解碼為最終顏色c。為了處理戶外環(huán)境的無邊界性質(zhì),我們將場景表示分為前景和背景兩部分,如圖2所示。具體來說,我們從軌跡序列中檢查每一幀中的相機截頭體,并定義前景邊界框,使其緊密包裹對齊坐標(biāo)系中的所有截頭體。背景框是通過沿每個維度按比例放大前景框而獲得的。
體素網(wǎng)格表示。體素網(wǎng)格表示在其網(wǎng)格頂點中顯式存儲場景屬性(例如,密度、RGB顏色或特征),以支持高效的特征查詢。這樣,對于給定的3D位置,我們可以通過三線性插值來解碼相應(yīng)的屬性:
前景。我們建立了兩個獨立的特征網(wǎng)格,用于對前景區(qū)域的密度和顏色嵌入進行建模。具體來說,密度網(wǎng)格映射將位置映射到密度標(biāo)量σ中,用于體積渲染。對于顏色嵌入網(wǎng)格映射,我們通過哈希表以不同分辨率備份實例化多個體素網(wǎng)格,以獲得更精細的細節(jié),并具有可承受的內(nèi)存開銷。最終的顏色嵌入f是通過在L個分辨率級別上串聯(lián)輸出而獲得的。
背景盡管前面提到的前景建模適用于對象級別的輻射場,但將其擴展到無界的室外場景并非易事。一些相關(guān)技術(shù),如NGP,直接擴展其場景邊界框,以便可以包括背景區(qū)域,而GANcraft和URF引入了球形背景輻射來處理這個問題。然而,前一種嘗試導(dǎo)致其功能的浪費,因為其場景框內(nèi)的大多數(shù)區(qū)域都用于背景場景。對于后一種方案,它可能無法處理城市場景中復(fù)雜的全景(例如,起伏的建筑或復(fù)雜的景觀),因為它只是假設(shè)背景輻射僅取決于視線方向。
為此,我們設(shè)置了一個額外的背景網(wǎng)格模型,以保持前景部分的分辨率不變。我們采用[9]中的場景參數(shù)化作為背景,經(jīng)過精心設(shè)計。首先與反球面建模不同,我們使用反三次建模,用?∞ 范數(shù),因為我們使用體素網(wǎng)格表示。其次我們不實例化額外的MLP來查詢背景顏色以節(jié)省內(nèi)存。具體來說,我們通過以下方式將3D背景點扭曲為4D:
LiDAR Initialization
使用我們的混合場景表示,當(dāng)我們直接從有效的體素網(wǎng)格表示而不是計算密集型MLP查詢密度值時,該模型可以節(jié)省計算和內(nèi)存。然而,考慮到城市場景的大規(guī)模性質(zhì)和復(fù)雜性,由于密度網(wǎng)格的分辨率有限,這種輕量級表示很容易在優(yōu)化中陷入局部極小值。幸運的是,在自動駕駛中,大多數(shù)自動駕駛汽車(SDV)都配備了LiDAR傳感器,為場景重建提供了粗略的幾何先驗。為此,我們建議使用激光雷達點云來初始化我們的密度網(wǎng)格,以減輕場景幾何和輻射聯(lián)合優(yōu)化的障礙。
Color Decomposition
最初的NeRF使用與視圖相關(guān)的MLP來對輻射場中的顏色進行建模,這是對物理世界的簡化,其中輻射由漫射(與視圖無關(guān))顏色和鏡面(與視圖相關(guān))顏色組成。此外,由于最終輸出顏色c與觀看方向d完全糾纏,因此難以在看不見的視圖中渲染高保真圖像。如圖3所示,我們在沒有顏色分解(CD)的情況下訓(xùn)練的方法在外推設(shè)置中的新視圖合成中失?。?,基于訓(xùn)練視圖將觀看方向向左移動2米),而我們在顏色分解的情況下給出了合理的渲染結(jié)果。
采樣位置的最終顏色是這兩個因素的總和:
訓(xùn)練損失
我們使用重新縮放的權(quán)重wi來修改光度損失,以優(yōu)化我們的模型,使其專注于硬樣本以實現(xiàn)快速收斂。權(quán)重系數(shù)定義為:
圖片
實驗
結(jié)論
本文介紹了Lightning NeRF,這是一種高效的戶外場景視圖合成框架,它集成了點云和圖像。所提出的方法利用點云快速初始化場景的稀疏表示,實現(xiàn)了顯著的性能和速度增強。通過更有效地對背景進行建模,我們減少了前景上的代表性應(yīng)變。最后,通過顏色分解,分別對視圖相關(guān)和視圖無關(guān)的顏色進行建模,增強了模型的外推能力。在各種自動駕駛數(shù)據(jù)集上進行的大量實驗表明,我們的方法在性能和效率方面都優(yōu)于以前的先進技術(shù)。