自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

優(yōu)于各種駕駛場景SOTA!利用約束GS打破視覺重建壁壘,AutoSplat敲門駕駛場景重構(gòu)

人工智能 智能汽車
今天為大家分享多倫多大學(xué)&華為諾亞最新的工作AutoSplat!自動駕駛視覺場景重建SOTA,新視角合成能力超越MARS等!

寫在前面&出發(fā)點(diǎn)

真實(shí)的場景重建和視圖合成對于通過模擬安全關(guān)鍵場景來推動自動駕駛系統(tǒng)的發(fā)展至關(guān)重要。3DGaussian Splatting在實(shí)時(shí)渲染和靜態(tài)場景重建方面表現(xiàn)優(yōu)異,但由于復(fù)雜的背景、動態(tài)目標(biāo)和稀疏的視圖,它在模擬駕駛場景時(shí)遇到了挑戰(zhàn)。這里提出了AutoSplat,這是一個(gè)采用Gaussian Splatting技術(shù)的框架,以實(shí)現(xiàn)自動駕駛場景的高度逼真的重建。通過對代表道路和天空區(qū)域的高斯函數(shù)施加幾何約束,方法能夠?qū)崿F(xiàn)對包括車道變更在內(nèi)的挑戰(zhàn)性場景的多視圖一致模擬。利用3D模板,引入了一種反射高斯一致性約束,以監(jiān)督前景目標(biāo)的可見面和不可見面。此外,為了建模前景目標(biāo)的動態(tài)外觀,為每個(gè)前景高斯函數(shù)估計(jì)了殘差球諧函數(shù)。在Pandaset和KITTI數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,AutoSplat在場景重建和新視圖合成方面優(yōu)于各種駕駛場景下的最先進(jìn)方法。項(xiàng)目頁面位于:https://autosplat.github.io/。

領(lǐng)域背景介紹

從捕獲的圖像中進(jìn)行視圖合成和場景重建是計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺中的基本挑戰(zhàn),對自動駕駛和機(jī)器人技術(shù)至關(guān)重要。從移動車輛上的稀疏傳感器數(shù)據(jù)中重建詳細(xì)的3D場景在高速行駛時(shí)尤其具有挑戰(zhàn)性,因?yàn)榇藭r(shí)無論是自動駕駛車輛還是周圍物體都處于運(yùn)動狀態(tài)。這些技術(shù)通過模擬逼真的駕駛場景,特別是成本高昂或危險(xiǎn)的極端情況,增強(qiáng)了安全性。

神經(jīng)輻射場(NeRFs)的出現(xiàn)通過多層感知器(MLP)隱式表示場景,徹底改變了視圖合成和重建領(lǐng)域。眾多研究致力于解決NeRF面臨的挑戰(zhàn),如訓(xùn)練和渲染速度慢,以及渲染質(zhì)量,特別是在重建有界靜態(tài)場景方面。同時(shí),也探索了無界場景和大規(guī)模城市區(qū)域的擴(kuò)展。各種方法已針對自動駕駛場景中的動態(tài)場景建模進(jìn)行了研究。然而,基于NeRF的方法在訓(xùn)練和渲染包含多個(gè)動態(tài)目標(biāo)的大規(guī)模場景時(shí)仍面臨重大障礙。

與基于NeRF的方法相比,3D Gaussian Splatting(3DGS)使用各向異性的3D高斯函數(shù)明確表示場景,這使得它能夠更快地進(jìn)行訓(xùn)練,實(shí)現(xiàn)高質(zhì)量的新視圖合成,并進(jìn)行實(shí)時(shí)光柵化。盡管3DGS在處理純靜態(tài)場景方面表現(xiàn)出色,但它無法重建包含動態(tài)目標(biāo)的場景。此外,3DGS并非為重建自動駕駛場景而設(shè)計(jì),而在自動駕駛場景中,視圖通常是稀疏的。這導(dǎo)致在前景目標(biāo)重建和新視圖合成時(shí)出現(xiàn)扭曲,如圖1所示的自動駕駛車輛變道場景。

圖片

這里提出了AutoSplat,一個(gè)專為自動駕駛場景模擬而設(shè)計(jì)的基于3DGS的框架。為了確保在背景重建過程中新視圖的一致性和高質(zhì)量合成,我們將道路和天空區(qū)域與其他背景區(qū)分開來。對這些區(qū)域的高斯函數(shù)施加約束,使其變得平坦,從而保證多視圖的一致性。這在變道場景中尤為明顯,如圖1所示。此外,表示前景目標(biāo)的3D點(diǎn)無法通過運(yùn)動結(jié)構(gòu)(SfM)方法捕獲,且激光雷達(dá)點(diǎn)云稀疏且不完整。因此,我們利用密集的3D模板作為高斯函數(shù)初始化的先驗(yàn),并對這些高斯函數(shù)進(jìn)行微調(diào)以重建場景中的前景目標(biāo)。這使我們能夠引入反射高斯一致性約束,該約束通過利用真實(shí)相機(jī)視圖將前景目標(biāo)所有高斯函數(shù)反射到其對稱平面上來監(jiān)督前景目標(biāo)的不可見部分。最后,為了捕捉前景目標(biāo)的動態(tài)外觀,估計(jì)了不同時(shí)間步長下每個(gè)高斯函數(shù)的殘差球諧函數(shù)??偟膩碚f,主要貢獻(xiàn)有四個(gè)方面:

  1. 將背景進(jìn)行分解,并對道路和天空區(qū)域施加幾何約束,以實(shí)現(xiàn)多視圖一致的光柵化;
  2. 利用3D模板對前景高斯函數(shù)進(jìn)行初始化,并結(jié)合反射高斯一致性約束,通過從對稱可見視圖中重建不可見部分;
  3. 通過估計(jì)時(shí)間依賴的殘差球諧函數(shù)來捕捉前景目標(biāo)的動態(tài)視覺特征;
  4. 在Pandaset和KITTI數(shù)據(jù)集上將AutoSplat與最先進(jìn)(SOTA)方法進(jìn)行了全面比較;

相關(guān)工作

隱式表示與神經(jīng)渲染:體渲染技術(shù),特別是NeRF,已經(jīng)在3D重建和新視圖合成方面取得了顯著進(jìn)展。然而,NeRF面臨著一些挑戰(zhàn),包括訓(xùn)練和渲染速度慢、內(nèi)存使用率高以及幾何估計(jì)不準(zhǔn)確,特別是在視點(diǎn)稀疏的情況下。為了解決訓(xùn)練速度慢的問題,已經(jīng)探索了不同的方法,如體素網(wǎng)格、張量分解以及哈希編碼。為了改善渲染延遲,F(xiàn)asterNeRF設(shè)計(jì)了一種受圖形啟發(fā)的分解方法,以緊湊地緩存空間中每個(gè)位置的深度輻射圖,并使用射線方向有效地查詢該圖。MobileNeRF和BasedSDF通過將隱式體轉(zhuǎn)換為顯式紋理網(wǎng)格來實(shí)現(xiàn)快速的渲染速度。為了解決NeRF渲染質(zhì)量低的問題,Mip-NeRF有效地渲染了抗鋸齒的圓錐形截錐體而不是射線。Mip-NeRF 360通過采用非線性場景參數(shù)化、在線提煉和基于失真的正則化器,解決了從小型圖像集重建大型(無界)場景時(shí)固有的模糊性問題。

使用NeRF進(jìn)行城市場景重建:建模城市級場景具有挑戰(zhàn)性,因?yàn)樾枰幚沓汕先f張具有不同光照條件的圖像,每張圖像僅捕捉到場景的一小部分,這帶來了巨大的計(jì)算需求。MegaNeRF和BlockNeRF將場景劃分為多個(gè)塊,并為每個(gè)塊訓(xùn)練單獨(dú)的NeRF模型。然而,這些方法并沒有對自動駕駛場景中常見的動態(tài)目標(biāo)進(jìn)行建模。NSG和MARS通過引入場景圖來進(jìn)行動態(tài)場景建模。與NSG不同,SUDS解決了在自動駕駛車輛運(yùn)動過程中的重建問題,利用激光雷達(dá)數(shù)據(jù)來改善深度感知,并利用光流來減輕對目標(biāo)標(biāo)注的嚴(yán)格要求。EmerNeRF通過學(xué)習(xí)駕駛場景的空間時(shí)間表示,并通過分層場景和使用誘導(dǎo)流場來提高動態(tài)目標(biāo)的渲染精度。盡管進(jìn)行了優(yōu)化努力和采用了創(chuàng)新策略,但基于NeRF的方法仍然計(jì)算量大,并且需要密集重疊的視圖。此外,模型容量的限制使得在建模具有多個(gè)目標(biāo)的長期動態(tài)場景時(shí)難以保證準(zhǔn)確性,從而導(dǎo)致視覺偽影。

3D Gaussian Splatting(3DGS):3DGS利用了一種顯式的場景表示方法。其核心在于優(yōu)化各向異性的3D高斯函數(shù),這些高斯函數(shù)負(fù)責(zé)場景的忠實(shí)重建,同時(shí)結(jié)合了快速、可見性感知的光柵化算法。這不僅加速了訓(xùn)練過程,還促進(jìn)了實(shí)時(shí)光柵化。然而,由于3DGS假設(shè)場景是靜態(tài)的,并且可用的相機(jī)視角有限,因此它在重建大規(guī)模自動駕駛場景時(shí)仍面臨相當(dāng)大的障礙。此外,3DGS中背景區(qū)域缺乏幾何約束,導(dǎo)致在合成新視圖時(shí)質(zhì)量顯著下降,如圖1所示。最近,PVG在3DGS的基礎(chǔ)上,通過使用基于周期性振動的時(shí)間動態(tài)來模擬自動駕駛場景中的動態(tài)場景。然而,該方法并沒有解決新場景的模擬問題,例如自動駕駛車輛的車道變換和物體軌跡的調(diào)整。相比之下,我們的方法在重建動態(tài)場景和模擬多種新場景方面表現(xiàn)出色,包括改變自動駕駛車輛和前景物體的軌跡。

AutoSplat方法介紹

3DGS通過使用從一組3D點(diǎn)初始化的各向異性3D高斯函數(shù)來顯式地表示一個(gè)場景。它被定義為:

圖片

其中,μ   分別表示每個(gè)3D高斯函數(shù)的中心向量和協(xié)方差矩陣。此外,在3DGS中,每個(gè)高斯函數(shù)都被賦予了一個(gè)不透明度o和顏色c屬性,其中顏色c使用球諧系數(shù)來表示。為了優(yōu)化方便,協(xié)方差矩陣Σ被分解為縮放矩陣S和旋轉(zhuǎn)矩陣R:

圖片

對于可微渲染,3D高斯函數(shù)通過近似其在二維空間中的投影位置和協(xié)方差,被涂抹到圖像平面上。通過根據(jù)高斯函數(shù)在相機(jī)空間中的深度進(jìn)行排序,查詢每個(gè)高斯函數(shù)的屬性,并通過混合N個(gè)重疊高斯函數(shù)的貢獻(xiàn)來計(jì)算像素的最終光柵化顏色C,如下所示:

圖片

給定按順序捕獲和校準(zhǔn)的多傳感器數(shù)據(jù),其中包括由相機(jī)拍攝的N個(gè)圖像序列(Ii),以及相應(yīng)的內(nèi)參(Ki)和外參(Ei)矩陣,還有3D激光雷達(dá)點(diǎn)云Li和對應(yīng)的動態(tài)物體軌跡Ti,我們的目標(biāo)是利用3DGS來重建3D場景,并在任何相機(jī)姿態(tài)下合成新的視圖,同時(shí)賦予新的物體軌跡。提出的方法的概述如圖2所示。首先從重建一個(gè)具有幾何感知的靜態(tài)背景開始。然后,從3D模板中重建前景物體,在建模其動態(tài)外觀的同時(shí),確保可見區(qū)域和不可見區(qū)域之間的一致性。最后將前景和背景高斯函數(shù)融合,以產(chǎn)生精細(xì)且統(tǒng)一的表示。

圖片

1)Background重建

自動駕駛場景既廣闊又無邊界,而傳感器的觀測數(shù)據(jù)則相對稀疏。單純地使用3DGS從這些有限的觀測數(shù)據(jù)中表示背景,對于實(shí)現(xiàn)逼真的重建和模擬是不夠的。此外,用于重建道路和天空區(qū)域的高斯函數(shù)存在幾何上的錯(cuò)誤,并會產(chǎn)生浮動偽影。雖然這些高斯函數(shù)能夠根據(jù)真實(shí)視圖重建場景,但由于其幾何形狀不正確,在模擬新場景(如圖1所示的自動駕駛車輛橫向移動)時(shí)會產(chǎn)生明顯的失真。

為了解決這些問題,提出的框架中背景訓(xùn)練分為兩個(gè)階段進(jìn)行。在第一階段,使用現(xiàn)成的預(yù)訓(xùn)練分割模型獲得的語義掩碼,將道路和天空區(qū)域從背景的其他部分中分解出來。通過在校準(zhǔn)矩陣的幫助下將每個(gè)時(shí)間步i的LiDAR點(diǎn)投影到圖像平面上,每個(gè)高斯函數(shù)都被分配到道路、天空或其他類別之一。這種分解有兩個(gè)目的。首先,這可以防止非天空和非道路的高斯函數(shù)重建天空和道路區(qū)域。其次,當(dāng)涂抹天空和道路高斯函數(shù)時(shí),可以約束它們產(chǎn)生多視圖一致的結(jié)果。由于LiDAR點(diǎn)不包括天空點(diǎn),我們在最大場景高度以上添加了一個(gè)代表天空的平面點(diǎn)集。上述區(qū)域使用和損失項(xiàng)進(jìn)行監(jiān)督。為了確保在涂抹道路和天空高斯函數(shù)時(shí)跨視圖的一致性,這些高斯函數(shù)被約束為平坦的。這是通過最小化它們的翻滾角和俯仰角以及垂直尺度來實(shí)現(xiàn)的。因此,第一階段背景訓(xùn)練的整體損失項(xiàng)定義為:

圖片

其中,和分別表示區(qū)域g的語義掩碼真實(shí)圖像和光柵化圖像,g可以是道路、天空或其他。Cg是對道路和天空區(qū)域施加的約束,其中?i、θi和szi分別表示第i個(gè)高斯函數(shù)的翻滾角、俯仰角以及垂直尺度(沿Z軸)。此外,β用于加權(quán)幾何約束。提出的約束保證了無論視點(diǎn)如何變化,道路和天空高斯函數(shù)的光柵化都能保持一致。

在背景重建的第二階段,將所有高斯函數(shù)合并在一起,并使用LBG對整個(gè)圖像進(jìn)行監(jiān)督,其中g(shù)∈{road ∪ sky ∪ other}。在這一階段,背景的道路、天空和其他區(qū)域被混合以優(yōu)化最終的背景圖像。需要指出的是,在訓(xùn)練的兩個(gè)階段中,都屏蔽了動態(tài)前景區(qū)域。

2)前景重建

盡管自動駕駛場景中存在遮擋和動態(tài)外觀等挑戰(zhàn),但前景重建對于實(shí)現(xiàn)逼真的模擬至關(guān)重要。在此,我們介紹了在3DGS范式中解決這些復(fù)雜性的新策略。

構(gòu)建模板高斯函數(shù) 3DGS在重建前景目標(biāo)時(shí)面臨挑戰(zhàn),因?yàn)樗蕾囉跒殪o態(tài)場景量身定制的運(yùn)動恢復(fù)結(jié)構(gòu)(SfM)技術(shù),并且缺乏運(yùn)動建模能力。為了克服這些限制,我們需要一種替代方法來初始化代表這些前景目標(biāo)的高斯函數(shù)并優(yōu)化其屬性。這可以通過利用隨機(jī)初始化的點(diǎn)、累積的LiDAR掃描或使用單幀或少量幀的3D重建方法來實(shí)現(xiàn)。盡管LiDAR能夠捕獲詳細(xì)的幾何形狀,但它存在盲點(diǎn),并且對于遠(yuǎn)距離物體的表面細(xì)節(jié)捕捉不夠。因此,我們使用具有真實(shí)車輛幾何形狀的3D模板來建模前景目標(biāo)。在提出的方法中,給定包含K個(gè)前景目標(biāo)的幀序列,模板將被復(fù)制K次,并根據(jù)目標(biāo)軌跡放置在場景中。每個(gè)前景目標(biāo)的高斯函數(shù)都從這個(gè)模板初始化,并計(jì)算每個(gè)軸上的縮放因子以調(diào)整模板的大小,以匹配目標(biāo)目標(biāo)3D邊界框的尺寸。在訓(xùn)練過程中,這些模板相關(guān)聯(lián)的高斯函數(shù)會經(jīng)過迭代優(yōu)化,以收斂到目標(biāo)外觀。通過利用模板中豐富的幾何信息,提出的方法提高了前景重建的真實(shí)感和保真度。同時(shí),保留了對模板高斯函數(shù)位置的明確控制,使我們能夠通過修改前景目標(biāo)的軌跡來生成新場景。

圖片

反射高斯一致性:前景目標(biāo)在其結(jié)構(gòu)上展現(xiàn)出對稱性。利用這一假設(shè)有助于提高重建質(zhì)量,特別是在視角受限的場景中。通過在3DGS范式中強(qiáng)制執(zhí)行前景目標(biāo)可見面和對稱不可見面之間的一致性來拓寬這一假設(shè)的應(yīng)用范圍。此過程如圖3所示。更具體地說,對于每個(gè)前景目標(biāo),其高斯函數(shù)會在目標(biāo)的對稱平面上進(jìn)行反射。然后,根據(jù)真實(shí)視圖對反射后的高斯函數(shù)進(jìn)行光柵化和監(jiān)督。這將為不可見的高斯函數(shù)提供監(jiān)督。高斯函數(shù)的反射矩陣M可以定義為:

圖片

其中,a表示反射軸,I表示單位矩陣。每個(gè)高斯函數(shù)的位置x、旋轉(zhuǎn)R和球諧特征通過以下方式進(jìn)行反射:

圖片

其中,是一個(gè)Wigner D-矩陣,用于描述反射,而x?、R?、f?SH分別表示高斯函數(shù)的反射位置、旋轉(zhuǎn)和球諧特征。這種反射一致性約束強(qiáng)制要求目標(biāo)兩側(cè)對稱面的高斯函數(shù)的渲染結(jié)果相似。在推理階段,這使我們的方法能夠在其對稱視圖中光柵化出高質(zhì)量的前景。

動態(tài)外觀建模:捕捉前景目標(biāo)的動態(tài)外觀對于自動駕駛模擬至關(guān)重要。這包括指示燈、前大燈和尾燈等重要信號,它們傳達(dá)意圖并影響駕駛行為。此外,逼真的模擬還需要模擬各種光照條件的變化,如陰影。為了捕捉動態(tài)外觀,通過為每個(gè)高斯函數(shù)學(xué)習(xí)殘差球諧特征來學(xué)習(xí)前景目標(biāo)外觀的4D表示。換句話說,估計(jì)的殘差特征被用于將動態(tài)外觀賦予靜態(tài)表示。在這里使用一個(gè)簡單的多層感知機(jī)(MLP)來模擬動態(tài)外觀,更具體地說,利用時(shí)間嵌入,認(rèn)識到外觀的變化與時(shí)間的演變密切相關(guān)。在每個(gè)時(shí)間步,將相應(yīng)的時(shí)間嵌入、高斯位置和球諧特征輸入到模型中。然后,將估計(jì)的殘差特征添加到原始的球諧特征中。因此,前景目標(biāo)在每個(gè)時(shí)間步的動態(tài)外觀通過以下方式建模:

圖片圖片

3) Scene-Level Fusion

場景級融合包括將前景和背景高斯函數(shù)進(jìn)行混合。當(dāng)分別優(yōu)化時(shí),這兩組高斯函數(shù)在光柵化到一起時(shí)會出現(xiàn)失真,特別是在前景目標(biāo)邊界附近尤為明顯。為了解決這些失真問題,將前景和背景高斯函數(shù)一起進(jìn)行微調(diào),并在整個(gè)圖像上進(jìn)行監(jiān)督。這將生成一個(gè)融合的前景-背景圖像,其中兩個(gè)組件的失真都得到緩解。此外,為了解決目標(biāo)軌跡中的噪聲問題,我們對每個(gè)目標(biāo)優(yōu)化了一個(gè)變換校正,包括旋轉(zhuǎn)和平移偏移。這些校正被應(yīng)用于前景目標(biāo)軌跡,以克服3D邊界框中的噪聲。最終的損失項(xiàng)計(jì)算如下:

圖片

實(shí)驗(yàn)對比

圖片圖片圖片圖片圖片圖片

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-12-26 09:29:12

自動駕駛數(shù)據(jù)

2023-12-28 09:35:59

2024-08-13 12:39:23

2024-12-26 09:17:27

2025-04-03 08:40:00

自動駕駛AI模型

2022-02-18 10:34:58

自動駕駛

2024-05-21 09:46:35

視覺自動駕駛

2021-06-02 06:24:05

計(jì)算機(jī)視覺3D無人駕駛

2024-04-29 08:46:33

2024-05-20 09:52:55

自動駕駛場景

2024-10-28 13:30:00

2021-11-12 14:36:00

智能駕駛汽車

2021-11-03 09:48:08

智能自動駕駛汽車

2022-12-30 14:24:38

自動駕駛

2023-05-06 10:02:37

深度學(xué)習(xí)算法

2023-03-14 09:40:33

自動駕駛

2024-01-31 08:29:30

2024-11-28 09:31:44

2024-10-22 09:40:00

模型生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號