仿真迎來終局?上交&英偉達(dá)提出OmniRe:性能直接拉爆StreetGS四個(gè)點(diǎn)?。?!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
自動(dòng)駕駛仿真重建的終局???上交和英偉達(dá)等團(tuán)隊(duì)最新的工作OmniRe,性能直接拉爆了一眾算法,PSNR超越StreetGS四個(gè)多點(diǎn)?。?!可謂是3DGS的集大成者。具體來說,OmniRe將動(dòng)態(tài)目標(biāo)分為剛體和非剛體,車輛和行人/騎行人的步態(tài)重建的性能非常驚艷!背景是比較常見的background+sky。靜態(tài)要素的重建效果也非常棒,像紅綠燈,車道線等等。
寫在前面&筆者的個(gè)人理解
本文介紹了OmniRe,這是一種高效重建高保真動(dòng)態(tài)城市場景的整體方法。最近使用神經(jīng)輻射場或高斯splatting對(duì)駕駛序列進(jìn)行建模的方法已經(jīng)證明了重建具有挑戰(zhàn)性的動(dòng)態(tài)場景的潛力,但往往忽視了行人和其他非車輛動(dòng)態(tài)參與者,阻礙了動(dòng)態(tài)城市場景重建的完整流程。為此,我們提出了一種用于駕駛場景的全面3DGS框架,稱為OmniRe,它允許對(duì)駕駛過程中的各種動(dòng)態(tài)目標(biāo)進(jìn)行準(zhǔn)確、完整的重建。OmniRe基于高斯表示構(gòu)建動(dòng)態(tài)神經(jīng)場景圖,并構(gòu)建多個(gè)局部規(guī)范空間,對(duì)各種動(dòng)態(tài)參與者進(jìn)行建模,包括車輛、行人和騎行人等。這種能力是現(xiàn)有方法無法比擬的。OmniRe允許我們?nèi)嬷亟▓鼍爸写嬖诘牟煌繕?biāo),隨后能夠?qū)崟r(shí)模擬所有參與者參與的重建場景(~60 Hz)。對(duì)Waymo數(shù)據(jù)集的廣泛評(píng)估表明,我們的方法在定量和定性上都大大優(yōu)于先前最先進(jìn)的方法。我們相信,我們的工作填補(bǔ)了推動(dòng)重建的關(guān)鍵空白。
項(xiàng)目主頁:https://ziyc.github.io/omnire/
文章簡介
隨著自動(dòng)駕駛越來越多地采用端到端模型,對(duì)可擴(kuò)展且無域差異的仿真環(huán)境的需求變得更加明顯,這些環(huán)境可以在閉環(huán)仿真中評(píng)估這些系統(tǒng)。盡管使用藝術(shù)家生成資源的傳統(tǒng)方法在規(guī)模、多樣性和逼真度方面達(dá)到了極限,但數(shù)據(jù)驅(qū)動(dòng)方法在生成數(shù)字孿生體方面的進(jìn)展,通過從設(shè)備日志中重建仿真環(huán)境,提供了強(qiáng)有力的替代方案。確實(shí),神經(jīng)輻射場(NeRFs)和高斯點(diǎn)云(GS)已經(jīng)成為重建具有高視覺和幾何保真度的3D場景的強(qiáng)大工具。然而,準(zhǔn)確且全面地重建動(dòng)態(tài)駕駛場景仍然是一個(gè)重大挑戰(zhàn),特別是由于現(xiàn)實(shí)環(huán)境中多樣化的參與者和運(yùn)動(dòng)類型的復(fù)雜性。
已經(jīng)有若干工作嘗試解決這一挑戰(zhàn)。早期的方法通常忽略動(dòng)態(tài)參與者,僅專注于重建場景的靜態(tài)部分。后續(xù)的工作則旨在通過以下兩種方式之一來重建動(dòng)態(tài)場景:(i) 將場景建模為靜態(tài)和時(shí)間依賴的神經(jīng)場的組合,其中不同場景部分的分解是一種自發(fā)屬性,或者(ii) 構(gòu)建一個(gè)場景圖,其中動(dòng)態(tài)參與者和靜態(tài)背景被表示為節(jié)點(diǎn),并在其標(biāo)準(zhǔn)框架中重建和表示。場景圖的節(jié)點(diǎn)通過編碼相對(duì)變換參數(shù)的邊連接,這些參數(shù)表示每個(gè)參與者隨時(shí)間的運(yùn)動(dòng)。盡管前者是一種更通用的公式化方法,后者提供了更高的可編輯性,并且可以直接用經(jīng)典行為模型進(jìn)行控制。然而,場景圖方法仍然主要關(guān)注可以表示為剛體的車輛,從而在很大程度上忽略了其他在駕駛仿真中至關(guān)重要的易受傷害的道路使用者(VRUs),如行人和騎自行車者。
為了填補(bǔ)這一關(guān)鍵空白,本文的工作旨在對(duì)所有動(dòng)態(tài)參與者進(jìn)行建模,包括車輛、行人和騎自行車者等。與在工作室中使用多視角系統(tǒng)建模目標(biāo)不同,從室外場景中重建動(dòng)態(tài)參與者極具挑戰(zhàn)性。以人類為例,從部分觀察中重建人類本身就是一個(gè)具有挑戰(zhàn)性的問題,在駕駛場景中,由于傳感器觀察分布不利、環(huán)境復(fù)雜且頻繁遮擋,這一問題變得更加復(fù)雜。事實(shí)上,即使是最先進(jìn)的人體姿態(tài)預(yù)測(cè)模型,也常常難以預(yù)測(cè)出準(zhǔn)確的姿態(tài),特別是對(duì)于那些距離較遠(yuǎn)或被其他物體遮擋的行人(例如圖3)。此外,還有其他動(dòng)態(tài)參與者,如輪椅上的個(gè)人或推嬰兒車的人,這些都無法簡單地用參數(shù)化模型來進(jìn)行建模。
為了應(yīng)對(duì)這些相互強(qiáng)化的挑戰(zhàn),本文提出了一個(gè)能夠處理多樣化參與者的“全景”系統(tǒng)。本文的方法OmniRe高效地重建了包含靜態(tài)背景、駕駛車輛和非剛性運(yùn)動(dòng)動(dòng)態(tài)參與者的高保真動(dòng)態(tài)駕駛場景(見圖1)。具體來說,本文基于高斯點(diǎn)云表示構(gòu)建了一個(gè)動(dòng)態(tài)神經(jīng)場景圖,并為不同的動(dòng)態(tài)參與者構(gòu)建了專用的局部標(biāo)準(zhǔn)空間。遵循“因材施教”的原則,OmniRe利用了不同表示方法的集體優(yōu)勢(shì):(i) 車輛被建模為靜態(tài)高斯,通過剛體變換模擬其隨時(shí)間的運(yùn)動(dòng);(ii) 近距離行走的行人使用基于模板的SMPL模型進(jìn)行擬合,通過線性混合蒙皮權(quán)重(linear blend skinning weights)實(shí)現(xiàn)關(guān)節(jié)級(jí)控制;(iii) 遠(yuǎn)距離和其他無模板的動(dòng)態(tài)參與者則使用自監(jiān)督變形場(deformation fields)進(jìn)行重建。這種組合允許對(duì)場景中大多數(shù)感興趣的目標(biāo)進(jìn)行準(zhǔn)確表示和可控重建。更重要的是,本文的表示方法可以直接適用于自動(dòng)駕駛仿真中常用的行為和動(dòng)畫模型(例如圖1-(c))。
總結(jié)來說,本文的主要貢獻(xiàn)如下:
- 本文提出了OmniRe,這是一種動(dòng)態(tài)駕駛場景重建的整體框架,在參與者覆蓋和表示靈活性方面體現(xiàn)了“全景”原則。OmniRe利用基于高斯表示的動(dòng)態(tài)神經(jīng)場景圖來統(tǒng)一重建靜態(tài)背景、駕駛車輛和非剛性運(yùn)動(dòng)的動(dòng)態(tài)參與者(第4節(jié))。它能夠?qū)崿F(xiàn)高保真的場景重建,從新視角進(jìn)行傳感器仿真,以及實(shí)時(shí)可控的場景編輯。
- 本文解決了從駕駛?cè)罩局薪H祟惡推渌麆?dòng)態(tài)參與者所面臨的挑戰(zhàn),例如遮擋、復(fù)雜環(huán)境以及現(xiàn)有人體姿態(tài)預(yù)測(cè)模型的局限性。本文的研究結(jié)果基于自動(dòng)駕駛場景,但可以推廣到其他領(lǐng)域。
- 本文進(jìn)行了大量實(shí)驗(yàn)和消融研究,以展示本文整體表示方法的優(yōu)勢(shì)。OmniRe在場景重建和新視點(diǎn)合成(NVS)方面達(dá)到了最先進(jìn)的性能,在完整圖像指標(biāo)上顯著超越了以往的方法(重建提高了1.88的PSNR,NVS提高了2.38的PSNR)。對(duì)于動(dòng)態(tài)參與者,如車輛(提高了1.18的PSNR)和人類(重建提高了4.09的PSNR,NVS提高了3.06的PSNR),差異尤為顯著。
相關(guān)工作回顧
動(dòng)態(tài)場景重建。神經(jīng)表征是主導(dǎo)的新視角合成。這些已經(jīng)以不同的方式進(jìn)行了擴(kuò)展,以實(shí)現(xiàn)動(dòng)態(tài)場景重建。基于變形的方法和最近的DeformableGS提出使用規(guī)范空間的3D神經(jīng)表示來對(duì)動(dòng)態(tài)場景進(jìn)行建模,并結(jié)合將時(shí)間依賴觀測(cè)值映射到規(guī)范變形的變形網(wǎng)絡(luò)。這些通常僅限于運(yùn)動(dòng)受限的小場景,不足以應(yīng)對(duì)具有挑戰(zhàn)性的城市動(dòng)態(tài)場景?;谡{(diào)制的技術(shù)通過直接將圖像時(shí)間戳(或潛碼)作為神經(jīng)表示的額外輸入來操作。然而,這通常會(huì)導(dǎo)致公式構(gòu)建不足,因此需要額外的監(jiān)督,例如深度和光流(Video NeRF和NSFF),或從同步相機(jī)捕獲的多視圖輸入(DyNeRF和Dynamic3DGS)。D2NeRF提出通過將場景劃分為靜態(tài)和動(dòng)態(tài)場來擴(kuò)展這一公式。在此之后,SUDS和EmerNeRF在動(dòng)態(tài)自動(dòng)駕駛場景中表現(xiàn)出了令人印象深刻的重建能力。然而,它們使用單個(gè)動(dòng)態(tài)場對(duì)所有動(dòng)態(tài)元素進(jìn)行建模,而不是分別建模,因此它們?nèi)狈煽匦?,限制了它們作為傳感器模擬器的實(shí)用性。將場景顯式分解為單獨(dú)的代理可以單獨(dú)控制它們。這些代理可以表示為場景圖中的邊界框,如神經(jīng)場景圖(NSG),該圖在UniSim、MARS、NeuRAD、ML-NSG和最近的基于高斯的作品StreetGaussians、DrivingGaussians和HUGS中被廣泛采用。然而,由于時(shí)間無關(guān)表示的限制或基于變形的技術(shù)的限制,這些方法僅處理剛性目標(biāo)。為了解決這些問題,OmniRe提出了一種高斯場景圖,該圖結(jié)合了剛性和非剛性目標(biāo)的各種高斯表示,為各種參與者提供了額外的靈活性和可控性。
人體重建。人體具有可變的外觀和復(fù)雜的運(yùn)動(dòng),需要專門的建模技術(shù)。NeuMan建議使用SMPL身體模型將射線點(diǎn)扭曲到規(guī)范空間。這種方法能夠重建非剛性人體,并保證精細(xì)控制。同樣,最近的研究,如GART、GauHuman和HumanGaussians,將高斯表示和SMPL模型相結(jié)合。然而,這些方法在野外并不直接適用。然而,這些方法僅關(guān)注形狀和姿態(tài)估計(jì),在外觀建模方面存在局限性。相比之下,我們的方法不僅對(duì)人體外觀進(jìn)行建模,還將這種建模整合到一個(gè)整體的場景框架中,以實(shí)現(xiàn)全面的解決方案。城市場景通常涉及眾多行人,觀察稀少,通常伴隨著嚴(yán)重的遮擋。
OmniRe方法詳解
如圖2所示,OmniRe構(gòu)建了一個(gè)高斯場景圖表示,它全面覆蓋了靜態(tài)背景和各種可移動(dòng)實(shí)體。
Dynamic Gaussian Scene Graph Modeling
Gaussian Scene Graph:為了在不犧牲重建質(zhì)量的情況下靈活控制場景中的各種可移動(dòng)目標(biāo),本文選擇高斯場景圖表示。我們的場景圖由以下節(jié)點(diǎn)組成:(1)一個(gè)表示遠(yuǎn)離自車的天空的天空節(jié)點(diǎn),(2)一個(gè)代表建筑物、道路和植被等靜態(tài)場景背景的背景節(jié)點(diǎn),(3)一組剛性節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)可剛性移動(dòng)的物體,如車輛,(4)一組模擬行人或騎行人的非剛性節(jié)點(diǎn)。類型為(2,3,4)的節(jié)點(diǎn)可以直接轉(zhuǎn)換為世界空間高斯分布。這些高斯分布被連接起來,并使用[17]中提出的光柵化器進(jìn)行渲染。天空節(jié)點(diǎn)由一個(gè)優(yōu)化的環(huán)境紋理貼圖表示,單獨(dú)渲染,并與具有簡單阿爾法混合的光柵化高斯圖像組成。
Background Node:背景節(jié)點(diǎn)由一組靜態(tài)高斯表示。這些高斯是通過累積激光雷達(dá)點(diǎn)和隨機(jī)生成的額外點(diǎn)來初始化的。
Rigid Nodes:剛性目標(biāo)由該目標(biāo)的局部空間和車輛位姿表示。
Non-Rigid Nodes:與剛性車輛不同,行人和騎行人等非剛性動(dòng)態(tài)類都與人類有關(guān),需要額外考慮他們?cè)谑澜缈臻g中的全局運(yùn)動(dòng)和在局部空間中的連續(xù)變形,以準(zhǔn)確重建他們的動(dòng)態(tài)。為了能夠完全解釋底層幾何結(jié)構(gòu)的重建,我們將非剛性節(jié)點(diǎn)進(jìn)一步細(xì)分為兩類:用于步行或跑步行人的SMPL節(jié)點(diǎn),具有支持關(guān)節(jié)水平控制的SMPL模板,以及用于分布外的非剛性實(shí)例(如騎自行車者和其他無模板的動(dòng)態(tài)實(shí)體)的可變形節(jié)點(diǎn)。
Non-Rigid SMPL Nodes:SMPL提供了一種表示人體姿態(tài)和變形的參數(shù)化方法,因此我們使用模型參數(shù)來驅(qū)動(dòng)節(jié)點(diǎn)內(nèi)的3D高斯分布。
Non-Rigid Deformable Nodes:這些節(jié)點(diǎn)充當(dāng)分布外非剛性實(shí)例的回退選項(xiàng),例如,即使是最先進(jìn)的SMPL預(yù)測(cè)器也無法提供準(zhǔn)確估計(jì)的極其遙遠(yuǎn)的行人;或長尾模板較少的非剛性實(shí)例。因此,我們建議使用通用的變形網(wǎng)絡(luò)來擬合節(jié)點(diǎn)內(nèi)的非剛性運(yùn)動(dòng)。具體來說,對(duì)于節(jié)點(diǎn)h,世界空間高斯分布定義為:
Sky Node:同[6,47]一樣,本文使用單獨(dú)的環(huán)境地圖來適應(yīng)觀察方向的天空顏色。我們得到的最終渲染結(jié)果如下:
Reconstructing In-the-Wild Humans
為了初始化非剛性SMPL節(jié)點(diǎn)的參數(shù),我們擴(kuò)展了一個(gè)現(xiàn)成的預(yù)測(cè)器4D Humans,該預(yù)測(cè)器根據(jù)原始視頻輸入估計(jì)人體姿勢(shì)。然而它存在幾個(gè)實(shí)際限制,阻礙了它在我們的環(huán)境中的可用性。我們通過以下模塊討論并解決這些挑戰(zhàn),以在頻繁遮擋的情況下,從野外拍攝的多視圖圖像中預(yù)測(cè)準(zhǔn)確且時(shí)間一致的人體姿勢(shì)。
- Human ID Matching:4D Humans僅設(shè)計(jì)用于處理單目視頻。在我們的環(huán)視設(shè)置中,這種限制導(dǎo)致同一個(gè)人在不同視圖之間失去聯(lián)系(圖3(a))。為了解決這個(gè)問題,我們使用檢測(cè)和GT框之間的mIoU將檢測(cè)到的人的估計(jì)姿態(tài)與數(shù)據(jù)集中的GT ID進(jìn)行匹配,確保在環(huán)視中一致地識(shí)別出每個(gè)行人。
- Missing Pose Completion:4D Humans很難預(yù)測(cè)被占用個(gè)體的SMPL姿勢(shì),這在自動(dòng)駕駛場景中很常見,導(dǎo)致預(yù)測(cè)缺失。我們通過從相鄰幀中插值姿勢(shì)來恢復(fù)丟失的姿勢(shì)。如圖3(b)所示,該過程能夠?yàn)楸徽加玫膫€(gè)體恢復(fù)準(zhǔn)確的姿勢(shì),從而實(shí)現(xiàn)暫時(shí)完整的姿勢(shì)序列。
- Scene-Pose Alignment:作為一個(gè)與相機(jī)無關(guān)的通用模型,4D Humans假設(shè)一個(gè)虛擬相機(jī)的所有視頻輸入?yún)?shù)都是固定的。相比之下,真實(shí)的相機(jī)具有不同的參數(shù)。這會(huì)導(dǎo)致預(yù)測(cè)姿勢(shì)的比例和位置與現(xiàn)實(shí)世界坐標(biāo)系之間的錯(cuò)位。我們使用每個(gè)人可用的box大小和位置數(shù)據(jù)來校正預(yù)測(cè)姿勢(shì)的比例和位置。
- Pose Refinement:姿態(tài)預(yù)測(cè)器、插值和對(duì)齊估計(jì)的誤差會(huì)導(dǎo)致人體姿態(tài)噪聲。我們利用這些嘈雜的姿態(tài)來初始化SMPL節(jié)點(diǎn)的動(dòng)態(tài),并在訓(xùn)練過程中通過優(yōu)化重建損失來聯(lián)合細(xì)化每個(gè)個(gè)體的每幀姿態(tài)。我們的消融研究表明,人體姿態(tài)細(xì)化對(duì)于提高重建質(zhì)量和姿態(tài)精度至關(guān)重要。
整體的訓(xùn)練損失如下:
實(shí)驗(yàn)結(jié)果
我們使用每10幀作為NVS的測(cè)試集,在場景重建和新視圖合成(NVS)任務(wù)中評(píng)估我們的方法。我們報(bào)告了完整圖像以及與人類和車輛相關(guān)區(qū)域的PSNR和SSIM評(píng)分,以評(píng)估動(dòng)態(tài)重建能力。表1中的定量結(jié)果表明,OmniRe優(yōu)于所有其他方法,在與人類相關(guān)的區(qū)域有顯著的優(yōu)勢(shì),驗(yàn)證了我們對(duì)動(dòng)態(tài)參與者的整體建模。此外,雖然StreetGS和我們的方法以類似的方式對(duì)車輛進(jìn)行建模,但我們觀察到,即使在車輛區(qū)域,OmniRe也略優(yōu)于StreetGS。這是由于StreetGS中缺乏人體建模,這使得來自人體區(qū)域的監(jiān)控信號(hào)(如顏色、激光雷達(dá)深度)會(huì)錯(cuò)誤地影響車輛建模。StreetGS面臨的問題是我們對(duì)場景中幾乎所有內(nèi)容進(jìn)行整體建模的動(dòng)機(jī)之一,旨在消除錯(cuò)誤的監(jiān)督和意外的梯度傳播。
此外,我們?cè)趫D4中顯示了可視化,以定性評(píng)估模型性能。盡管PVG在場景重建任務(wù)中表現(xiàn)良好,但在高度動(dòng)態(tài)的場景中,它難以完成新穎的視圖合成任務(wù),導(dǎo)致新穎視圖中的動(dòng)態(tài)目標(biāo)模糊(圖4-f)。HUGS(圖4-e)、StreetGS(圖4-d)和3DGS(圖10-h)無法恢復(fù)行人,因?yàn)樗鼈儫o法對(duì)非剛性物體進(jìn)行建模。DeformableGS(圖10-g)在具有快速運(yùn)動(dòng)的室外動(dòng)態(tài)場景中會(huì)出現(xiàn)極端運(yùn)動(dòng)模糊,盡管在室內(nèi)場景和小運(yùn)動(dòng)的情況下取得了合理的性能。EmerNeRF在一定程度上重建了移動(dòng)的人類和車輛的粗略結(jié)構(gòu),但難以處理精細(xì)的細(xì)節(jié)(圖4-c)。與所有這些方法相比,我們的方法忠真實(shí)地重建了場景中任何目標(biāo)的精細(xì)細(xì)節(jié),處理了遮擋、變形和極端運(yùn)動(dòng)。我們建議讀者查看我們的項(xiàng)目頁面,了解這些方法的視頻比較。
幾何形狀。除了外觀,我們還研究了OmniRe是否可以重建城市場景的精細(xì)幾何。我們?cè)u(píng)估了訓(xùn)練幀和新幀上激光雷達(dá)深度重建的均方根誤差RMSE和CD。附錄中提供了評(píng)估程序的詳細(xì)信息。表4報(bào)告了結(jié)果。我們的方法遠(yuǎn)遠(yuǎn)優(yōu)于其他方法。圖5顯示了與其他方法相比,我們的方法實(shí)現(xiàn)的動(dòng)態(tài)參與者的精確重建。
結(jié)論
我們的方法OmniRe使用高斯場景圖進(jìn)行全面的城市場景建模。它實(shí)現(xiàn)了快速、高質(zhì)量的重建和渲染,為自動(dòng)駕駛和機(jī)器人模擬帶來了希望。我們還為復(fù)雜環(huán)境中的人體建模提供了解決方案。未來的工作包括自我監(jiān)督學(xué)習(xí)、改進(jìn)的場景表示和安全/隱私考慮。
更廣泛的影響。我們的方法旨在解決自動(dòng)駕駛模擬中的一個(gè)重要問題。這種方法有可能加強(qiáng)自動(dòng)駕駛汽車的開發(fā)和測(cè)試,從而可能帶來更安全、更高效的自動(dòng)駕駛系統(tǒng)。以安全可控的方式進(jìn)行模擬仍然是一個(gè)開放且具有挑戰(zhàn)性的研究問題。
道德與隱私。我們的工作不包括收集或注釋新數(shù)據(jù)。我們使用符合嚴(yán)格道德準(zhǔn)則的成熟公共數(shù)據(jù)集。這些數(shù)據(jù)集確保敏感信息(包括可識(shí)別的人類特征)被模糊或匿名化,以保護(hù)個(gè)人隱私。我們致力于確保我們的方法以及未來的應(yīng)用程序以負(fù)責(zé)任和道德的方式使用,以維護(hù)安全和隱私。
限制。OmniRe仍然存在一些局限性。首先,我們的方法沒有明確地模擬光照效果,這可能會(huì)導(dǎo)致模擬過程中的視覺和諧問題,特別是在組合在不同光照條件下重建的元素時(shí)。應(yīng)對(duì)這一不平凡的挑戰(zhàn)需要我們?cè)诋?dāng)前工作范圍之外做出不懈的努力。對(duì)光效建模和增強(qiáng)模擬真實(shí)感的進(jìn)一步研究對(duì)于實(shí)現(xiàn)更令人信服和和諧的結(jié)果仍然至關(guān)重要。其次,與其他每場景優(yōu)化方法類似,當(dāng)相機(jī)明顯偏離訓(xùn)練軌跡時(shí),OmniRe會(huì)產(chǎn)生不太令人滿意的新視圖。我們認(rèn)為,整合數(shù)據(jù)驅(qū)動(dòng)的先驗(yàn),如圖像或視頻生成模型,是未來探索的一個(gè)有前景的方向。






