專(zhuān)為自動(dòng)駕駛而生!DeSiRe-GS:徹底摒棄3D框,動(dòng)靜態(tài)重建完美解耦(UC Berkeley最新)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫(xiě)在前面 & 個(gè)人理解
UC Berkeley最新的工作,提出了DeSiRe GS。全新自監(jiān)督高斯飛濺表示,可以在復(fù)雜的駕駛場(chǎng)景中實(shí)現(xiàn)有效的靜態(tài)-動(dòng)態(tài)分解和高保真表面重建。我們的方法采用動(dòng)態(tài)街道高斯的兩階段優(yōu)化流水線。在第一階段,由于3DGS只能重建動(dòng)態(tài)環(huán)境中的靜態(tài)區(qū)域,因此首先提取2D運(yùn)動(dòng)目標(biāo)mask。然后這些提取的2D運(yùn)動(dòng)先驗(yàn)以可微的方式映射到高斯空間,在第二階段利用動(dòng)態(tài)高斯的有效公式。結(jié)合引入的幾何正則化,我們的方法能夠解決自動(dòng)駕駛中數(shù)據(jù)稀疏引起的過(guò)擬合問(wèn)題,重建與物體表面對(duì)齊而不是漂浮在空中的物理上合理的高斯分布。此外,我們引入了時(shí)間跨視圖一致性,以確保跨時(shí)間和視點(diǎn)的一致性,從而實(shí)現(xiàn)高質(zhì)量的表面重建。綜合實(shí)驗(yàn)證明了DeSiRe GS的效率和有效性,超越了先前的自監(jiān)督技術(shù),實(shí)現(xiàn)了與依賴外部3D邊界框標(biāo)注的方法相當(dāng)?shù)臏?zhǔn)確性。
- 開(kāi)源鏈接:https://github.com/chengweialan/DeSiRe-GS
總結(jié)來(lái)說(shuō),本文的主要貢獻(xiàn)如下:
- 本文基于3DGS無(wú)法成功建模動(dòng)態(tài)區(qū)域的簡(jiǎn)單觀察,從外觀差異中輕松提取運(yùn)動(dòng)信息。
- 然后以可微的方式使用time-varying高斯將提取的局部幀中的2D運(yùn)動(dòng)先驗(yàn)提取到全局高斯空間中。
- 引入了有效的3D正則化和時(shí)間交叉視圖一致性,以生成物理上合理的高斯球,進(jìn)一步增強(qiáng)高質(zhì)量的分解和重建。
相關(guān)工作回顧
城市場(chǎng)景重建。新視圖合成的最新進(jìn)展,如神經(jīng)輻射場(chǎng)(NeRF)和3D高斯散斑(3DGS),顯著推進(jìn)了城市場(chǎng)景重建。許多研究已經(jīng)將NeRF集成到自動(dòng)駕駛的工作流程中。Urban Radiance Fields結(jié)合了激光雷達(dá)和RGB數(shù)據(jù),而B(niǎo)lock NeRF和Mega NeRF則對(duì)大型場(chǎng)景進(jìn)行了分區(qū),以進(jìn)行并行訓(xùn)練。然而,動(dòng)態(tài)環(huán)境帶來(lái)了挑戰(zhàn)。NSG使用神經(jīng)場(chǎng)景圖來(lái)分解動(dòng)態(tài)場(chǎng)景,SUDS引入了一個(gè)用于4D場(chǎng)景表示的多分支哈希表。EmerNeRF和RoDUS等自我監(jiān)督方法可以有效地應(yīng)對(duì)動(dòng)態(tài)場(chǎng)景挑戰(zhàn)。EmerNeRF通過(guò)場(chǎng)景流估計(jì)捕獲目標(biāo)對(duì)應(yīng)關(guān)系,RoDUS利用基于核的魯棒訓(xùn)練策略結(jié)合語(yǔ)義監(jiān)督。
在基于3DGS的城市重建中,最近的工作引起了人們的關(guān)注。StreetGaussians使用球諧函數(shù)分別對(duì)靜態(tài)和動(dòng)態(tài)場(chǎng)景進(jìn)行建模,而DrivingGaussian引入了用于靜態(tài)背景和動(dòng)態(tài)目標(biāo)重建的特定模塊。OmniRe通過(guò)動(dòng)態(tài)高斯場(chǎng)景圖統(tǒng)一了靜態(tài)和動(dòng)態(tài)對(duì)象重建。
靜態(tài)動(dòng)態(tài)分解。幾種方法試圖對(duì)動(dòng)態(tài)和靜態(tài)部件的變形進(jìn)行建模。D-NeRF、Nerfiles、Deformable GS和4D-GS通過(guò)引入變形場(chǎng)擴(kuò)展了vanilla NeRF或3DGS。他們計(jì)算規(guī)范到觀測(cè)的轉(zhuǎn)換,并通過(guò)變形網(wǎng)絡(luò)分離靜態(tài)和動(dòng)態(tài)組件。然而,由于學(xué)習(xí)密集變形參數(shù)需要大量的計(jì)算資源,將這些方法應(yīng)用于大規(guī)模駕駛場(chǎng)景具有挑戰(zhàn)性,不準(zhǔn)確的分解會(huì)導(dǎo)致次優(yōu)性能。
對(duì)于自動(dòng)駕駛場(chǎng)景,NSG將動(dòng)態(tài)和靜態(tài)部分建模為神經(jīng)場(chǎng)景圖中的節(jié)點(diǎn),但需要額外的3D注釋。其他基于NeRF的方法利用多分支結(jié)構(gòu)分別訓(xùn)練時(shí)變和時(shí)不變特征。基于3DGS的方法,也側(cè)重于靜態(tài)-動(dòng)態(tài)分離,但仍面臨局限性。PVG為每個(gè)高斯函數(shù)分配速度和壽命等屬性,區(qū)分靜態(tài)和動(dòng)態(tài)。然而,這種分離仍然不完整,缺乏徹底性。
神經(jīng)表面重建。傳統(tǒng)的神經(jīng)曲面重建方法更側(cè)重于真實(shí)的幾何結(jié)構(gòu)。隨著神經(jīng)輻射場(chǎng)(NeRF)技術(shù)的興起,神經(jīng)隱式表示顯示出高保真表面重建的前景。StreetSurf建議在城市環(huán)境中解開(kāi)近景和遠(yuǎn)景,以更好地進(jìn)行隱式表面重建。
3D GS重新引起了人們對(duì)顯式幾何重建的興趣,最近的工作側(cè)重于幾何正則化技術(shù)。SuGaR通過(guò)引入和附加正則化項(xiàng)將高斯橢球體與物體表面對(duì)齊,而2DGS直接用2D圓盤(pán)替換3D橢球體,并利用截?cái)喾?hào)距離函數(shù)(TSDF)融合深度圖,實(shí)現(xiàn)無(wú)噪聲的表面重建。PGSR引入了單視圖和多視圖正則化,以實(shí)現(xiàn)多視圖一致性。GSDF和NeuSG將3D高斯與神經(jīng)隱式SDF相結(jié)合,以增強(qiáng)表面細(xì)節(jié)。TrimGS通過(guò)修剪不準(zhǔn)確的幾何體來(lái)細(xì)化表面結(jié)構(gòu),保持與3DGS和2DGS等早期方法的兼容性。雖然這些方法在小規(guī)模重建中表現(xiàn)出色,但較新的作品旨在解決大規(guī)模的城市場(chǎng)景。RoGS提出了與路面物理特性相一致的2D高斯曲面表示。
DeSiRe-GS方法詳解
如圖2所示,訓(xùn)練過(guò)程分為兩個(gè)階段。我們首先通過(guò)計(jì)算渲染圖像和GT圖像之間的特征差來(lái)提取2D運(yùn)動(dòng)mask。在第二階段,我們使用PVG將2D運(yùn)動(dòng)信息提取到高斯空間中,從而能夠以可微的方式糾正每個(gè)高斯的不準(zhǔn)確屬性。
Dynamic Mask Extraction (stage I)
在第一階段,我們觀察到3D高斯散斑(3DGS)在重建靜態(tài)元素方面表現(xiàn)良好,例如駕駛場(chǎng)景中停放的汽車(chē)和建筑物。然而它很難準(zhǔn)確地重建動(dòng)態(tài)區(qū)域,因?yàn)樵嫉?DGS沒(méi)有包含時(shí)間信息。如圖2(階段1)所示,這種限制會(huì)導(dǎo)致渲染圖像中出現(xiàn)重影狀浮點(diǎn)等偽影。為了解決這個(gè)問(wèn)題,我們利用靜態(tài)和動(dòng)態(tài)區(qū)域之間的顯著差異,開(kāi)發(fā)了一種有效的方法來(lái)提取編碼運(yùn)動(dòng)信息的分割mask。
最初,采用預(yù)訓(xùn)練的基礎(chǔ)模型從渲染圖像和用于監(jiān)督的GT圖像中提取特征。設(shè)F表示從渲染圖像I中提取的特征,F(xiàn)表示從GT圖像I中抽取的特征。為了區(qū)分動(dòng)態(tài)和靜態(tài)區(qū)域,我們計(jì)算相應(yīng)特征之間的每像素相異度D。相異度度量D對(duì)于類(lèi)似特征接近0,表示靜態(tài)區(qū)域,對(duì)于不同特征接近1,對(duì)應(yīng)于動(dòng)態(tài)區(qū)域。
當(dāng)預(yù)訓(xùn)練模型被凍結(jié)時(shí),計(jì)算出的相異度得分不涉及任何可學(xué)習(xí)的參數(shù)。我們提出了一種多層感知器(MLP)解碼器來(lái)預(yù)測(cè)動(dòng)態(tài)度δ,而不是對(duì)D應(yīng)用簡(jiǎn)單的閾值來(lái)生成運(yùn)動(dòng)分割mask。該解碼器利用提取的特征,其中包含豐富的語(yǔ)義信息,同時(shí)采用相異性得分來(lái)指導(dǎo)和優(yōu)化解碼器的學(xué)習(xí)過(guò)程。
通過(guò)采用等式7中定義的損失函數(shù),解碼器被優(yōu)化以預(yù)測(cè)與動(dòng)態(tài)區(qū)域?qū)?yīng)的D較高的區(qū)域中的較低值,從而最小化損失。然后,我們可以獲得二進(jìn)制掩碼編碼運(yùn)動(dòng)信息(ε是固定閾值):
在訓(xùn)練過(guò)程中,圖像渲染和mask預(yù)測(cè)的聯(lián)合優(yōu)化是相輔相成的。通過(guò)在監(jiān)控過(guò)程中排除動(dòng)態(tài)區(qū)域,渲染圖像和GT圖像之間的差異變得更加明顯,從而有助于提取運(yùn)動(dòng)蒙版。
Static Dynamic Decomposition (stage II)
雖然第一階段提供了有效的動(dòng)態(tài)mask,但這些mask僅限于圖像空間而不是3D高斯空間,并且依賴于GT圖像。這種依賴性限制了它們?cè)谛滦鸵晥D合成中的適用性,在這種情況下,監(jiān)督圖像可能不可用。
為了將2D運(yùn)動(dòng)信息從第一階段橋接到3D高斯空間,我們采用了PVG,一種動(dòng)態(tài)場(chǎng)景的統(tǒng)一表示(第3節(jié))。然而,PVG對(duì)圖像和稀疏深度圖監(jiān)督的依賴帶來(lái)了挑戰(zhàn),因?yàn)楹茈y從間接監(jiān)督信號(hào)中學(xué)習(xí)到準(zhǔn)確的運(yùn)動(dòng)模式。因此,如圖2(第2階段)所示,渲染的速度圖V通常包含噪聲異常值。例如,速度應(yīng)為零的道路和建筑物等靜態(tài)區(qū)域沒(méi)有得到有效處理。這導(dǎo)致場(chǎng)景分解不令人滿意,PVG經(jīng)常對(duì)預(yù)期速度為零的區(qū)域進(jìn)行錯(cuò)誤分類(lèi)。
為了緩解這個(gè)問(wèn)題并生成更精確的高斯表示,我們結(jié)合了從第一階段獲得的分割mask來(lái)正則化2D速度圖V,該速度圖V是從3D空間中的高斯圖渲染的。
最小化Lv會(huì)懲罰速度應(yīng)為零的區(qū)域,有效地消除了原始PVG產(chǎn)生的噪聲異常值。該過(guò)程將運(yùn)動(dòng)信息從2D局部幀傳播到全局高斯空間。對(duì)于每個(gè)高斯分布,通過(guò)應(yīng)用一個(gè)簡(jiǎn)單的閾值,可以區(qū)分動(dòng)態(tài)和靜態(tài)高斯分布。與PVG和S3Gaussian相比,這種方法實(shí)現(xiàn)了更優(yōu)的自監(jiān)督分解,而不需要額外的3D標(biāo)注,如之前方法中使用的邊界框。
Surface Reconstruction
Geometric Regularization
Flattening 3D高斯:受2D高斯散斑(2DGS)的啟發(fā),我們的目標(biāo)是將3D橢球體壓平成2D圓盤(pán),使優(yōu)化的高斯更好地符合物體表面,并實(shí)現(xiàn)高質(zhì)量的表面重建。3DGS的尺度s=(s1,s2,s3)定義了橢球體沿三個(gè)正交軸的大小。最小化沿最短軸的比例有效地將3D橢球體轉(zhuǎn)換為2D磁盤(pán)??s放正則化損失為:
法線推導(dǎo):曲面法線對(duì)于曲面重建至關(guān)重要。以前的方法通過(guò)向每個(gè)高斯函數(shù)附加一個(gè)法向量來(lái)合并法線,然后使用該法向量來(lái)渲染法線圖N。使用地面真值法線圖來(lái)監(jiān)督高斯法線的優(yōu)化。然而,這些方法往往無(wú)法實(shí)現(xiàn)精確的表面重建,因?yàn)樗鼈兒雎粤顺叨群头ň€之間的內(nèi)在關(guān)系。我們不附加單獨(dú)的法向量,而是直接從尺度向量s中推導(dǎo)出法向量n。法向量方向自然與對(duì)應(yīng)于最小尺度分量的軸對(duì)齊,因?yàn)楦咚乖谡蛊秸齽t化后形狀像圓盤(pán)。
通過(guò)這種法線公式,梯度可以反向傳播到尺度向量,而不是附加的法線向量,從而促進(jìn)高斯參數(shù)的更好優(yōu)化。正常損失是:
Giant高斯正則化:我們觀察到,3DGS和PVG都可以在不進(jìn)行額外正則化的情況下產(chǎn)生超大高斯橢球,特別是在無(wú)界驅(qū)動(dòng)場(chǎng)景中,如圖3(a)所示。
我們的主要目標(biāo)是擬合適當(dāng)縮放的高斯分布,以支持精確的圖像渲染和表面重建。雖然具有低不透明度的超大高斯橢球體對(duì)渲染圖像的影響可能很小,但它們會(huì)嚴(yán)重?fù)p害表面重建。這是一個(gè)在僅關(guān)注2D圖像渲染的現(xiàn)有方法中經(jīng)常被忽視的局限性。為了解決這個(gè)問(wèn)題,我們?yōu)槊總€(gè)高斯函數(shù)引入了一個(gè)懲罰項(xiàng):
Temporal Spatial Consistency
在駕駛場(chǎng)景中,視圖的稀疏性通常會(huì)導(dǎo)致高斯優(yōu)化過(guò)程中對(duì)訓(xùn)練視圖的過(guò)擬合。單視圖圖像丟失特別容易受到遠(yuǎn)距離無(wú)紋理區(qū)域的挑戰(zhàn)。因此,依賴圖像和稀疏深度圖的光度監(jiān)督是不可靠的。為了解決這個(gè)問(wèn)題,我們建議通過(guò)利用時(shí)間交叉視圖信息來(lái)增強(qiáng)幾何一致性。
在假設(shè)靜態(tài)區(qū)域的深度在不同視圖之間隨時(shí)間保持一致的情況下,我們引入了一個(gè)跨視圖時(shí)空一致性模塊。對(duì)于參考系中深度值為dr的靜態(tài)像素(ur,vr),我們將其投影到最近的相鄰視圖——重疊最大的視圖。使用相機(jī)內(nèi)部函數(shù)K和外部函數(shù)Tr、Tn,相鄰視圖中的相應(yīng)像素位置計(jì)算如下:
然后,我們查詢相鄰視圖中(un,vn)處的深度值dn。將其投影回3D空間,得到的位置應(yīng)與通過(guò)將(ur,vr,dr)反向投影到參考系而獲得的位置對(duì)齊:
為了加強(qiáng)交叉視圖深度一致性,我們應(yīng)用幾何損失來(lái)優(yōu)化高斯分布,定義為:
這種損失促使高斯人隨著時(shí)間的推移在視圖中產(chǎn)生幾何一致的深度。
優(yōu)化
第一階段:在第一階段,我們的目標(biāo)是利用運(yùn)動(dòng)掩模和渲染圖像的聯(lián)合優(yōu)化來(lái)有效地學(xué)習(xí)運(yùn)動(dòng)掩模。因此,我們只使用遮蔽圖像損失LI:
第二階段:我們使用阿爾法混合來(lái)渲染深度圖、法線圖和速度圖,如下所示:
實(shí)驗(yàn)結(jié)果
結(jié)論
本文提出了一種用于駕駛場(chǎng)景中靜態(tài)動(dòng)態(tài)分解和高質(zhì)量表面重建的自監(jiān)督方法DeSiRe GS。通過(guò)引入運(yùn)動(dòng)掩模模塊并利用時(shí)間幾何一致性,DeSiRe GS解決了動(dòng)態(tài)對(duì)象建模和數(shù)據(jù)稀疏性等關(guān)鍵挑戰(zhàn)。