萬能3D高斯預(yù)訓(xùn)練表示!GaussianPretrain:爆拉3D檢測、Occ、高精地圖等四大任務(wù)!
寫在前面 && 筆者理解
受Tesla的技術(shù)的推動(dòng),越來越多的廠商開始走"純視覺"的路線,多數(shù)方案還是集中在從多視圖輸入圖像中提取鳥瞰圖(BEV)特征,來解決下游目標(biāo)檢測、在線地圖等各種應(yīng)用。盡管有監(jiān)督的方法還是占主導(dǎo)地位,但是它們非常依賴精確的GT標(biāo)注,成本高、難度大往往成為一個(gè)比較顯著的瓶頸。相反,大量且易于獲取的未標(biāo)記數(shù)據(jù)為提高性能提供了一個(gè)充滿希望的途徑。這就是所謂的自監(jiān)督預(yù)訓(xùn)練
技術(shù),其核心思想是,通過利用精心設(shè)計(jì)的代理任務(wù),從豐富的未標(biāo)記數(shù)據(jù)中學(xué)習(xí)有意義的表示。然而當(dāng)前的一些方案要么無法捕捉到有效的幾何信息,要么無不能學(xué)習(xí)到詳細(xì)的紋理信息。
3D Gaussian Splatting(3D-GS)以點(diǎn)云的形式表示,為場景重建提供了強(qiáng)大的表示,通過位置、顏色、旋轉(zhuǎn)、縮放和不透明度等屬性編碼幾何和紋理信息。正是受到3D-GS在有效場景表示和Masked autoencoders(MAE)在2D圖像自監(jiān)督學(xué)習(xí)中的成功的啟發(fā),作者提出了一種新穎的預(yù)訓(xùn)練方法GaussianPretrain,它結(jié)合了3D-GS和MAE方法,用于3D視覺學(xué)習(xí)中的預(yù)訓(xùn)練任務(wù)。
作者的方法包括兩個(gè)關(guān)鍵創(chuàng)新:
- LiDAR深度指導(dǎo)掩碼生成器。為了提高效率,作者只關(guān)注從多視圖圖像中的有限數(shù)量的有效掩碼補(bǔ)丁中學(xué)習(xí)高斯信息。這些補(bǔ)丁由MAE策略識別,并進(jìn)一步過濾,只包括那些具有LiDAR深度監(jiān)督的補(bǔ)丁。
- 基于射線的3D高斯錨點(diǎn)指導(dǎo)策略:對于每個(gè)LiDAR投影像素,執(zhí)行射線投射操作到3D空間以采樣體素內(nèi)的點(diǎn)。作者引入了一組可學(xué)習(xí)的高斯錨點(diǎn)來指導(dǎo)從3D體素中作為體積LiDAR點(diǎn)的高斯屬性的學(xué)習(xí),并預(yù)測相關(guān)屬性(例如,深度、不透明度)。這使得模型能夠通過3D Gaussian Splatting同時(shí)理解場景的幾何和紋理信息。
- 論文鏈接:https://arxiv.org/pdf/2411.12452
相關(guān)工作
自動(dòng)駕駛中的預(yù)訓(xùn)練
使用對比學(xué)習(xí)和掩碼信號建模來捕獲語義和紋理信息,在2D圖像上的預(yù)訓(xùn)練已經(jīng)取得了巨大的成功。但是,自動(dòng)駕駛的視覺預(yù)訓(xùn)練需要準(zhǔn)確的幾何表示。目前有的研究,比如,UniScene和OccNet利用占用預(yù)測進(jìn)行預(yù)訓(xùn)練,而ViDAR 從歷史幀圖像預(yù)測未來的LiDAR數(shù)據(jù)。盡管這些方法在捕獲幾何信息方面是有效的,但卻無法學(xué)習(xí)詳細(xì)的紋理信息。相反,像Self-OCC 、UniPAD 和MIM4D 這樣的方法使用NeRF 來渲染RGB圖像和深度圖,學(xué)習(xí)了紋理但幾何信息有限。OccFeat 在占用預(yù)測期間使用知識蒸餾從圖像基礎(chǔ)模型轉(zhuǎn)移紋理信息,但會產(chǎn)生高昂的預(yù)訓(xùn)練成本。相比之下,作者的工作引入了3D Gaussian Splatting進(jìn)行自動(dòng)駕駛的視覺預(yù)訓(xùn)練,有效地捕獲紋理和幾何信息,來解決這些限制。
從NeRF到3D-GS
Neural Radiance Fields (NeRF) 通過隱式表示場景的顏色和密度,參數(shù)化多層感知機(jī)(MLP)結(jié)合體積渲染技術(shù),實(shí)現(xiàn)了令人印象深刻的渲染質(zhì)量。后續(xù)工作已成功將NeRF擴(kuò)展到各種任務(wù),但是這些工作都需要針對每個(gè)場景來優(yōu)化,由于優(yōu)化和渲染速度慢,限制了它們的效率。相比之下,3D Gaussian Splatting 通過各向異性高斯顯式表示場景,通過可微光柵化實(shí)現(xiàn)實(shí)時(shí)渲染。然而,由于依賴于特定場景的優(yōu)化,它傾向于過度擬合特定場景。最近的方法通過預(yù)測高斯參數(shù)的前饋方式來緩解這個(gè)問題,這樣就不需要針對每個(gè)場景來優(yōu)化了。例如,GPSGaussian 從圖像對執(zhí)行極線校正和視差估計(jì),依賴立體圖像和真實(shí)的深度圖。同樣,Spatter Image 專注于從單一視圖重建單個(gè)對象的3D結(jié)構(gòu)。這兩種方法因?yàn)樾实?,僅限于對象重建,并且依賴于特定的輸入格式,如圖像對或單一視圖。在本文中,作者將3D Gaussian Splatting擴(kuò)展到視覺預(yù)訓(xùn)練任務(wù)中,通過在3D空間中預(yù)設(shè)固定位置的3D高斯錨點(diǎn),克服了與視圖數(shù)量和深度圖需求相關(guān)的問題,標(biāo)志著3D-GS的新應(yīng)用。
3D Gaussian Splatting
3D GS由于其高效的光柵化設(shè)計(jì)和顯式表示,在場景表示、編輯和新視角合成方面展現(xiàn)出強(qiáng)大的能力。通常,場景由一組高斯組成,這些高斯通常從重建方法或LiDAR數(shù)據(jù)中得到的點(diǎn)云初始化而來。每個(gè)高斯被賦予可學(xué)習(xí)的屬性,包括方向、顏色、位置、尺度和不透明度
。在渲染過程中,這些3D高斯被使用可微光柵化投影到2D圖像平面上。對于場景表示任務(wù),通過將渲染輸出與真實(shí)圖像進(jìn)行監(jiān)督,迭代優(yōu)化高斯屬性。對于3D空間中的一個(gè)高斯點(diǎn),它被定義為
LiDAR 深度引導(dǎo)掩模生成器
受MAE 的啟發(fā),作者對多視圖圖像應(yīng)用隨機(jī)補(bǔ)丁掩碼,表示為M。此外,稀疏卷積被用來替代圖像主干中的傳統(tǒng)卷積,如SparK 的實(shí)現(xiàn)增強(qiáng)了性能和泛化能力。為了計(jì)算效率,作者只關(guān)注從有限的一組有效掩碼補(bǔ)丁中學(xué)習(xí)高斯參數(shù)。此外,作者通過檢查LiDAR點(diǎn)是否在某個(gè)深度范圍內(nèi)來雙重檢查掩碼區(qū)域。
基于射線引導(dǎo)的 3D 高斯錨點(diǎn)
體素編碼
Gaussian 參數(shù)解碼
通過重構(gòu)信號來監(jiān)督
為了在MAE策略下更好地重建掩碼區(qū)域,作者使用從高斯表示派生的不同重建信號來監(jiān)督學(xué)習(xí)過程。具體來說,RGB、深度和占用信號是基于有效掩碼補(bǔ)丁中預(yù)測的高斯錨點(diǎn)參數(shù)解碼的。
實(shí)驗(yàn)結(jié)果
作者使用nuScenes數(shù)據(jù)集來訓(xùn)練和驗(yàn)證。
不同任務(wù)上的結(jié)果
3D Object Detection. 作者在表1中比較了GaussianPretrain與以前SOTA方法的結(jié)果。以UniPAD作為基線,該基線是在UVTR-C/StreamPETR上實(shí)現(xiàn)的。作者的方法在NDS和mAP上分別超過了UniPAD-C 0.8和0.7個(gè)百分點(diǎn)。與StreamPETR相比,改進(jìn)進(jìn)一步獲得了0.9 NDS,達(dá)到了48.8和38.6在NDS和mAP上,達(dá)到了沒有任何測試時(shí)增強(qiáng)的現(xiàn)有最先進(jìn)方法的水平。
HD Map Construction. 正如表2所示,作者評估了其訓(xùn)練模型在nuScenes數(shù)據(jù)集上對HD地圖構(gòu)建任務(wù)的性能。這項(xiàng)任務(wù)要求模型理解道路拓?fù)浜徒煌ㄒ?guī)則,需要對場景的紋理信息有詳細(xì)的了解。作者使用MapTR 來評估GaussianPretrain捕獲這些信息的能力。得益于作者有效的高斯表示預(yù)訓(xùn)練,MapTR在mAP上實(shí)現(xiàn)了1.9%的改進(jìn)。
3D Occupancy Prediction. 高斯錨點(diǎn)的不透明度屬性自然適合占用預(yù)測任務(wù)。在表3中,作者在Occ3D-nuScenes上進(jìn)行了3D占用預(yù)測的實(shí)驗(yàn)。表中報(bào)告了SOTA方法的性能,這些性能記錄在Occ3d 的工作中。作者在BEVFormer 和PanoOCC上實(shí)現(xiàn)了作者的框架,比BEVFormer提高了0.6% mIoU的性能,比SOTA方法PanoOCC進(jìn)一步提高了0.8% mIoU。這也突出了作者預(yù)訓(xùn)練圖的有效性。
預(yù)訓(xùn)練方法上的結(jié)果
作者以在ImageNet上預(yù)訓(xùn)練的UVTR-C作為基線,并在表4中比較了GaussianPretrain與以前的預(yù)訓(xùn)練方法。
- DD3D:利用深度估計(jì)進(jìn)行預(yù)訓(xùn)練。
- SparK:將MAE納入預(yù)訓(xùn)練方法。
- FCOS3D:在預(yù)訓(xùn)練階段使用3D標(biāo)簽進(jìn)行監(jiān)督。
- UniPAD:基于NeRF的渲染預(yù)訓(xùn)練范式。
作者的GaussianPretrain,將3D-GS整合到視覺預(yù)訓(xùn)練中,大大提高了7.1%的NDS和9.0%的mAP。它優(yōu)于所有其他方法,分別達(dá)到了32.0 NDS和32.3 mAP。
消融實(shí)驗(yàn)
GaussianPretrain’s losses: 為了驗(yàn)證每個(gè)重建信號的有效性,作者在UVTR和BEVFomer上進(jìn)行了3D檢測和占用任務(wù)的實(shí)驗(yàn)。RGB損失引導(dǎo)模型從重建圖像中學(xué)習(xí)場景的紋理信息,而深度損失鼓勵(lì)模型在2D平面上學(xué)習(xí)幾何信息,盡管這本身不足以捕獲完整的3D幾何信息。相比之下,占用損失監(jiān)督模型在3D空間內(nèi)學(xué)習(xí)全面的幾何信息。如表7所示,每個(gè)組成部分都做出了積極貢獻(xiàn),當(dāng)全部使用時(shí),取得了最佳結(jié)果。
Gaussian Anchor Numbers: 作者進(jìn)行了消融研究,以檢查不同數(shù)量的高斯錨點(diǎn)對性能指標(biāo)的影響,如表8所示。在達(dá)到1024個(gè)射線時(shí),觀察到最顯著的增益,超過這個(gè)數(shù)量,相對于額外的資源需求,改進(jìn)較小。
Efficiency & consumption: 基于NeRF的方法通常受到慢收斂和高GPU內(nèi)存消耗的困擾。相比之下,作者的基于3D-GS的方法提供了可比的渲染質(zhì)量,并且具有更快的收斂速度和更優(yōu)越的效率,用于自由視圖渲染。在表9中,作者比較了NeRF基礎(chǔ)的UniPAD和作者的解碼器模塊之間的效率和內(nèi)存消耗。值得注意的是,GaussianPretrain明顯減少了約30%的內(nèi)存使用,并減少了大約40.6%的延遲,同時(shí)保持了相似的參數(shù)大小。
Supervised Pre-training: 作者展示了GaussianPretrain在減少對注釋的依賴方面的有效性,通過微調(diào)UVTR,從完整數(shù)據(jù)集到1/4子集的范圍。如圖5所示,作者的方法在只有一半監(jiān)督樣本的情況下超過了基線5.5% mAP,即32.0% mAP vs. 26.5% mAP。這表明GaussianPretrain可以有效利用未標(biāo)記數(shù)據(jù)來補(bǔ)償減少的監(jiān)督,即使在注釋較少的情況下也能提高性能。
Different Conditions: 作者在表6中報(bào)告了在不同距離、天氣條件和光照情況下的性能,這得益于作者在UVTR-C上有效的預(yù)訓(xùn)練,GaussianPretrain實(shí)現(xiàn)了卓越的魯棒性和整體最佳性能。
總結(jié)
在這項(xiàng)工作中,作者首次將3D Gaussian Splatting技術(shù)引入視覺預(yù)訓(xùn)練任務(wù)。作者的GaussianPretrain在各種3D感知任務(wù)中展現(xiàn)出顯著的有效性和魯棒性,包括3D目標(biāo)檢測、高清地圖重建和占用預(yù)測,同時(shí)具有效率和較低的內(nèi)存消耗。不過,當(dāng)前框架仍然存在某些局限性。特別是,它沒有明確地結(jié)合時(shí)間或多模態(tài)信息,這兩者對于許多自動(dòng)駕駛應(yīng)用至關(guān)重要。在未來的工作中,作者計(jì)劃擴(kuò)展GaussianPretrain以利用這些信息,并進(jìn)一步提高其性能。