僅用25%數(shù)據(jù)實現(xiàn)性能超越!MapGS:解決特定傳感器配置的在線建圖模型訓(xùn)練問題
本文經(jīng)3D視覺之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
避免傳感器配置差異
近年來,多模態(tài)傳感器融合的新進(jìn)展推動了自動駕駛應(yīng)用中感知方法的發(fā)展。這些進(jìn)展涵蓋了 3D 目標(biāo)檢測、在線地圖生成與推理、占用預(yù)測,以及端到端框架的形式。在這些任務(wù)和真實場景中已經(jīng)取得了最先進(jìn)的成果,然而,要實現(xiàn)傳感器和平臺的泛化仍然面臨顯著挑戰(zhàn)。
例如,在 NuScenes (NUSC) 數(shù)據(jù)集上訓(xùn)練的感知模型很難直接泛化到其他傳感器和平臺配置(如 Waymo Open 或 Argoverse 2 數(shù)據(jù)集)。傳感器配置可能在相機和激光雷達(dá)的數(shù)量、在車輛上的位置、方向,以及相機焦距和視場等內(nèi)參屬性上存在差異。研究表明,傳感器配置的不同會導(dǎo)致 3D 感知任務(wù)(如檢測、分割和建圖)的性能下降。盡管還有其他領(lǐng)域間差距需要探索,實現(xiàn)跨傳感器配置的泛化仍然是一個重要挑戰(zhàn),這也限制了可用于開發(fā)的數(shù)據(jù)量。在最壞的情況下,當(dāng)傳感器設(shè)置變化時,必須重新收集和標(biāo)注數(shù)據(jù)集來重新訓(xùn)練或微調(diào)深度學(xué)習(xí)架構(gòu),這導(dǎo)致了跨車輛類型(如轎車、SUV 和卡車)模型部署的開發(fā)過程變得冗長。
近期的研究開始通過兩種主要途徑來解決傳感器泛化問題:基于模型的方法和基于數(shù)據(jù)的方法。從模型的角度來看,一些方法嘗試在問題建?;蚣軜?gòu)中直接引入與傳感器無關(guān)的特性。而基于數(shù)據(jù)的方法則專注于對齊相機參數(shù)或應(yīng)用數(shù)據(jù)再生成技術(shù)。盡管取得了一些有希望的成果,利用真實數(shù)據(jù)為全景在線高清地圖生成開發(fā)通用策略仍然是一個開放性問題。
本文介紹的MapGS[1]是一種基于高斯點云渲染 (Gaussian Splatting) 的數(shù)據(jù)驅(qū)動方法,用于場景重建和新視圖合成,旨在減少 3D 在線建圖算法中的傳感器配置差異。該方法包括一套適用于新定制配置的數(shù)據(jù)再生成方案,其中高斯點云渲染用于重建靜態(tài)和動態(tài)場景。我們將這一方法擴展到 Argoverse 2 數(shù)據(jù)集,生成新的目標(biāo)傳感器配置相機數(shù)據(jù) (nuScenes 配置)。實驗結(jié)果表明,該方法增強了泛化能力,提高了數(shù)據(jù)和訓(xùn)練效率,并為全景在線建圖實現(xiàn)了數(shù)據(jù)的可重用性。
倉庫鏈接:https://henryzhangzhy.github.io/mapgs/
主要貢獻(xiàn):
- 提出了一種基于高斯點云渲染的方案,用于場景重建和新視圖渲染,以減少 3D 在線建圖算法中的傳感器配置差異。
- 提出了新視圖合成和數(shù)據(jù)再生成的方案,構(gòu)建了名為 nuAV2 的新數(shù)據(jù)集,該數(shù)據(jù)集通過重建 Argoverse 2 數(shù)據(jù)集的場景并生成 nuScenes 傳感器配置的相機數(shù)據(jù)生成而成。我們計劃公開代碼和數(shù)據(jù)。
- 提供了三大關(guān)鍵性能與效率收益:i)通過有效的數(shù)據(jù)增強提高了泛化能力,性能提升 18%;ii)訓(xùn)練更加高效且收斂更快;iii)在僅使用原始目標(biāo)傳感器配置訓(xùn)練數(shù)據(jù) 25% 的情況下,性能超越當(dāng)前最先進(jìn)水平。
具體方法
將在線建圖算法泛化到不同的傳感器配置是一個具有挑戰(zhàn)性的問題。我們提出了一種新的范式,通過使用高斯點云渲染 (Gaussian Splatting) 技術(shù),在不同的傳感器配置下生成數(shù)據(jù),以減少泛化差距。如圖 2 所示,對于一個自動駕駛數(shù)據(jù)集,我們首先使用現(xiàn)有的傳感器數(shù)據(jù)通過高斯點云渲染重建場景,然后渲染目標(biāo)傳感器配置下的圖像并映射標(biāo)簽,最后將生成的數(shù)據(jù)作為訓(xùn)練協(xié)議的一部分。
場景重建
我們首先處理傳感器數(shù)據(jù)中的原始圖像 (I_S),并重建場景 (G)。傳統(tǒng)的 3D 高斯點云渲染方法需要大量圖像來完成場景重建。面對動態(tài)對象、開放環(huán)境和視角同質(zhì)性等挑戰(zhàn)時,重建自動駕駛場景變得非常困難。我們基于 Street Gaussian (StreetGS) 方法,通過利用標(biāo)注軌跡和點云的先驗知識來重建室外場景。先驗約束優(yōu)化過程,并生成高質(zhì)量的新視圖。
StreetGS 將場景分為靜態(tài)背景 (B) 和動態(tài)車輛 (D),依據(jù)標(biāo)注的軌跡對點云進(jìn)行處理。首先過濾出激光雷達(dá)點云中的目標(biāo)框內(nèi)點,僅保留其他點以初始化靜態(tài)背景 (B)。動態(tài)車輛被視為沿軌跡移動的靜態(tài)物體,因此會將每個軌跡內(nèi)的點云裁剪并聚合到一個單獨的框中,以初始化動態(tài)物體的 3D 高斯模型。此外,還定義了天空嵌入 (S),用于捕捉天空和遠(yuǎn)處的物體。
在優(yōu)化過程中,動態(tài)物體的 3D 高斯模型會根據(jù)軌跡變換到對應(yīng)的目標(biāo)框位置。通過訓(xùn)練相機視角,靜態(tài)背景、高斯模型和天空會被光柵化以渲染圖像。隨后,將渲染圖像與真實圖像進(jìn)行比較,優(yōu)化 3D 高斯模型和天空的表示。為了防止生成虛假的效果,會向真實圖像添加自車遮罩,以屏蔽自車區(qū)域。
這種方法利用先驗知識來優(yōu)化動態(tài)場景,使其表現(xiàn)類似靜態(tài)場景,同時避免引入額外的時間參數(shù)。該方法在視角發(fā)生顯著變化時減少了因過擬合導(dǎo)致的失真。
目標(biāo)配置數(shù)據(jù)生成
在重建的場景 (G) 中,我們渲染目標(biāo)配置下的圖像,記為 (I_T)。該過程嘗試在場景中模擬目標(biāo)車輛行駛時的圖像視角。
給定源車輛的位姿 (G_T^{VS}) (時間 (t))、目標(biāo)相機到車輛的變換 (V_T^{TC})、以及目標(biāo)車輛到源車輛的變換 (V_S^{VT}),目標(biāo)車輛的位姿可表示為:[ G_T^{VT} = G_T^{VS} V_S^{VT} ]
目標(biāo)相機的位姿則定義為:[ G_T^{CT} = G_T^{VT} V_T^{TC} ]
結(jié)合目標(biāo)相機的內(nèi)參矩陣 (K_T),我們可以渲染目標(biāo)傳感器配置下的圖像。此外,還將地圖標(biāo)簽轉(zhuǎn)換到新的傳感器配置中,用于以自車為中心的建圖訓(xùn)練與評估。
在線建圖
我們僅關(guān)注地圖元素的幾何信息,而不考慮近期流行的拓?fù)渫评怼N覀儾捎?MapTRv2 的相機版實現(xiàn),其包含三個主要組件:特征提取器、視圖變換模塊和矢量地圖解碼器。
- 特征提取器:將環(huán)視圖圖像 (I) 輸入,提取透視視角特征 (F_{PV})。
- 視圖變換模塊:將透視視角特征投影為鳥瞰視角特征 (F_{BEV})。
- 矢量地圖解碼器:通過 Deformable DETR 解碼器,從鳥瞰視角特征中解碼矢量地圖元素。
這種方法專注于幾何表示,并有效地利用了高斯點云渲染生成的數(shù)據(jù)進(jìn)行訓(xùn)練,支持不同傳感器配置下的在線建圖任務(wù)。
實驗效果
總結(jié)一下
MapGS 框架專為應(yīng)對特定傳感器配置下在線建圖模型訓(xùn)練中數(shù)據(jù)不足的問題。MapGS 利用高斯點云渲染重建場景,并渲染目標(biāo)傳感器配置視圖的圖像。通過這項工作,提出了一種數(shù)據(jù)再生成的方案,并引入了 nuAV2 數(shù)據(jù)集,將 Argoverse 2 數(shù)據(jù)集的圖像轉(zhuǎn)換為 nuScenes 數(shù)據(jù)集視圖,用于訓(xùn)練。我們證明了該方法可以縮小傳感器配置之間的差距。此外,它是一種有效的數(shù)據(jù)增強技術(shù),能夠在在線建圖任務(wù)中實現(xiàn)預(yù)訓(xùn)練或聯(lián)合訓(xùn)練。