SupFusion:港中文最新用于3D檢測(cè)的LV融合新SOTA!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
原標(biāo)題:SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection
論文鏈接:https://arxiv.org/pdf/2309.07084.pdf
作者單位:香港中文大學(xué) NIO
代碼鏈接:https://github.com/IranQin/SupFusion
會(huì)議:ICCV 2023
論文思路
基于LiDAR-Camera融合的三維檢測(cè)是實(shí)現(xiàn)自動(dòng)駕駛的關(guān)鍵技術(shù)之一。近年來,許多LiDAR-Camera的融合方法涌現(xiàn)出來,并取得了與單模態(tài)檢測(cè)器相比有前途的性能,但始終缺乏對(duì)融合過程的精心設(shè)計(jì)和有效的監(jiān)督。
本文提出了一種新的訓(xùn)練策略SupFusion,該策略為有效的LiDAR-Camera融合提供了輔助特征級(jí)監(jiān)督,顯著提高了檢測(cè)性能。本文的策略涉及到一種稱為極坐標(biāo)采樣(Polar Sampling)的數(shù)據(jù)增強(qiáng)方法,它對(duì)稀疏的目標(biāo)進(jìn)行加密,并訓(xùn)練一個(gè)輔助模型生成高質(zhì)量的特征作為監(jiān)督。然后利用這些特征訓(xùn)練LiDAR-Camera融合模型,對(duì)融合特征進(jìn)行優(yōu)化,以模擬生成的高質(zhì)量特征。此外,本文提出了一種簡(jiǎn)單而有效的深度融合模塊(deep fusion module),與已有的基于SupFusion策略的融合方法相比,該模塊具有連續(xù)的優(yōu)越性能。這樣看來,本文的提出的方法有以下優(yōu)點(diǎn)。首先,SupFusion引入了輔助特征級(jí)監(jiān)督,可以在不引入額外推理成本的情況下提高LiDAR-Camera的檢測(cè)性能。其次,提出的深度融合可以不斷提高檢測(cè)器的能力。本文提出的SupFusion和deep fusion模塊是即插即用的,本文進(jìn)行了大量的實(shí)驗(yàn)來證明其有效性。具體來說,基于多個(gè) LiDAR-Camera 3D 檢測(cè)器,本文在 KITTI 基準(zhǔn)上獲得了約 2% 的 3D mAP 改進(jìn)。
主要貢獻(xiàn)
本文提出了一種名為 SupFusion 的新型監(jiān)督融合訓(xùn)練策略,該策略主要由高質(zhì)量特征生成過程組成,并據(jù)本文所知,首先提出輔助特征級(jí)監(jiān)督損失,以實(shí)現(xiàn)魯棒融合特征提取和準(zhǔn)確的 3D 檢測(cè)。
為了在SupFusion中獲得高質(zhì)量的特征,本文提出了一種極坐標(biāo)采樣的數(shù)據(jù)增強(qiáng)方法來對(duì)稀疏目標(biāo)進(jìn)行加密。此外,本文提出了一種高效的深度融合模塊,以提高連續(xù)檢測(cè)精度。
本文基于不同融合策略的多個(gè)檢測(cè)器進(jìn)行了大量實(shí)驗(yàn),并在KITTI基準(zhǔn)上獲得了約2%的mAP改進(jìn)。
網(wǎng)絡(luò)設(shè)計(jì)
本文提出了一種名為 SupFusion 的有監(jiān)督 LiDAR-Camera 融合方法,以生成高質(zhì)量的特征并為融合和特征提取過程提供有效的監(jiān)督,并進(jìn)一步提高基于 LiDAR-Camera 融合的 3D 檢測(cè)性能。具體來說,本文首先訓(xùn)練一個(gè)輔助模型來提供高質(zhì)量的特征。為了實(shí)現(xiàn)這一目標(biāo),與以前利用更大模型或額外數(shù)據(jù)的方法不同,本文提出了一種稱為極坐標(biāo)采樣(Polar Sampling)的新型數(shù)據(jù)增強(qiáng)方法。極坐標(biāo)采樣可以從稀疏的激光雷達(dá)數(shù)據(jù)中動(dòng)態(tài)增強(qiáng)物體的密度,從而更容易檢測(cè)并提高特征質(zhì)量,例如特征可以得出準(zhǔn)確的檢測(cè)結(jié)果。然后,本文通過引入輔助特征級(jí)監(jiān)督來簡(jiǎn)單地訓(xùn)練基于 LiDAR-Camera 融合的檢測(cè)器。在此步驟中,本文將原始 LiDAR 和攝像機(jī)輸入輸入到 3D/2D 主干和融合模塊中以獲得融合特征。一方面,融合特征被輸入檢測(cè)頭進(jìn)行最終預(yù)測(cè),即決策級(jí)監(jiān)督。另一方面,輔助監(jiān)督將融合特征模擬為高質(zhì)量特征,這些特征是通過預(yù)訓(xùn)練的輔助模型和增強(qiáng)的激光雷達(dá)數(shù)據(jù)獲得的。通過這種方式,所提出的特征級(jí)監(jiān)督可以使融合模塊生成更魯棒的特征,并進(jìn)一步提高檢測(cè)性能。為了更好地融合 LiDAR 和攝像機(jī)特征,本文提出了一種簡(jiǎn)單而有效的深度融合模塊,該模塊由堆疊的 MLP 塊和動(dòng)態(tài)融合塊組成。SupFusion可以充分挖掘深度融合模塊能力,不斷提高檢測(cè)精度。
圖2:檢測(cè)器訓(xùn)練過程。對(duì)于給定的LiDAR-Camera樣本,本文通過相應(yīng)的3D/2D編碼器提取特征表示,并使用提出的深度融合模塊融合多模態(tài)特征。除了檢測(cè)損失的 外,本文 提出輔助特征級(jí)監(jiān)督 ,將融合的特征 模擬成高質(zhì)量的特征 ,這是由輔助模型和增強(qiáng)數(shù)據(jù)生成的。
圖3:高質(zhì)量的特征生成過程。對(duì)于任意給定的LiDAR樣本,本文通過 polar pasting 對(duì)稀疏目標(biāo)進(jìn)行加密,polar pasting計(jì)算從數(shù)據(jù)庫(kù)中查詢稠密目標(biāo)的方向和旋轉(zhuǎn),并通過粘貼向稀疏目標(biāo)添加額外的點(diǎn)。本文首先通過增強(qiáng)的數(shù)據(jù)訓(xùn)練輔助模型,并將增強(qiáng)的LiDAR數(shù)據(jù)輸入輔助模型中,以生成高質(zhì)量的特征 ,直到它被收斂。
圖1:上圖:之前的LiDAR-Camera 3D檢測(cè)器,通過檢測(cè)損失對(duì)融合模塊進(jìn)行優(yōu)化。底部:本文提出的SupFusion,本文提出了通過一個(gè)輔助模型提供的高質(zhì)量特征的輔助監(jiān)督。
圖4:Polar grouping主要是建立一個(gè)數(shù)據(jù)庫(kù),將每個(gè)組的密集目標(biāo)存儲(chǔ)在每個(gè)類的方向和旋轉(zhuǎn)的極坐標(biāo)系系統(tǒng)中。
實(shí)驗(yàn)結(jié)果
引用
Qin, Y., Wang, C., Kang, Z., Ma, N., Li, Z., & Zhang, R. (2023). SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection. ArXiv. /abs/2309.07084
原文鏈接:https://mp.weixin.qq.com/s/-pPUtrlfeo_09svMxk2qFA