RoboFusion:通過SAM實現(xiàn)穩(wěn)健的多模態(tài)3D檢測
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
論文鏈接:https://arxiv.org/pdf/2401.03907.pdf
多模態(tài)3D檢測器致力于探索安全可靠的自動駕駛感知系統(tǒng)。然而,盡管在干凈的基準數(shù)據(jù)集上實現(xiàn)了最先進的(SOTA)性能,但它們往往忽略了現(xiàn)實世界環(huán)境的復雜性和惡劣條件。同時,隨著視覺基礎模型(VFM)的出現(xiàn),在自動駕駛中提高多模態(tài)三維檢測的魯棒性和泛化能力也面臨著機遇和挑戰(zhàn)。因此,作者提出了RoboFusion,這是一個強大的框架,它利用像SAM這樣的VFM來解決分布外(OOD)噪聲場景。
首先將最初的SAM應用于名為SAM-AD的自動駕駛場景,為了將SAM或SAMAD與多模態(tài)方法對齊,引入AD-FPN來對SAM提取的圖像特征進行上采樣。采用小波分解對深度引導圖像進行去噪,以進一步降低噪聲和天氣干擾。最后,使用自注意機制來自適應地重新加權(quán)融合的特征,增強信息特征,同時抑制過量噪聲。RoboFusion通過利用VFM的泛化和魯棒性逐漸降低噪聲,從而增強了多模式3D目標檢測的彈性。因此,RoboFusion在噪聲場景中實現(xiàn)了最先進的性能,正如KITTIC和nuScenes-C基準測試所證明的那樣!
論文提出了一個穩(wěn)健的框架,RoboFusion,它利用像SAM這樣的VFM來將3D多模態(tài)目標檢測器從干凈場景調(diào)整為OOD噪聲場景。特別是,SAM的適應策略如下。
1) 使用從SAM中提取的特征,而不是推理分割結(jié)果。
2) 提出了SAM-AD,這是針對AD場景的預訓練SAM。
3) 介紹了一種新的AD-FPN來解決用于將VFM與多模式3D檢測器對準的特征上采樣問題。
4) 為了進一步減少噪聲干擾并保留基本信號特征,設計了一個深度引導小波注意(DGWA)模塊,該模塊可以有效地衰減高頻和低頻噪聲。
5) 在融合點云特征和圖像特征后,提出了自適應融合,通過自關(guān)注自適應地重新加權(quán)融合后的特征,進一步增強特征的魯棒性和抗噪性。
RoboFusion網(wǎng)絡結(jié)構(gòu)
RoboFusion框架如下所示,激光雷達分支遵循基線[Chen et al.,2022;Bai et al.,2022]來生成激光雷達特征。在相機分支中,首先使用高度優(yōu)化的SAM-AD提取穩(wěn)健的圖像特征,并使用AD-FPN獲取多尺度特征。其次,由原始點生成稀疏深度圖S,并將其輸入深度編碼器以獲得深度特征,并與多尺度圖像特征融合以獲得深度引導圖像特征。然后使用波動注意力來去除突變噪聲。最后,自適應融合通過自注意機制將點云特征與具有深度信息的魯棒圖像特征相結(jié)合。
SAM-AD:為了進一步使SAM適應AD(自動駕駛)場景,對SAM進行預訓練以獲得SAM-AD。具體而言,我們從成熟的數(shù)據(jù)集(即KITTI和nuScenes)中收集了大量圖像樣本,形成了基礎的AD數(shù)據(jù)集。在DMAE之后,對SAM進行預訓練,以獲得AD場景中的SAM-AD,如圖3所示。將x表示為來自AD數(shù)據(jù)集的干凈圖像(即KITTI和nuScenes),將η表示為基于x生成的噪聲圖像。噪聲類型和嚴重程度分別從四種天氣(即雨、雪、霧和陽光)和1-5的五種嚴重程度中隨機選擇。使用SAM、MobileSAM的圖像編碼器作為我們的編碼器,而解碼器和重建損失與DMAE相同。
AD-FPN。作為一種可提示的分割模型,SAM由三個部分組成:圖像編碼器、提示編碼器和掩碼解碼器。一般來說,有必要將圖像編碼器推廣到訓練VFM,然后再訓練解碼器。換言之,圖像編碼器可以為下游模型提供高質(zhì)量和高度魯棒的圖像嵌入,而掩碼解碼器僅被設計為提供用于語義分割的解碼服務。此外,我們需要的是魯棒的圖像特征,而不是提示編碼器對提示信息的處理。因此,我們使用SAM的圖像編碼器來提取穩(wěn)健的圖像特征。然而,SAM利用ViT系列作為其圖像編碼器,其排除了多尺度特征,僅提供高維低分辨率特征。為了生成目標檢測所需的多尺度特征,受[Li et al.,2022a]的啟發(fā),設計了一種AD-FPN,它提供基于ViT的多尺度特性!
盡管SAM-AD或SAM具有提取穩(wěn)健圖像特征的能力,但2D域和3D域之間的差距仍然存在,并且在損壞的環(huán)境中缺乏幾何信息的相機經(jīng)常放大噪聲并引起負遷移問題。為了緩解這個問題,我們提出了深度引導小波注意(DGWA)模塊,該模塊可以分為以下兩個步驟。1) 設計了一個深度引導網(wǎng)絡,通過結(jié)合點云的圖像特征和深度特征,在圖像特征之前添加幾何體。2) 使用Haar小波變換將圖像的特征分解為四個子帶,然后注意力機制允許對子帶中的信息特征進行去噪!
實驗對比
原文鏈接:https://mp.weixin.qq.com/s/78y1KyipHeUSh5sLQZy-ng