自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)融合的BEV目標檢測方法 AutoAlign V1和V2

人工智能 新聞
作者提出了一種用于3-D目標檢測的集成多模態(tài)特征融合框架,名為AutoAlign。

在自動駕駛中,通過RGB圖像或激光雷達點云進行目標檢測已得到廣泛探索。然而,如何使這兩個數(shù)據(jù)源相互補充和有益,仍然是一個挑戰(zhàn)。AutoAlignV1和AutoAlignV2主要是中科大、哈工大和商湯科技等(起初還包括香港中文大學和清華大學)的工作。

AutoAlignV1來自arXiv論文“AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection“,上傳于2022年4月。

摘要

本文提出一種用于3D目標檢測的自動特征融合策略AutoAlign V1。用一個可學習的對齊圖(learnable alignment map)來建模圖像-點云之間的映射關系,而不是建立與攝像機投影矩陣的確定性對應關系。該圖使模型能夠以動態(tài)和數(shù)據(jù)驅動的方式自動對齊非同態(tài)特征。具體而言,設計了一個交叉注意特征對齊模塊,自適應地對每個體素的像素級圖像特征進行聚集。為了增強特征對齊過程中的語義一致性,還設計了一個自監(jiān)督跨模態(tài)特征交互模塊,通過該模塊,模型可以通過實例級特征引導學習特征聚合。

背景介紹

多模態(tài)3-D目標檢測器可以大致分為兩類:決策級融合和特征級融合。前者以各自的模式檢測目標,然后在3D空間中將邊框集合在一起。與決策級融合不同的是,特征級融合將多模態(tài)特征組合成單個表征來檢測目標。因此,檢測器可以在推理階段充分利用來自不同模態(tài)的特征。有鑒于此,最近開發(fā)了更多的特征級融合方法。

一項工作將每個點投影到圖像平面,并通過雙線性插值獲得相應的圖像特征。雖然在像素級精細地執(zhí)行了特征聚合,但由于融合點的稀疏性,將丟失圖像域中的密集模式,即破壞圖像特征中的語義一致性。

另一項工作用3D檢測器提供的初始方案,獲得不同模態(tài)的RoI特征,并連接在一起進行特征融合。它通過執(zhí)行實例級融合來保持語義一致性,但在初始提議生成階段存在如粗糙的特征聚合和2D信息缺失的問題。

為了充分利用這兩種方法,作者提出了一種用于3-D目標檢測的集成多模態(tài)特征融合框架,名為AutoAlign。它使檢測器能夠以自適應的方式聚合跨模態(tài)特征,在非同態(tài)表征之間的關系建模中證明是有效的。同時,它利用像素級的細粒度特征聚合,同時通過實例級特征交互保持語義一致性。

如圖所示:特征交互作用于兩個層面:(i)像素級特征聚合;(ii)實例級特征交互。

AutoAlign方法

先前的工作主要利用攝像機投影矩陣以確定性方式對齊圖像和點特征。這種方法是有效的,但可能會帶來兩個潛在問題:1)該點無法獲得圖像數(shù)據(jù)的更廣泛視圖,2)僅保持位置一致性,而忽略語義相關性。因此,AutoAlign設計了交叉注意特征對齊(CAFA)模塊,在非同態(tài)表征之間自適應地對齊特征。CAFA(Cross-Attention Feature Alignment)模塊不采用一對一的匹配模式,而是使每個體素感知整個圖像,并基于可學習對齊圖(learnable alignment map)動態(tài)地關注像素級2D特征。

如圖所示:AutoAlign由兩個核心組件組成,CAFA在圖像平面執(zhí)行特征聚合,提取每個體素特征的細粒度像素級信息,SCFI(Self-supervised Cross-modal Feature Interaction)執(zhí)行跨模態(tài)自監(jiān)督,使用實例級引導,增強CAFA模塊的語義一致性。

CAFA是聚集圖像特征的細粒度范例。但是,它無法捕獲實例級信息。相反,基于RoI的特征融合保持了目標的完整性,同時在提議生成階段會受到粗糙特征聚集和2D信息缺失的影響。

為了彌合像素級和實例級融合之間的差距,引入了自監(jiān)督跨模態(tài)特征交互(SCFI)模塊來指導CAFA的學習。它直接利用3D檢測器的最終預測作為提議,利用圖像和點特征進行精確的提議生成。此外,沒有將跨模態(tài)特征連接在一起進行進一步的邊框優(yōu)化,而是在跨模態(tài)特征對中加入相似性約束,作為特征對齊的實例級引導。

給定2D特征圖和相應的3D體素化特征,隨機采樣N個區(qū)域3D檢測框,然后用攝像頭投影矩陣投影到2D平面,從而生成一組成2D框對。一旦獲得成對框,在2D和3D特征空間采用2DRoIAlign和3DRoIPooling來獲得各自的RoI特征。

對于每個成對的2D和3D RoI特征,對來自圖像分支的特征和來自點分支的體素化特征,執(zhí)行自監(jiān)督跨模態(tài)特征交互(SCFI)。兩個特征都送入一個投影頭,轉換一個模態(tài)的輸出以匹配另一個模態(tài)。引入一個有兩個全連接層的預測頭。如圖所示:

盡管多任務學習非常有效,但很少有工作討論圖像域和點域的聯(lián)合檢測。在以前的大多數(shù)方法中,圖像主干是外部數(shù)據(jù)集預訓練權重直接初始化的。在訓練階段,唯一的監(jiān)督是從點分支傳播的3D檢測損失??紤]到圖像主干的大量參數(shù),2D分支更有可能在隱監(jiān)督下達到過擬合。為了正則化從圖像中提取的表征,將圖像分支擴展到Faster R-CNN,并用2D檢測損失對其進行監(jiān)督。

實驗結果

AutoAlignV2來自“AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection“,上傳于2022年7月。

摘要

AutoAlign存在著由全局注意機制引入的高計算成本。為此,構建在AutoAlign之上,作者提出AutoAlignV2,一個更快、更強的多模式3D檢測框架。為了解決計算成本問題,本文提出跨域DeformCAFA(Cross-Attention Feature Alignment)模塊。它關注用于跨模態(tài)關系模型的稀疏可學習采樣點,這增強了對標定誤差的容忍度,并大大加快了跨模態(tài)的特征聚合。為了克服多模態(tài)設置下復雜的GT-AUG,在給定深度信息情況下針對基于圖像patch的凸組合,設計了一種簡單而有效的跨模態(tài)增強策略。此外,通過一種圖像級dropout訓練方案,模型能夠以動態(tài)方式進行推理。

代碼將開源:https://github.com/zehuichen123/AutoAlignV2.

注:GT-AUG(“SECOND: Sparsely embedded convolutional detection“. Sensors,2018),一種數(shù)據(jù)增強方法

背景

如何有效地結合激光雷達和攝像頭的異構表示進行3-D目標檢測尚未得到充分的探索。當前訓練跨模態(tài)檢測器的困難歸因于兩個方面。一方面,結合圖像和空間信息的融合策略仍然是次優(yōu)的。由于RGB圖像和點云之間的異構表示,將特征聚集在一起之前需要仔細對齊。AutoAlign提出一種用于自動配準的可學習全局對齊模塊,并實現(xiàn)了良好的性能。然而,它必須在CSFI模塊的幫助下進行訓練,獲取點和圖像像素之間內部的位置匹配關系。

此外,注意風格的操作復雜性是圖像大小的二次關系,因此在高分辨率特征圖上應用query是不切實際的。這種限制可能導致圖像信息粗糙和不準確,以及FPN帶來分層表示的丟失。另一方面,數(shù)據(jù)增強,尤其是GT-AUG,是3D檢測器實現(xiàn)競爭性結果的關鍵步驟。就多模態(tài)方法而言,一個重要的問題是在執(zhí)行剪切和粘貼操作時如何保持圖像和點云之間的同步。MoCa在2D域中使用勞動密集型掩碼標注,獲得精確的圖像特征。邊框級標注也適用,但需要精細復雜的點過濾。

AutoAlignV2方法

AutoAlignV2的目的是有效地聚集圖像特征,以進一步增強3D目標檢測器的性能。從AutoAlign的基本架構開始:將成對圖像輸入到一個輕量級主干網(wǎng)ResNet,再輸入FPN獲得特征圖。然后,通過可學習對齊圖(learnable alignment map)聚合相關圖像信息,在體素化階段豐富非空體素的3D表示。最后,增強的特征將饋送到后續(xù)的3D檢測流水線中,生成實例預測。

如圖是AutoAlignV1和AutoAlignV2的比較:AutoAlignV2提示對齊模塊有確定性投影矩陣保證的一般映射關系,同時保留自動調整特征聚合位置的能力。由于計算成本較輕,AutoAlignV2能夠聚合分層圖像信息的多層特征。

這種范例可以數(shù)據(jù)驅動的方式聚合異構特征。然而,有兩個主要瓶頸仍然阻礙性能。第一個是低效的特征聚合。雖然全局注意圖自動實現(xiàn)RGB圖像和激光雷達點之間的特征對齊,但計算成本很高。第二種是圖像和點之間的復雜數(shù)據(jù)增強同步。GT-AUG是高性能3D目標檢測器的關鍵步驟,但如何在訓練期間保持點與圖像之間的語義一致性仍然是一個復雜的問題。

如圖所示,AutoAlignV2由兩部分組成:跨域DeformCAFA模塊和深度-覺察GT-AUG數(shù)據(jù)增強策略,另外還提出了一種圖像級dropout訓練策略,使模型能夠以更動態(tài)的方式進行推理。

  • 變形特征聚合

CAFA的瓶頸在于,將所有像素作為可能的空間位置。基于2D圖像的屬性,最相關的信息主要位于幾何鄰近的位置。因此,不必考慮所有位置,而只考慮幾個關鍵點區(qū)域。如圖所示,這里引入了一種新的跨域DeformCAFA操作,該操作大大減少了采樣候選者,并為每個體素query特征動態(tài)地確定圖像平面的關鍵點區(qū)域。

借助于動態(tài)生成的采樣偏移,DeformCAFA能夠比普通操作更快地進行跨域關系建模。能夠執(zhí)行多層特征聚合,即充分利用FPN層提供的分層信息。DeformCAFA的另一個優(yōu)點是,顯式地保持與攝像機投影矩陣的位置一致性,獲得參考點。因此,即使不采用AutoAlign中提出的CFSI模塊,DeformCAFA也可以產(chǎn)生語義和位置一致的對齊。

與普通的非局部操作相比,稀疏樣式的DeformCAFA大大提高了效率。然而,當直接應用體素特征作為token來生成注意權重和可變形偏移量時,檢測性能幾乎無法與雙線性插值相比,甚至更差。仔細分析,在token生成過程中存在跨域知識翻譯問題。和通常在單峰設置下的原始變形操作不同,跨域注意需要兩種模態(tài)的信息。然而,體素特征僅由空域表征組成,很難感知圖像域的信息。因此,降低不同模態(tài)之間的交互非常重要。

假設每個目標的表示可以明確分解為兩個組成部分:域特定信息和實例特定信息。前者指的是表征本身相關的數(shù)據(jù),包括域特征的內置屬性,而后者不管目標編碼在哪個域,所表示的是有關目標的ID信息。

  • 深度-覺察的GT-AUG

對于大多數(shù)深度學習模型而言,數(shù)據(jù)增強是實現(xiàn)競爭性結果的關鍵部分。然而,在多模態(tài)3D目標檢測方面,在數(shù)據(jù)增強中將點云和圖像組合在一起時,很難保持二者之間的同步,這主要是由于目標遮擋或視點的變化。為了解決這個問題,設計了一種簡單而有效的跨模態(tài)數(shù)據(jù)增強算法,名為深度-覺察GT-AUG。該方法放棄了復雜的點云過濾過程或圖像域精細掩碼標注的要求。相反,從3D目標標注中引入深度信息,mix-up圖像區(qū)域。

具體而言,給定要粘貼的虛擬目標P,遵循GT-AUG相同的3D實現(xiàn)。至于圖像域,首先按照從遠到近的順序進行排序。對于每個要粘貼的目標,從原始圖像中裁剪相同的區(qū)域,并在目標圖像上以α的混合比組合。如下算法1中顯示詳細的實現(xiàn)。

深度-覺察GT-AUG僅在3D域中遵循增強策略,但同時通過基于mix-up的剪切和粘貼(cut-and-paste)保持圖像平面的同步。關鍵點是,在原始2D圖像粘貼增強的patches后,MixUp技術不會完全移除相應的信息。相反,它會衰減此類信息相對于深度的緊致性,以保證對應點的特征存在。具體而言,如果一個目標被其他實例遮擋n次,則該目標區(qū)域的透明度,根據(jù)其深度順序以因子(1? α)^n衰減。

如圖所示是一些增強的例子:

  • 圖像級別dropout訓練策略

實際上,圖像通常是一種輸入選項,并非所有3D檢測系統(tǒng)都支持。因此,更現(xiàn)實、更適用的多模態(tài)檢測解決方案應采用動態(tài)融合方式:當圖像不可用時,模型就基于原始點云檢測目標;當圖像可用時,該模型進行特征融合并產(chǎn)生更好的預測。為了實現(xiàn)這一目標,提出一種圖像級dropout訓練策略,在圖像級隨機dropout聚集的圖像特征,并在訓練期間用零填充。如圖所示:(a) 圖像融合;(b) 圖像級dropout融合。

由于圖像信息間歇性丟失,模型應逐漸學會將2D特征用作一種替代輸入。

實驗結果


責任編輯:張燕妮 來源: 知乎
相關推薦

2022-02-21 09:03:19

Python

2023-10-27 09:47:22

模態(tài)框架

2023-09-18 11:41:26

論文3D

2010-08-05 17:00:04

RIP V2協(xié)議

2010-08-06 14:07:21

RIP V2

2023-10-07 09:29:09

2021-08-18 10:39:13

Ubuntu 21.1Linux 內核開發(fā)人員

2023-02-03 09:10:32

大數(shù)據(jù)SeaTunnel

2023-10-26 09:34:44

自動駕駛技術

2022-01-11 10:59:46

智能自動駕駛汽車

2013-04-13 13:49:35

組播IGMP V2包

2012-04-24 18:10:56

華為E5

2010-06-11 16:12:00

RIP-V2協(xié)議

2009-06-03 09:12:05

Netbeans 6.Scala插件Netbeans

2024-05-10 08:47:22

標準庫v2Go

2024-05-09 10:36:53

AI視覺人工智能

2023-06-20 08:01:09

RoseDB存儲數(shù)據(jù)

2024-02-27 15:14:04

自動駕駛技術

2021-06-05 10:16:55

Linkerd 服務網(wǎng)格Kubernetes

2021-06-22 19:56:13

勒索病毒
點贊
收藏

51CTO技術棧公眾號