如何利用Transformer有效關(guān)聯(lián)激光雷達(dá)-毫米波雷達(dá)-視覺特征?
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
筆者個人理解
自動駕駛的基礎(chǔ)任務(wù)之一是三維目標(biāo)檢測,而現(xiàn)在許多方法都是基于多傳感器融合的方法實(shí)現(xiàn)的。那為什么要進(jìn)行多傳感器融合?無論是激光雷達(dá)和相機(jī)融合,又或者是毫米波雷達(dá)和相機(jī)融合,其最主要的目的就是利用點(diǎn)云和圖像之間的互補(bǔ)聯(lián)系,從而提高目標(biāo)檢測的準(zhǔn)確度。隨著Transformer架構(gòu)在計算機(jī)視覺領(lǐng)域的不斷應(yīng)用,基于注意力機(jī)制的方法提高了多傳感器之間融合的精度。分享的兩篇論文便是基于此架構(gòu),提出了新穎的融合方式,以更大程度地利用各自模態(tài)的有用信息,實(shí)現(xiàn)更好的融合。
TransFusion:
主要貢獻(xiàn)
激光雷達(dá)和相機(jī)是自動駕駛中兩種重要的三維目標(biāo)檢測傳感器,但是在傳感器融合上,主要面臨著圖像條件差導(dǎo)致檢測精度較低的問題?;邳c(diǎn)的融合方法是將激光雷達(dá)和相機(jī)通過硬關(guān)聯(lián)(hard association)進(jìn)行融合,會導(dǎo)致一些問題:a)簡單地拼接點(diǎn)云和圖像特征,在低質(zhì)量的圖像特征下,檢測性能會嚴(yán)重下降;b)尋找稀疏點(diǎn)云和圖像的硬關(guān)聯(lián)會浪費(fèi)高質(zhì)量的圖像特征并且難以對齊。
因此,此論文提出一種激光雷達(dá)和相機(jī)的融合框架TransFusion,來解決兩種傳感器之間的關(guān)聯(lián)問題,主要貢獻(xiàn)如下:
- 提出一種基于transformer的激光雷達(dá)和相機(jī)的3D檢測融合模型,對較差的圖像質(zhì)量和傳感器未對齊表現(xiàn)出優(yōu)異的魯棒性;
- 為對象查詢引入了幾個簡單而有效的調(diào)整,以提高圖像融合的初始邊界框預(yù)測的質(zhì)量,還設(shè)計了一個圖像引導(dǎo)查詢初始化模塊來處理在點(diǎn)云中難以檢測到的對象;
- 不僅在nuScenes實(shí)現(xiàn)了先進(jìn)的三維檢測性能,還將模型擴(kuò)展到三維跟蹤任務(wù),并取得了不錯的成果。
模塊詳解
圖1 TransFusion的整體框架
為了解決上述的圖像條件差以及不同傳感器之間的關(guān)聯(lián)問題,提出了一個基于Transformer的融合框架——TransFusion。該模型依賴標(biāo)準(zhǔn)的3D和2D主干網(wǎng)絡(luò)提取LiDAR BEV特征和圖像特征,然后檢測頭上采用兩層transformer解碼器組成:第一層解碼器利用稀疏的點(diǎn)云生成初始邊界框;第二層解碼器將第一層的對象查詢與圖像特征相關(guān)聯(lián),以獲得更好的檢測結(jié)果。其中還引入了空間調(diào)制交叉注意力機(jī)制(SMCA)和圖像引導(dǎo)的查詢初始化策略以提高檢測精度。
Query Initialization(查詢初始化)
LiDAR-Camera Fusion
如果一個物體只包含少量的激光雷達(dá)點(diǎn)時,那么只能獲得相同數(shù)量的圖像特征,浪費(fèi)了高質(zhì)量的圖像語義信息。所以該論文保留所有的圖像特征,使用Transformer中交叉注意機(jī)制和自適應(yīng)的方式進(jìn)行特征融合,使網(wǎng)絡(luò)能夠自適應(yīng)地從圖像中提取位置和信息。為了緩解LiDAR BEV特征和圖像特征來自不同的傳感器的空間不對齊問題,設(shè)計了一個空間調(diào)制交叉注意模塊(SMCA),該模塊通過圍繞每個查詢投影的二維中心的二維圓形高斯掩模對交叉注意進(jìn)行加權(quán)。
Image-Guided Query Initialization(圖像引導(dǎo)查詢初始化)
圖2 圖像引導(dǎo)查詢模塊
該模塊同時利用激光雷達(dá)和圖像信息作為對象查詢,就是通過將圖像特征和激光雷達(dá)BEV特征送入交叉關(guān)注機(jī)制網(wǎng)絡(luò),投射到BEV平面上,生成融合的BEV特征。具體如圖2所示,首先沿著高度軸折疊多視圖圖像特征作為交叉注意機(jī)制網(wǎng)絡(luò)的鍵值,而激光雷達(dá)BEV特征作為查詢送入注意力網(wǎng)絡(luò),得到融合的BEV特征,使用進(jìn)行熱圖預(yù)測,并與僅激光雷達(dá)的熱圖?做平均得到最終的熱圖?來選擇和初始化目標(biāo)查詢。這樣的操作使得模型能夠檢測到在激光雷達(dá)點(diǎn)云中難以檢測到的目標(biāo)。
實(shí)驗(yàn)
數(shù)據(jù)集和指標(biāo)
nuScenes數(shù)據(jù)集是一個用于3D檢測和跟蹤的大規(guī)模自動駕駛數(shù)據(jù)集,包含700、150和150個場景,分別用于訓(xùn)練、驗(yàn)證和測試。每幀包含一個激光雷達(dá)點(diǎn)云和六個覆蓋360度水平視場的校準(zhǔn)圖像。對于3D檢測,主要指標(biāo)是平均平均精度(mAP)和nuScenes檢測分?jǐn)?shù)(NDS)。mAP是由BEV中心距離而不是3D IoU定義的,最終mAP是通過對10個類別的0.5m, 1m, 2m, 4m的距離閾值進(jìn)行平均來計算的。NDS是mAP和其他屬性度量的綜合度量,包括平移、比例、方向、速度和其他方框?qū)傩??!?/p>
Waymo數(shù)據(jù)集包括798個用于訓(xùn)練的場景和202個用于驗(yàn)證的場景。官方的指標(biāo)是mAP和mAPH (mAP按航向精度加權(quán))。mAP和mAPH是基于3D IoU閾值定義的,車輛為0.7,行人和騎自行車者為0.5。這些指標(biāo)被進(jìn)一步分解為兩個難度級別:LEVEL1用于超過5個激光雷達(dá)點(diǎn)的邊界框,LEVEL2用于至少有一個激光雷達(dá)點(diǎn)的邊界框。與nuScenes的360度攝像頭不同,Waymo的攝像頭只能覆蓋水平方向的250度左右。
訓(xùn)練 在nuScenes數(shù)據(jù)集上,使用DLA34作為圖像的2D骨干網(wǎng)絡(luò)并凍結(jié)其權(quán)重,將圖像大小設(shè)置為448×800;選擇VoxelNet作為激光雷達(dá)的3D骨干網(wǎng)絡(luò)。訓(xùn)練過程分成兩個階段:第一階段僅以激光雷達(dá)數(shù)據(jù)作為輸入,以第一層解碼器和FFN前饋網(wǎng)絡(luò)訓(xùn)練3D骨干20次,產(chǎn)生初始的3D邊界框預(yù)測;第二階段對LiDAR-Camera融合和圖像引導(dǎo)查詢初始化模塊進(jìn)行6次訓(xùn)練。左圖是用于初始邊界框預(yù)測的transformer解碼器層架構(gòu);右圖是用于LiDAR-Camera融合的transformer解碼器層架構(gòu)。
圖3 解碼器層設(shè)計
與最先進(jìn)方法比較
首先比較TransFusion和其他SOTA方法在3D目標(biāo)檢測任務(wù)的性能,如下表1所示的是在nuScenes測試集中的結(jié)果,可以看到該方法已經(jīng)達(dá)到了當(dāng)時的最佳性能(mAP為68.9%,NDS為71.7%)。而TransFusion-L是僅使用激光雷達(dá)進(jìn)行檢測的,其檢測的性能明顯優(yōu)于先前的單模態(tài)檢測方法,甚于超過了一些多模態(tài)的方法,這主要是由于新的關(guān)聯(lián)機(jī)制和查詢初始化策略。而在表2中則是展示了在Waymo驗(yàn)證集上LEVEL 2 mAPH的結(jié)果。
表1 與SOTA方法在nuScenes測試中的比較
表2 Waymo驗(yàn)證集上的LEVEL 2 mAPH
對惡劣圖像條件的魯棒性
以TransFusion-L為基準(zhǔn),設(shè)計不同的融合框架來驗(yàn)證魯棒性。其中三種融合框架分別是逐點(diǎn)拼接融合激光雷達(dá)和圖像特征(CC)、點(diǎn)增強(qiáng)融合策略(PA)和TransFusion。如表3中顯示,將nuScenes數(shù)據(jù)集劃分成白天和黑夜,TransFusion的方法在夜間將會帶來更大的性能提升。在推理過程中將圖像的特征設(shè)置為零,以達(dá)到在每一幀隨機(jī)丟棄若干圖像的效果,那么在表4中可以看到,在推理過程中某些圖像不可用時,檢測的性能會顯著下降,其中CC和PA的mAP分別下降23.8%和17.2%,而TransFusion仍保持在61.7%。傳感器未校準(zhǔn)的情況也會大大影響3D目標(biāo)檢測的性能,實(shí)驗(yàn)設(shè)置從相機(jī)到激光雷達(dá)的變換矩陣中隨機(jī)添加平移偏移量,如圖4所示,當(dāng)兩個傳感器偏離1m時,TransFusion的mAP僅下降0.49%,而PA和CC的mAP分別下降2.33%和2.85%。
表3 白天和夜間的mAP
表4 在不同數(shù)量的圖像下的mAP
圖4 在傳感器未對齊情況下的mAP
消融實(shí)驗(yàn)
由表5 d)-f)的結(jié)果可看出,在沒有進(jìn)行查詢初始化的情況下,檢測的性能下降很多,雖然增加訓(xùn)練輪數(shù)和解碼器層數(shù)可以提高性能,但是仍舊達(dá)不到理想效果,這也從側(cè)面證明了所提出來的初始化查詢策略能夠減小網(wǎng)絡(luò)層數(shù)。而如表6所示,圖像特征融合和圖像引導(dǎo)查詢初始化分別帶來4.8%和1.6%的mAP增益。在表7中,通過在不同范圍內(nèi)精度的比較,TransFusion與僅激光雷達(dá)的檢測相比,在難以檢測的物體或者遙遠(yuǎn)區(qū)域的檢測的性能都得到了提升。
表5 查詢初始化模塊的消融實(shí)驗(yàn)
表6 融合部分的消融實(shí)驗(yàn)
表7 物體中心到自我車輛之間的距離(以米為單位)
結(jié)論
設(shè)計了一個有效且穩(wěn)健的基于Transformer的激光雷達(dá)相機(jī)3D檢測框架,該框架具有軟關(guān)聯(lián)機(jī)制,可以自適應(yīng)地確定應(yīng)該從圖像中獲取的位置和信息。TransFusion在nuScenes檢測和跟蹤排行榜上達(dá)到最新的最先進(jìn)的結(jié)果,并在Waymo檢測基準(zhǔn)上顯示了具有競爭力的結(jié)果。大量的消融實(shí)驗(yàn)證明了該方法對較差圖像條件的魯棒性。
DeepInteraction:
主要貢獻(xiàn):
主要解決的問題是現(xiàn)有的多模態(tài)融合策略忽略了特定于模態(tài)的有用信息,最終阻礙了模型的性能。點(diǎn)云在低分辨率下提供必要的定位和幾何信息,圖像在高分辨率下提供豐富的外觀信息,因此跨模態(tài)的信息融合對于增強(qiáng)3D目標(biāo)目標(biāo)檢測性能尤為重要。現(xiàn)有的融合模塊如圖1(a)所示,將兩個模態(tài)的信息整合到一個統(tǒng)一的網(wǎng)絡(luò)空間中,但是這樣做會使得部分信息無法融合到統(tǒng)一的表示里,降低了一部分特定于模態(tài)的表示優(yōu)勢。為了克服上述限制,文章提出了一種新的模態(tài)交互模塊(圖1(b)),其關(guān)鍵思想是學(xué)習(xí)并維護(hù)兩種特定于模態(tài)的表示,從而實(shí)現(xiàn)模態(tài)間的交互。主要貢獻(xiàn)如下:
- 提出了一種新的多模態(tài)三維目標(biāo)檢測的模態(tài)交互策略,旨在解決以前模態(tài)融合策略在每個模態(tài)中丟失有用信息的基本限制;
- 設(shè)計了一個帶有多模態(tài)特征交互編碼器和多模態(tài)特征預(yù)測交互解碼器的DeepInteraction架構(gòu)。
圖1 不同的融合策略
模塊詳解
多模態(tài)表征交互編碼器 將編碼器定制為多輸入多輸出(MIMO)結(jié)構(gòu):將激光雷達(dá)和相機(jī)主干獨(dú)立提取的兩個模態(tài)特定場景信息作為輸入,并生成兩個增強(qiáng)后的特征信息。每一層編碼器都包括:i)多模態(tài)特征交互(MMRI);ii)模態(tài)內(nèi)特征學(xué)習(xí);iii)表征集成。
圖2 多模態(tài)表征交互模塊
圖3 多模態(tài)預(yù)測交互模塊
實(shí)驗(yàn)
數(shù)據(jù)集和指標(biāo)同TransFusion的nuScenes數(shù)據(jù)集部分。
實(shí)驗(yàn)細(xì)節(jié) 圖像的主干網(wǎng)絡(luò)是ResNet50,為了節(jié)省計算成本,在輸入網(wǎng)絡(luò)之前將輸入圖像重新調(diào)整為原始大小的1/2,并在訓(xùn)練時凍結(jié)圖像分支的權(quán)重。體素大小設(shè)置為(0.075m,0.075m,0.2m),檢測范圍設(shè)為X軸和Y軸是[-54m,54m],Z軸是[-5m,3m],設(shè)計2層編碼器層和5層級聯(lián)的解碼器層。另外還設(shè)置了兩種在線提交測試模型:測試時間增加(TTA)和模型集成,將兩個設(shè)置分別稱為DeepInteraction-large和DeepInteraction-e。其中DeepInteraction-large使用Swin-Tiny作為圖像骨干網(wǎng)絡(luò),并且將激光雷達(dá)骨干網(wǎng)絡(luò)中卷積塊的通道數(shù)量增加一倍,體素大小設(shè)置為[0.5m,0.5m,0.2m],使用雙向翻轉(zhuǎn)和旋轉(zhuǎn)偏航角度[0°,±6.25°,±12.5°]以增加測試時間。DeepInteraction-e集成了多個DeepInteraction-large模型,輸入的激光雷達(dá)BEV網(wǎng)格尺寸為[0.5m,0.5m]和[1.5m,1.5m]。
根據(jù)TransFusion的配置進(jìn)行數(shù)據(jù)增強(qiáng):使用范圍為[-π/4,π/4]的隨機(jī)旋轉(zhuǎn),隨機(jī)縮放系數(shù)為[0.9,1.1],標(biāo)準(zhǔn)差為0.5的三軸隨機(jī)平移和隨機(jī)水平翻轉(zhuǎn),還在CBGS中使用類平衡重采樣來平衡nuScenes的類分布。和TransFusion一樣采用兩階段訓(xùn)練的方法,以TransFusion-L作為僅激光雷達(dá)訓(xùn)練的基線。使用單周期學(xué)習(xí)率策略的Adam優(yōu)化器,最大學(xué)習(xí)率1×10?3,權(quán)衰減0.01,動量0.85 ~ 0.95,遵循CBGS。激光雷達(dá)基線訓(xùn)練為20輪,激光雷達(dá)圖像融合為6輪,批量大小為16個,使用8個NVIDIA V100 GPU進(jìn)行訓(xùn)練。
與最先進(jìn)方法比較
表1 在nuScenes測試集上與最先進(jìn)方法的比較
如表1所示,DeepInteraction在所有設(shè)置下都實(shí)現(xiàn)了最先進(jìn)的性能。而在表2中分別比較了在NVIDIA V100、A6000和A100上測試的推理速度??梢钥吹?,在取得高性能的前提下,仍舊保持著較高的推理速度,驗(yàn)證了該方法在檢測性能和推理速度之間實(shí)現(xiàn)了優(yōu)越權(quán)衡。
表2 推理速度比較
消融實(shí)驗(yàn)
解碼器的消融實(shí)驗(yàn)
在表3(a)中比較了多模態(tài)交互預(yù)測解碼器和DETR解碼器層的設(shè)計,并且使用了混合設(shè)計:使用普通的DETR解碼器層來聚合激光雷達(dá)表示中的特征,使用多模態(tài)交互預(yù)測解碼器(MMPI)來聚合圖像表示中的特征(第二行)。MMPI明顯優(yōu)于DETR,提高了1.3% mAP和1.0% NDS,具有設(shè)計上的組合靈活性。表3(c)進(jìn)一步探究了不同的解碼器層數(shù)對于檢測性能的影響,可以發(fā)現(xiàn)增加到5層解碼器時性能是不斷提升的。最后還比較了訓(xùn)練和測試時采用的查詢數(shù)的不同組合,在不同的選擇下,性能上穩(wěn)定的,但以200/300作為訓(xùn)練/測試的最佳設(shè)置。
表3 解碼器的消融實(shí)驗(yàn)
編碼器的消融實(shí)驗(yàn)
從表4(a)中可以觀察到:(1)與IML相比,多模態(tài)表征交互編碼器(MMRI)可以顯著提高性能;(2) MMRI和IML可以很好地協(xié)同工作以進(jìn)一步提高性能。從表4(b)中可以看出,堆疊編碼器層用于迭代MMRI是有益的。
表4 編碼器的消融實(shí)驗(yàn)
激光雷達(dá)骨干網(wǎng)絡(luò)的消融實(shí)驗(yàn)
使用兩種不同的激光雷達(dá)骨干網(wǎng)絡(luò):PointPillar和VoxelNet來檢查框架的一般性。對于PointPillars,將體素大小設(shè)置為(0.2m, 0.2m),同時保持與DeepInteraction-base相同的其余設(shè)置。由于提出的多模態(tài)交互策略,DeepInteraction在使用任何一種骨干網(wǎng)時都比僅使用lidar基線表現(xiàn)出一致的改進(jìn)(基于體素的骨干網(wǎng)提高5.5% mAP,基于支柱的骨干網(wǎng)提高4.4% mAP)。這體現(xiàn)了DeepInteraction在不同點(diǎn)云編碼器中的通用性。
表5不同激光雷達(dá)主干網(wǎng)的評估
結(jié)論
在這項工作中,提出了一種新的3D目標(biāo)檢測方法DeepInteraction,用于探索固有的多模態(tài)互補(bǔ)性質(zhì)。這一關(guān)鍵思想是維持兩種特定于模態(tài)的表征,并在它們之間建立表征學(xué)習(xí)和預(yù)測解碼的相互作用。該策略是專門為解決現(xiàn)有單側(cè)融合方法的基本限制而設(shè)計的,即由于其輔助源角色處理,圖像表示未得到充分利用。
兩篇論文的總結(jié):
以上的兩篇論文均是基于激光雷達(dá)和相機(jī)融合的三維目標(biāo)檢測,從DeepInteraction中也可以看到它是借鑒了TransFusion的進(jìn)一步工作。從這兩篇論文中可以總結(jié)出多傳感器融合的一個方向,就是探究更高效的動態(tài)融合方式,以關(guān)注到更多不同模態(tài)的有效信息。當(dāng)然了,這一切建立在兩種模態(tài)均有著高質(zhì)量的信息。多模態(tài)融合在未來的自動駕駛、智能機(jī)器人等領(lǐng)域都會有很重要的應(yīng)用,隨著不同模態(tài)提取的信息逐漸豐富起來,我們能夠利用到的信息將會越來越多,那么如何將這些數(shù)據(jù)更高效的運(yùn)用起來也是一個值得思考的問題。