自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越BEVFormer!CR3DT:RV融合助力3D檢測&跟蹤新SOTA(ETH)

人工智能 智能汽車
相機和毫米波雷達融合的方案,相較于純LiDAR或者是LiDAR和相機融合的方案,具有低成本的優(yōu)勢,貼近當前自動駕駛汽車的發(fā)展。

本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

寫在前面&筆者的個人理解

本文介紹了一種用于3D目標檢測和多目標跟蹤的相機-毫米波雷達融合方法(CR3DT)。基于激光雷達的方法已經(jīng)為這一領域奠定了一個高標準,但是其高算力、高成本的缺陷制約了該方案在自動駕駛領域的發(fā)展;基于相機的3D目標檢測和跟蹤方案由于它的成本較低,也吸引了許多學者的關注,但是檢測效果較差。因此,將相機與毫米波雷達融合正在成為一個很有前景的方案。作者在現(xiàn)有的相機框架BEVDet下,融合毫米波雷達的空間和速度信息,結合CC-3DT++跟蹤頭,顯著提高了3D目標檢測和跟蹤的精度,中和了性能和成本之間的矛盾。

主要貢獻

傳感器融合架構 提出的CR3DT在BEV編碼器的前后均使用中間融合技術來集成毫米波雷達數(shù)據(jù);而在跟蹤上,采用一種準密集外觀嵌入頭,使用毫米波雷達的速度估計來進行目標關聯(lián)。

檢測性能評估 CR3DT在nuScenes 3D檢測驗證集上實現(xiàn)了35.1%的mAP和45.6%的nuScenes檢測分數(shù)(NDS)。利用雷達數(shù)據(jù)中包含的豐富的速度信息,與SOTA相機檢測器相比,檢測器的平均速度誤差(mAVE)降低了45.3%。

跟蹤性能評估 CR3DT在nuScenes跟蹤驗證集上的跟蹤性能為38.1% AMOTA,與僅使用相機的SOTA跟蹤模型相比,AMOTA提高了14.9%,跟蹤器中速度信息的明確使用和進一步改進顯著減少了約43%IDS的數(shù)量。

模型架構

該方法基于BEVDet架構,融合RADAR的空間與速度信息,結合CC-3DT++跟蹤頭,該頭在其數(shù)據(jù)關聯(lián)中明確使用了改進的毫米波雷達增強檢測器的速度估計,最終實現(xiàn)了3D目標檢測和跟蹤。

圖片圖1 整體架構。檢測和跟蹤分別以淺藍色和綠色突出顯示。

BEV 空間中的傳感器融合

如圖2所示是聚合到BEV空間以進行融合操作的Radar點云可視化結果,其中的LiDAR點云僅用于可視化對比。該模塊采用類似PointPillars的融合方法,包括其中的聚合和連接,BEV網(wǎng)格設置為[-51.2, 51.2],分辨率為0.8,從而得到一個(128×128)的特征網(wǎng)格。將圖像特征直接投射到BEV空間中,每個網(wǎng)格單元的通道數(shù)是64,繼而得到圖像BEV特征是(64×128×128);同樣的,將Radar的18個維度信息都聚合到每個網(wǎng)格單元中,這其中包括了點的x,y,z坐標,并且不對Radar數(shù)據(jù)做任何增強。作者認為Radar點云已經(jīng)包含比LiDAR點云更多的信息,因此得到了Radar BEV特征是(18×128×128)。最后將圖像BEV特征(64×128×128)和Radar BEV特征(18×128×128)直接連接起來((64+18)×128×128)作為BEV特征編碼層的輸入。在后續(xù)的消融實驗中發(fā)現(xiàn),在維度為(256×128×128)的BEV特征編碼層的輸出中添加殘量連接是有益的,從而使CenterPoint檢測頭的最終輸入大小為((256+18)×128×128)。

圖2 聚合到BEV空間進行融合操作的Radar點云可視化

跟蹤模塊架構

跟蹤就是基于運動相關性和視覺特征相似性將兩個不同幀的目標關聯(lián)起來。在訓練過程中,通過準密集多元正對比學習獲得一維視覺特征嵌入向量,然后在CC-3DT的跟蹤階段同時使用檢測和特征嵌入。對數(shù)據(jù)關聯(lián)步驟(圖1中DA模塊)進行了修改,以利用改進的CR3DT位置檢測和速度估計。具體如下:

實驗及結果

基于nuScenes數(shù)據(jù)集完成,且所有訓練均沒有使用CBGS。

受限制模型

因為作者整個模型是在一臺3090顯卡的電腦上進行的,所以稱之為受限制模型。該模型的目標檢測部分以BEVDet為檢測基線,圖像編碼的backbone是ResNet50,并且將圖像的輸入設置為(3×256×704),在模型中不使用過去或者未來的時間圖像信息,batchsize設置為8。為了緩解Radar數(shù)據(jù)的稀疏性,使用了五次掃描以增強數(shù)據(jù)。在融合模型中也沒有使用額外的時間信息。

對于目標檢測,采用mAP、NDS、mAVE的分數(shù)來評估;對于跟蹤,使用AMOTA、AMOTP、IDS來評估。

目標檢測結果

表1 在nuScenes驗證集上的檢測結果

表1顯示了CR3DT與僅使用相機的基線BEVDet (R50)架構相比的檢測性能。很明顯,Radar的加入顯著提高了檢測性能。在小分辨率和時間幀的限制下,與僅使用相機的BEVDet相比,CR3DT成功地實現(xiàn)了5.3%的mAP和7.7%的NDS的改進。但是由于算力的限制,論文中并沒有實現(xiàn)高分辨率、合并時間信息等的實驗結果。此外在表1中最后一列還給出了推理時間。

圖片

表2 檢測框架的消融實驗

在表2中比較了不同的融合架構對于檢測指標的影響。這里的融合方法分為兩種:第一種是論文中提到的,放棄了z維的體素化和隨后的3D卷積,直接將提升的圖像特征和純RADAR數(shù)據(jù)聚合成柱,從而得到已知的特征尺寸為((64+18)×128×128);另一種是將提升的圖像特征和純RADAR數(shù)據(jù)體素化為尺寸為0.8×0.8×0.8 m的立方體,從而得到替代特征尺寸為((64+18)×10×128×128),因此需要以3D卷積的形式使用BEV壓縮器模塊。由表2(a)中可以看到,BEV壓縮器數(shù)量的增加會導致性能下降,由此可以看到第一種方案表現(xiàn)得更為優(yōu)越。而從表2(b)中也可以看到,加入了Radar數(shù)據(jù)的殘差塊同樣能夠提升性能,也印證了前面模型架構中提到的,在BEV特征編碼層的輸出中添加殘量連接是有益的。

圖片表3 基于基線BEVDet和CR3DT的不同配置在nuScenes驗證集上的跟蹤結果

表3給出了改進的CC3DT++跟蹤模型在nuScenes驗證集上的跟蹤結果,給出了跟蹤器在基線和在CR3DT檢測模型上的性能。CR3DT模型使AMOTA的性能在基線上提高了14.9%,而在AMOTP中降低了0.11 m。此外,與基線相比,可以看到IDS降低了約43%。

圖片

表4 在CR3DT檢測骨干上進行了跟蹤架構消融實驗

結論

這項工作提出了一種高效的相機-雷達融合模型——CR3DT,專門用于3D目標檢測和多目標跟蹤。通過將Radar數(shù)據(jù)融合到只有相機的BEVDet架構中,并引入CC-3DT++跟蹤架構,CR3DT在3D目標檢測和跟蹤精度方面都有了大幅提高,mAP和AMOTA分別提高了5.35%和14.9%。

相機和毫米波雷達融合的方案,相較于純LiDAR或者是LiDAR和相機融合的方案,具有低成本的優(yōu)勢,貼近當前自動駕駛汽車的發(fā)展。另外毫米波雷達還有在惡劣天氣下魯棒的優(yōu)勢,能夠面對多種多樣的應用場景,當前比較大的問題就是毫米波雷達點云的稀疏性以及無法檢測高度信息。但是隨著4D毫米波雷達的不斷發(fā)展,相信未來相機和毫米波雷達融合的方案會更上一層樓,取得更為優(yōu)異的成果!

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-09-25 14:53:55

3D檢測

2023-12-12 10:23:54

自動駕駛雷達視覺

2024-08-21 10:04:14

2025-01-13 10:00:00

模型生成3D

2023-11-24 09:56:19

自動駕駛訓練

2024-10-15 13:07:38

2023-12-07 13:07:59

3D模型訓練

2023-11-29 11:45:54

模型智能

2023-09-27 09:59:53

自動駕駛訓練

2025-03-11 13:13:28

2024-03-20 15:53:28

模型技術

2012-11-26 12:51:44

木材3D打

2023-12-29 13:18:23

模型NeRFTICD

2025-01-07 09:11:07

2011-10-06 13:30:45

宏碁投影儀

2011-05-26 10:05:07

優(yōu)派投影機

2024-06-11 07:02:00

大模型3D內容生成技術

2011-05-25 16:07:17

2024-04-02 10:23:56

雷達自動駕駛

2021-12-28 10:52:10

鴻蒙HarmonyOS應用
點贊
收藏

51CTO技術棧公眾號