自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!

人工智能 新聞
RadarBEVNet是本論文提出的用于有效雷達BEV(鳥瞰圖)特征提取的網(wǎng)絡(luò)架構(gòu),主要包括兩個核心組成部分:雙流雷達主干網(wǎng)絡(luò)和RCS(雷達截面積)感知的BEV編碼器。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

這篇論文關(guān)注的主要問題是3D目標檢測技術(shù)在自動駕駛進程中的應(yīng)用。盡管環(huán)視相機技術(shù)的發(fā)展為3D目標檢測提供了高分辨率的語義信息,這種方法因無法精確捕獲深度信息和在惡劣天氣或低光照條件下的表現(xiàn)不佳等問題而受限。針對這一問題,論文提出了一種結(jié)合環(huán)視相機和經(jīng)濟型毫米波雷達傳感器的多模態(tài)3D目標檢測新方法——RCBEVDet。

RCBEVDet的核心在于兩個關(guān)鍵設(shè)計:RadarBEVNet和Cross-Attention Multi-layer Fusion Module(CAMF)。RadarBEVNet旨在有效提取雷達特征,它包括雙流雷達主干網(wǎng)絡(luò)和RCS(雷達截面積)感知的BEV(鳥瞰圖)編碼器。這樣的設(shè)計利用點基和變換器基編碼器處理雷達點,通過交互更新雷達點特征,同時將雷達特定的RCS特性作為目標大小的先驗信息來優(yōu)化BEV空間的點特征分布。而CAMF模塊通過多模態(tài)交叉注意力機制解決了雷達點的方位誤差問題,實現(xiàn)了雷達和相機的BEV特征圖的動態(tài)對齊以及通過通道和空間融合層的多模態(tài)特征自適應(yīng)融合。

論文提出的新方法通過以下幾點實現(xiàn)對現(xiàn)有問題的解決:

  • 高效的雷達特征提取器:通過雙流雷達主干和RCS感知的BEV編碼器設(shè)計,專門針對雷達數(shù)據(jù)的特性進行優(yōu)化,解決了使用為激光雷達設(shè)計的編碼器處理雷達數(shù)據(jù)的不足。
  • 強大的雷達-相機特征融合模塊:采用變形的交叉注意力機制,有效處理環(huán)視圖像和雷達輸入之間的空間不對齊問題,提高融合效果。

論文的主要貢獻如下:

  1. 提出了一種新穎的雷達-相機多模態(tài)3D目標檢測器RCBEVDet,實現(xiàn)了高精度、高效率和強魯棒性的3D目標檢測。
  2. 設(shè)計了針對雷達數(shù)據(jù)的高效特征提取器RadarBEVNet,通過雙流雷達主干和RCS感知BEV編碼器,提高了特征提取的效率和準確性。
  3. 引入了Cross-Attention Multi-layer Fusion模塊,通過變形交叉注意力機制實現(xiàn)了雷達和相機特征的精確對齊和高效融合。
  4. 在nuScenes和VoD數(shù)據(jù)集上達到了雷達-相機多模態(tài)3D目標檢測的新的最佳性能,同時在精度和速度之間實現(xiàn)了最佳平衡,并展示了在傳感器失效情況下的良好魯棒性。

詳解RCBEVDet

RadarBEVNet

RadarBEVNet是本論文提出的用于有效雷達BEV(鳥瞰圖)特征提取的網(wǎng)絡(luò)架構(gòu),主要包括兩個核心組成部分:雙流雷達主干網(wǎng)絡(luò)和RCS(雷達截面積)感知的BEV編碼器。

Dual-stream radar backbone

雙流雷達主干網(wǎng)絡(luò)由點基主干和變換器基主干組成。點基主干網(wǎng)絡(luò)通過多層感知機(MLP)和最大池化操作學(xué)習(xí)局部雷達特征,其過程可以簡化為以下公式:

這里的表示雷達點特征,通過MLP增加特征維度后,再通過最大池化操作提取全局信息并與高維特征連接。

變換器基主干則采用標準變換器塊,引入了距離調(diào)制的自注意力機制(DMSA),通過考慮雷達點之間的距離信息,優(yōu)化模型聚集鄰近信息的能力,促進模型的收斂。DMSA機制調(diào)節(jié)的自注意力可以表示為:

RCS-aware BEV encoder

為了解決傳統(tǒng)雷達BEV編碼器產(chǎn)生的BEV特征稀疏性問題,提出了RCS感知的BEV編碼器。它利用RCS作為目標大小的先驗信息,將雷達點特征散布到BEV空間中的多個像素上,而不是單一像素,以增加BEV特征的密度。該過程通過以下公式實現(xiàn):

其中,為基于RCS的高斯式BEV權(quán)重圖,通過最大化所有雷達點的權(quán)重圖來優(yōu)化。最終,將RCS散布得到的特征與連接并通過MLP處理,得到最終的RCS感知BEV特征。

整體而言,RadarBEVNet通過結(jié)合雙流雷達主干網(wǎng)絡(luò)和RCS感知的BEV編碼器,高效地提取雷達數(shù)據(jù)的特征,并通過RCS作為目標大小的先驗,優(yōu)化了BEV空間的特征分布,為之后的多模態(tài)融合提供了強大的基礎(chǔ)。

圖片

Cross-Attention Multi-layer Fusion Module

Cross-Attention Multi-layer Fusion Module (CAMF)是一種用于動態(tài)對齊和融合多模態(tài)特征的高級網(wǎng)絡(luò)結(jié)構(gòu),特別針對雷達和相機生成的鳥瞰圖(BEV)特征的動態(tài)對齊和融合設(shè)計。這一模塊主要解決了由于雷達點云的方位誤差導(dǎo)致的特征不對齊問題,通過變形的交叉注意力機制(Deformable Cross-Attention),有效地捕獲雷達點的微小偏差,并減少了標準交叉注意力的計算復(fù)雜度。

CAMF利用變形交叉注意力機制來對齊相機和雷達的BEV特征。給定相機和雷達的BEV特征和,首先給和添加可學(xué)習(xí)的位置嵌入,然后將轉(zhuǎn)換為查詢和參考點,作為鍵和值。多頭變形交叉注意力的計算可以表示為:

其中表示注意力頭的索引,表示采樣鍵的索引,是總的采樣鍵數(shù)。表示采樣偏移,是由和計算得到的注意力權(quán)重。

圖片

在通過交叉注意力對齊相機和雷達的BEV特征之后,CAMF使用通道和空間融合層來聚合多模態(tài)BEV特征。具體地,首先將兩個BEV特征串聯(lián)為,然后將送入CBR(卷積-批歸一化-激活函數(shù))塊并通過殘差連接獲得融合特征。CBR塊依次由一個的卷積層、一個批歸一化層和一個ReLU激活函數(shù)組成。之后,連續(xù)應(yīng)用三個CBR塊以進一步融合多模態(tài)特征。

通過上述過程,CAMF有效地實現(xiàn)了雷達和相機BEV特征的精確對齊和高效融合,為3D目標檢測提供了豐富而準確的特征信息,從而提高了檢測性能。

相關(guān)實驗

在VoD驗證集上的3D目標檢測結(jié)果比較中,RadarBEVNet通過融合相機和雷達數(shù)據(jù),在整個標注區(qū)域內(nèi)和興趣區(qū)域內(nèi)的平均精度(mAP)表現(xiàn)上均展現(xiàn)了優(yōu)秀的性能。具體來說,對于整個標注區(qū)域,RadarBEVNet在汽車、行人和騎行者的檢測上分別達到了40.63%、38.86%和70.48%的AP值,將綜合mAP提升到了49.99%。而在興趣區(qū)域,即靠近本車的駕駛通道內(nèi),RadarBEVNet的表現(xiàn)更為突出,分別在汽車、行人和騎行者的檢測上達到了72.48%、49.89%和87.01%的AP值,綜合mAP達到了69.80%。

這些結(jié)果揭示了幾個關(guān)鍵點。首先,RadarBEVNet通過有效融合相機和雷達輸入,能夠充分利用兩種傳感器的互補優(yōu)勢,提升了整體的檢測性能。相較于僅使用雷達的方法如PointPillar和RadarPillarNet,RadarBEVNet在綜合mAP上有明顯的提升,這表明多模態(tài)融合對于提高檢測精度尤為重要。其次,RadarBEVNet在興趣區(qū)域內(nèi)的表現(xiàn)特別優(yōu)秀,這對于自動駕駛應(yīng)用來說尤為關(guān)鍵,因為興趣區(qū)域內(nèi)的目標通常對即時駕駛決策影響最大。最后,雖然在汽車和行人的檢測上,RadarBEVNet的AP值略低于某些單一模態(tài)或其他多模態(tài)方法,但在騎行者檢測和綜合mAP表現(xiàn)上,RadarBEVNet展現(xiàn)了其綜合性能的優(yōu)勢。RadarBEVNet通過融合相機和雷達的多模態(tài)數(shù)據(jù),實現(xiàn)了在VoD驗證集上的優(yōu)異表現(xiàn),特別是在對自動駕駛至關(guān)重要的興趣區(qū)域內(nèi)展現(xiàn)了強大的檢測能力,證明了其作為一種有效的3D目標檢測方法的潛力。

這個消融實驗展示了RadarBEVNet在逐步添加主要組件時,對3D目標檢測性能的持續(xù)改進。從基準模型BEVDepth開始,每一步增加的組件都顯著提高了NDS(核心度量標準,反映了檢測精度和完整性)和mAP(平均精確度,反映了模型對目標的檢測能力)。

  1. 添加時間信息:通過引入時間信息,NDS和mAP分別提升了4.4和5.4個百分點。這表明時間信息對于提高3D目標檢測的準確性和魯棒性非常有效,可能是因為時間維度提供了額外的動態(tài)信息,有助于模型更好地理解場景和目標的動態(tài)特性。
  2. 加入PointPillar+BEVFusion(基于雷達和相機的融合):這一步進一步提升了NDS和mAP,分別增加了1.7和1.8個百分點。這說明通過融合雷達和相機數(shù)據(jù),模型能夠獲取更全面的場景理解,彌補了單一模態(tài)數(shù)據(jù)的局限。
  3. 引入RadarBEVNet:NDS和mAP分別再次提升2.1和3.0個百分點。RadarBEVNet作為一個高效的雷達特征提取器,優(yōu)化了雷達數(shù)據(jù)的處理,提高了特征的質(zhì)量和有效性,這對于整體檢測性能的提升至關(guān)重要。
  4. 添加CAMF(交叉注意力多層融合模塊):通過精細的特征對齊和融合,NDS增加了0.7個百分點,mAP稍微提升到45.6,顯示出在特征融合方面的有效性。這一步驟的改進雖然不如前幾步顯著,但依然證明了在多模態(tài)融合過程中,精確的特征對齊對于提高檢測性能的重要性。
  5. 加入時間監(jiān)督:最后,引入時間監(jiān)督后,NDS微增0.4個百分點至56.8,而mAP略有下降0.3個百分點至45.3。這表明時間監(jiān)督能進一步提升模型在時間維度的性能,盡管對mAP的貢獻可能受到特定實驗設(shè)置或數(shù)據(jù)分布的影響而略顯限制。

總的來說,這一系列的消融實驗清晰地展示了RadarBEVNet中每個主要組件對于提高3D目標檢測性能的貢獻,從時間信息的引入到復(fù)雜的多模態(tài)融合策略,每一步都為模型帶來了性能上的提升。特別是,對雷達和相機數(shù)據(jù)的精細處理和融合策略,證明了在復(fù)雜的自動駕駛環(huán)境中,多模態(tài)數(shù)據(jù)處理的重要性。

討論

論文提出的RadarBEVNet方法通過融合相機和雷達的多模態(tài)數(shù)據(jù),有效地提升了3D目標檢測的準確性和魯棒性,尤其在復(fù)雜的自動駕駛場景中表現(xiàn)出色。通過引入RadarBEVNet和Cross-Attention Multi-layer Fusion Module(CAMF),RadarBEVNet不僅優(yōu)化了雷達數(shù)據(jù)的特征提取過程,還實現(xiàn)了雷達和相機數(shù)據(jù)之間精準的特征對齊和融合,從而克服了單一傳感器數(shù)據(jù)使用中的局限性,如雷達的方位誤差和相機在低光照或惡劣天氣條件下的性能下降。

優(yōu)點方面,RadarBEVNet的主要貢獻在于其能夠有效處理并利用多模態(tài)數(shù)據(jù)之間的互補信息,提高了檢測的準確度和系統(tǒng)的魯棒性。RadarBEVNet的引入使得雷達數(shù)據(jù)的處理更為高效,而CAMF模塊確保了不同傳感器數(shù)據(jù)之間的有效融合,彌補了各自的不足。此外,RadarBEVNet在實驗中展現(xiàn)了在多個數(shù)據(jù)集上的優(yōu)異性能,尤其是在自動駕駛中至關(guān)重要的興趣區(qū)域內(nèi),顯示了其在實際應(yīng)用場景中的潛力。

缺點方面,盡管RadarBEVNet在多模態(tài)3D目標檢測領(lǐng)域取得了顯著成果,但其實現(xiàn)的復(fù)雜性也相應(yīng)增加,可能需要更多的計算資源和處理時間,這在一定程度上限制了其在實時應(yīng)用場景中的部署。此外,雖然RadarBEVNet在騎行者檢測和綜合性能上表現(xiàn)優(yōu)秀,但在特定類別上(如汽車和行人)的性能仍有提升空間,這可能需要進一步的算法優(yōu)化或更高效的特征融合策略來解決。

總之,RadarBEVNet通過其創(chuàng)新的多模態(tài)融合策略,在3D目標檢測領(lǐng)域展現(xiàn)了顯著的性能優(yōu)勢。盡管存在一些局限性,如計算復(fù)雜度較高和在特定檢測類別上的性能提升空間,但其在提高自動駕駛系統(tǒng)準確性和魯棒性方面的潛力不容忽視。未來的工作可以聚焦于優(yōu)化算法的計算效率和進一步提高其在各類目標檢測上的表現(xiàn),以推動RadarBEVNet在實際自動駕駛應(yīng)用中的廣泛部署。

結(jié)論

論文通過融合相機和雷達數(shù)據(jù),引入了RadarBEVNet和Cross-Attention Multi-layer Fusion Module(CAMF),在3D目標檢測領(lǐng)域展現(xiàn)出顯著的性能提升,特別是在自動駕駛的關(guān)鍵場景中表現(xiàn)優(yōu)異。它有效地利用了多模態(tài)數(shù)據(jù)之間的互補信息,提高了檢測準確性和系統(tǒng)的魯棒性。盡管存在計算復(fù)雜度高和在某些類別上性能提升空間的挑戰(zhàn),\ours在推動自動駕駛技術(shù)發(fā)展,尤其是在提升自動駕駛系統(tǒng)的感知能力方面,展現(xiàn)了巨大的潛力和價值。未來工作可以關(guān)注于優(yōu)化算法效率和進一步提升檢測性能,以便更好地適應(yīng)實時自動駕駛應(yīng)用的需求。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
點贊
收藏

51CTO技術(shù)棧公眾號