RadarPillars:從4D雷達(dá)中進(jìn)行高效目標(biāo)檢測(速度精度均有優(yōu)勢)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
論文思路:
汽車?yán)走_(dá)(radar)系統(tǒng)已經(jīng)發(fā)展到不僅提供距離、方位角和多普勒速度,還能提供俯仰數(shù)據(jù)。這一額外的維度使得4D雷達(dá)可以表示為3D點云。因此,現(xiàn)有的用于3D目標(biāo)檢測的深度學(xué)習(xí)方法,最初是為LiDAR數(shù)據(jù)開發(fā)的,經(jīng)常被應(yīng)用于這些雷達(dá)點云。然而,這忽略了4D雷達(dá)數(shù)據(jù)的特殊特性,例如極端稀疏性和速度信息的最佳利用。為了彌補這些在現(xiàn)有技術(shù)中的不足,本文提出了RadarPillars,一種基于柱狀結(jié)構(gòu)的目標(biāo)檢測網(wǎng)絡(luò)。通過分解徑向速度數(shù)據(jù),引入PillarAttention進(jìn)行高效特征提取,并研究層縮放以適應(yīng)雷達(dá)稀疏性,RadarPillars在View-of-Delft數(shù)據(jù)集上的檢測結(jié)果顯著優(yōu)于現(xiàn)有技術(shù)。重要的是,這在顯著減少參數(shù)量的同時,實現(xiàn)了超越現(xiàn)有方法的效率,并在邊緣設(shè)備上實現(xiàn)了實時性能。
論文設(shè)計:
在自動駕駛和汽車應(yīng)用的背景下,雷達(dá)作為一種關(guān)鍵的感知技術(shù)脫穎而出,使車輛能夠檢測到周圍的物體和障礙物。這一能力對于確保各種自動駕駛功能的安全性和效率至關(guān)重要,包括碰撞避免、自適應(yīng)巡航控制和車道保持輔助。雷達(dá)技術(shù)的最新進(jìn)展導(dǎo)致了4D雷達(dá)的發(fā)展,它結(jié)合了三個空間維度以及一個額外的多普勒速度維度。與傳統(tǒng)雷達(dá)系統(tǒng)不同,4D雷達(dá)引入了作為第三維度的俯仰信息。這一增強功能使得雷達(dá)數(shù)據(jù)可以表示為3D點云,類似于LiDAR或深度感應(yīng)相機生成的點云,從而能夠應(yīng)用之前僅限于這些傳感器的深度學(xué)習(xí)方法。
然而,盡管來自LiDAR檢測領(lǐng)域的深度學(xué)習(xí)技術(shù)已經(jīng)被適配到4D雷達(dá)數(shù)據(jù)上,但它們并沒有充分探索或適應(yīng)其獨特特性。與LiDAR數(shù)據(jù)相比,4D雷達(dá)數(shù)據(jù)顯著稀疏。盡管存在這種稀疏性,雷達(dá)獨特地提供了速度作為特征,這在各種場景中有助于移動物體的檢測,例如在LiDAR傳統(tǒng)上難以應(yīng)對的遠(yuǎn)距離場景中[1]。在View-of-Delft數(shù)據(jù)集中,平均每次4D雷達(dá)掃描僅包含216個點,而相同視野內(nèi)的LiDAR掃描包含21,344個點[2]。對此,本文提出了RadarPillars,一種專門為4D雷達(dá)數(shù)據(jù)量身定制的新型3D檢測網(wǎng)絡(luò)。通過RadarPillars,本文填補了當(dāng)前技術(shù)中的空白,并在以下幾個方面做出了貢獻(xiàn),大幅提升了性能,同時保持了實時能力:
- 增強速度信息的利用:本文分解徑向速度數(shù)據(jù),提供額外的特征,從而顯著提升網(wǎng)絡(luò)性能。
- 適應(yīng)雷達(dá)稀疏性:RadarPillars利用柱狀表示法[3]進(jìn)行高效的實時處理。本文利用4D雷達(dá)數(shù)據(jù)固有的稀疏性,并引入PillarAttention,一種將每個 pillar 作為一個 token 處理的新型自注意層,同時保持效率和實時性能。
- 針對稀疏雷達(dá)數(shù)據(jù)的擴(kuò)展:本文展示了雷達(dá)數(shù)據(jù)的稀疏性可能導(dǎo)致檢測網(wǎng)絡(luò)中信息量較少的特征。通過均勻網(wǎng)絡(luò),本文不僅提升了性能,還顯著減少了參數(shù)量,從而提高了運行效率。
圖1:RadarPillars在4D雷達(dá)上的檢測結(jié)果示例。汽車用紅色標(biāo)記,行人用綠色標(biāo)記,騎行者用藍(lán)色標(biāo)記。點的徑向速度由箭頭指示。
圖2:補償了4D雷達(dá)自車運動的絕對徑向速度$ v_r $。隨著物體的移動,$ v_r $會根據(jù)其相對于傳感器的航向角發(fā)生變化。由于其航向無法確定,汽車的實際速度$v$仍然未知。然而,$ v_r $可以分解為其$x$和$y$分量,以提供額外的特征。坐標(biāo)系統(tǒng)和命名法遵循View-of-Delft數(shù)據(jù)集[2]。
圖3:PillarAttention概述。本文利用雷達(dá)點云的稀疏性,通過使用掩碼從非空 pillars 中收集特征,將空間大小從$H, W$減少到$p$。每個具有$C$通道的柱狀特征被視為計算自注意力的一個 token 。本文的PillarAttention封裝在一個Transformer層中,前饋網(wǎng)絡(luò)(FFN)由層歸一化(Layer Norm)和兩個中間帶有GeLU激活的MLP組成。PillarAttention的隱藏維度$E$由層前后的MLP控制。最后,具有$C$通道的柱狀特征被散射回其在網(wǎng)格中的原始位置。本文的PillarAttention不使用位置嵌入。
圖4:本文提出的方法組合形成RadarPillars,與基準(zhǔn)方法PointPillars [3]的比較。在View-of-Delft數(shù)據(jù)集[2]上,整個雷達(dá)區(qū)域的一幀目標(biāo)檢測精度結(jié)果。幀率是在Nvidia AGX Xavier 32GB上評估的。
圖5:權(quán)重幅度分析比較不同通道大小的均勻縮放RadarPillars。結(jié)果顯示,隨著網(wǎng)絡(luò)規(guī)模的減小,權(quán)重強度增加。本可視化排除了無效權(quán)重和異常值。
實驗結(jié)果:
總結(jié):
本文提出了RadarPillars,利用4D雷達(dá)數(shù)據(jù)進(jìn)行目標(biāo)檢測的新方法。作為一個僅有 0.27 M 參數(shù)和1.99 GFLOPS的輕量級網(wǎng)絡(luò),RadarPillars在檢測性能方面建立了新的基準(zhǔn),同時實現(xiàn)了實時能力,顯著超越了當(dāng)前的先進(jìn)技術(shù)。本文研究了雷達(dá)速度的最佳利用,以為網(wǎng)絡(luò)提供增強的上下文。此外,本文引入了PillarAttention,這是一種創(chuàng)新的層,將每個 pillar 視為一個 token ,同時確保效率。本文展示了均勻縮放網(wǎng)絡(luò)在檢測性能和實時推理方面的優(yōu)勢。以RadarPillars為基礎(chǔ),本文未來的工作將集中于通過優(yōu)化主干網(wǎng)絡(luò)和探索無錨檢測頭來提升運行時間。另一條研究途徑是研究使用僅包含PillarAttention的Transformer層進(jìn)行端到端的目標(biāo)檢測,或?qū)⒂星熬暗腖iDAR方法[38], [39]適用于雷達(dá)。此外,本文還提出將RadarPillars擴(kuò)展到其他傳感器數(shù)據(jù)模態(tài)的潛力,如深度傳感器或LiDAR。