RCBEVDet++:邁向高精度雷達(dá)-攝像頭融合3D感知網(wǎng)絡(luò) !
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
感知周圍環(huán)境是自動(dòng)駕駛的基本任務(wù)。為了獲得高度精確和魯棒的感知結(jié)果,現(xiàn)代自動(dòng)駕駛系統(tǒng)通常采用多模態(tài)傳感器,如LiDAR、多視角攝像頭和毫米波雷達(dá),來收集全面的環(huán)境數(shù)據(jù)。
在這些傳感器中,雷達(dá)與攝像頭多模態(tài)感知系統(tǒng)尤其受到青睞,因?yàn)槠渚哂谐錾膫鞲心芰统杀拘б?。然而,毫米波雷達(dá)與多視角攝像頭傳感器之間的巨大模態(tài)差異給從這兩種傳感器融合信息帶來了顯著的挑戰(zhàn)。
為了解決這個(gè)問題,本文提出了RGEVDet,一種雷達(dá)與攝像頭3D目標(biāo)檢測(cè)框架。具體而言,RGEVDet基于現(xiàn)有的基于相機(jī)的3D目標(biāo)檢測(cè)模型,輔以專門設(shè)計(jì)的雷達(dá)特征提取器RadarBEVNet和雷達(dá)與攝像頭交叉注意力多層融合(CAMF)模塊。
首先,RadarBEVNet使用雙流雷達(dá) Backbone 網(wǎng)絡(luò)和Radar Cross Section(RCS)感知的BEV編碼器,將稀疏的雷達(dá)點(diǎn)編碼為密集的鳥瞰視圖(BEV)特征。其次,CAMF模塊利用變形注意力機(jī)制將雷達(dá)和攝像頭的BEV特征對(duì)齊,并采用通道和空間融合層來融合這些多模態(tài)特征。
為了進(jìn)一步提高RGEVDet的性能,作者提出了RGEVDet++,該方法在稀疏融合的CAMF上進(jìn)行改進(jìn),支持基于 Query 的多視角攝像頭感知模型,并適應(yīng)于更廣泛的感知任務(wù)。
在nuScenes數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,作者的方法與現(xiàn)有的基于相機(jī)的3D感知模型無縫集成,并在各種感知任務(wù)上提高它們的性能。
此外,作者的方法在3D目標(biāo)檢測(cè)、BEV語義分割和3D多目標(biāo)跟蹤任務(wù)中實(shí)現(xiàn)了最先進(jìn)的重疊雷達(dá)與攝像頭融合結(jié)果。值得一提的是,利用ViT-L作為圖像 Backbone ,RGEVDet++在無需測(cè)試時(shí)間增強(qiáng)或模型集成的情況下,實(shí)現(xiàn)了3D目標(biāo)檢測(cè)的72.73 NDS和67.34 mAP。
源代碼和模型將在https://github.com/VDiGRU/ROGEVDet。
1 Introduction
自動(dòng)駕駛旨在通過開發(fā)無需人工干預(yù)的系統(tǒng)來提高交通的安全性、效率和便利性[2, 3]。對(duì)于這些系統(tǒng)來說,的一個(gè)重要挑戰(zhàn)是像人類一樣全面感知周圍環(huán)境,這對(duì)于精確軌跡預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃至關(guān)重要。為了實(shí)現(xiàn)這一點(diǎn),現(xiàn)代自動(dòng)駕駛系統(tǒng)主要采用三種傳感器,例如多視圖攝像頭、毫米波雷達(dá)和激光雷達(dá),以收集周圍環(huán)境的信息。
在這些類型的傳感器中,激光雷達(dá)傳感器提供詳細(xì)的幾何信息,顯著提高了感知過程,導(dǎo)致最佳性能[4]。然而,高質(zhì)量激光雷達(dá)傳感器的價(jià)格昂貴,增加了制造成本。相比之下,多視圖攝像頭和毫米波雷達(dá)傳感器為制造商和用戶提供了更經(jīng)濟(jì)的選擇。與激光雷達(dá)相比,多視圖攝像頭捕獲了復(fù)雜的細(xì)節(jié),如顏色和紋理,提供了高分辨率的語義信息,而毫米波雷達(dá)在測(cè)距和速度估計(jì)方面具有優(yōu)勢(shì),在多種天氣和照明條件下都能可靠工作[5] [6]。此外,4D毫米波雷達(dá)技術(shù)的進(jìn)步逐漸克服了稀疏雷達(dá)點(diǎn)的限制,成為潛在的替代方案[8]。盡管這些具有優(yōu)勢(shì),但激光雷達(dá)與攝像頭或雷達(dá)基于的感知模型之間仍存在明顯的性能差距。橋接這個(gè)差距的實(shí)用且有效的策略是將毫米波雷達(dá)與多視圖攝像頭集成在一起,這可以互相補(bǔ)充,從而實(shí)現(xiàn)更全面和可靠的環(huán)境感知。
為了融合雷達(dá)和圖像數(shù)據(jù),近年來[9, 10]主要采用將多視圖圖像特征和雷達(dá)特征投影到鳥瞰視角(BEV)的BEVFusion Pipeline [4]。然而,像BEVFusion所采用的簡(jiǎn)單融合技術(shù)(如 ConCat 或求和)無法解決多視圖圖像和雷達(dá)輸入之間的空間對(duì)齊問題。此外,大多數(shù)雷達(dá)-攝像頭融合方法[12, 13, 14]仍使用原本用于激光雷達(dá)點(diǎn)(如PointPillars)的編碼器來提取雷達(dá)特征。雖然這些方法可以產(chǎn)生令人稱贊的結(jié)果,但它們所使用的特定激光雷達(dá)編碼器并沒有考慮到雷達(dá)的獨(dú)特特性,如雷達(dá)橫截面(RCS),導(dǎo)致性能不佳。
在本文中,作者提出了一種名為RGEVDet的新框架,用于將雷達(dá)和相機(jī)的特征在BEV空間中有效地融合在一起,進(jìn)行3D目標(biāo)檢測(cè)任務(wù)。針對(duì)雷達(dá)輸入的獨(dú)特特性,作者專門設(shè)計(jì)了一個(gè)名為RadarBEVNet的方案,以實(shí)現(xiàn)高效的雷達(dá)BEV特征提取。具體而言,RadarBEVNet首先通過雙流雷達(dá)解碼器將雷達(dá)輸入編碼為不同的點(diǎn)對(duì)基和Transformer基表示。此外,作者還實(shí)現(xiàn)了一個(gè)注入和提取模塊,將這兩個(gè)表示整合在一起。接下來,這些特征通過RCS感知的散射轉(zhuǎn)換為BEV特征,其中RCS被用作目標(biāo)大小的先驗(yàn)和分配點(diǎn)特征到BEV空間的任何位置。除了RadarBEVNet之外,RCBEVDet還集成了一個(gè)交叉注意力多層融合模塊(CAMF),以在BEV空間內(nèi)實(shí)現(xiàn)雷達(dá)和相機(jī)的特征融合。CAMF使用多模態(tài)交叉注意力自適應(yīng)校正兩種BEV特征之間的坐標(biāo)不匹配,然后應(yīng)用通道和空間融合層來進(jìn)一步鞏固多模態(tài)特征,提高整體檢測(cè)性能。
為了充分利用RCBEVDet的功能,作者升級(jí)了CAMF模塊,支持稀疏融合以支持基于 Query 的多視相機(jī)的感知模型。此外,作者還擴(kuò)展了RCBEVDet的功能,包括3D目標(biāo)檢測(cè)、BEV語義分割和3D多目標(biāo)跟蹤等更廣泛的感知任務(wù)。這個(gè)增強(qiáng)的框架被稱為RCBEVDet++。具體而言,為了適應(yīng)基于 Query 的多視相機(jī)的感知方法,作者用與原始相機(jī)BEV特征不同的基于目標(biāo)3D坐標(biāo)的相機(jī) Query 進(jìn)行替換。這開發(fā)了一種新的 Query 組件在作者的多模態(tài)交叉注意力機(jī)制中。接下來,作者進(jìn)行了一個(gè)投影和采樣過程,其中,相機(jī)目標(biāo) Query 被投影到BEV空間,并與相應(yīng)的雷達(dá)特征進(jìn)行匹配,以形成雷達(dá)目標(biāo) Query 。然后,作者使用可變形交叉注意力對(duì)多模態(tài) Query 進(jìn)行對(duì)齊。最后,調(diào)整后的多模態(tài) Query 被 ConCat 并送入一個(gè)簡(jiǎn)單的線性層進(jìn)行有效的特征融合,從而在擴(kuò)展的任務(wù)范圍內(nèi)提高感知性能。
本文的主要貢獻(xiàn)如下:
- 本文介紹了一種名為RCBEVDet的高度精確和魯棒的3D目標(biāo)檢測(cè)雷達(dá)-攝像頭融合框架。該框架包括RadarBEVNet用于雷達(dá)BEV特征提取和Cross-Attention Multi-layer Fusion Module (CAMF)用于在BEV空間中進(jìn)行魯棒雷達(dá)-攝像頭特征融合。
- 基于RCBEVDet,作者進(jìn)一步提出了RCBEVDet++感知框架,該框架擴(kuò)展了CAMF模塊以容納基于 Query 的多視攝像頭感知模型,并充分發(fā)揮了RCBEVDet在各種3D感知任務(wù)中的全部潛力。
- 在nuScenes基準(zhǔn)測(cè)試中,RCBEVDet提高了基于攝像頭的3D目標(biāo)檢測(cè)器的性能,并針對(duì)傳感器故障情況展示了魯棒性。此外,RCBEVDet++進(jìn)一步增強(qiáng)了基于攝像頭的感知模型,在雷達(dá)-攝像頭多模態(tài)3D目標(biāo)檢測(cè)、BEV語義分割和3D多目標(biāo)跟蹤任務(wù)中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
2 Related Work
Camera-ased 3D Perception
三維目標(biāo)檢測(cè)、BEV語義分割和三維多目標(biāo)跟蹤是自動(dòng)駕駛的三個(gè)基本感知任務(wù)。目前,許多三維多目標(biāo)跟蹤方法通常采用跟蹤-通過檢測(cè)框架,該框架利用三維目標(biāo)檢測(cè)的結(jié)果來關(guān)聯(lián)物體。這些跟蹤方法關(guān)注的是物體匹配,而不僅僅是高效處理輸入圖像。此外,更準(zhǔn)確的檢測(cè)結(jié)果可以帶來更高的跟蹤性能。因此,在這一部分,作者將主要討論處理多幀多視角攝像頭輸入的更豐富的三維目標(biāo)檢測(cè)和BEV語義分割方法。具體來說,三維目標(biāo)檢測(cè)旨在預(yù)測(cè)三維物體的位置和類別,而語義分割則整合了車輛識(shí)別、語義車道地圖預(yù)測(cè)和可行駛區(qū)域估計(jì)任務(wù)。然而,由于三維信息的不足,在三維空間中使用攝像頭圖像檢測(cè)物體和分割地圖具有挑戰(zhàn)性。近年來,許多研究已經(jīng)為解決這個(gè)問題做出了很大的努力,包括從圖像中推理深度[21],利用幾何約束和形似先驗(yàn)[22],設(shè)計(jì)特定的損失函數(shù)[23, 24],以及探索聯(lián)合三維檢測(cè)和重構(gòu)優(yōu)化[25]。最近,多視角傳感器已成為自動(dòng)駕駛車輛的流行配置,為提供更全面的環(huán)境信息。多視角相機(jī)數(shù)據(jù)集的出現(xiàn)[26, 27]導(dǎo)致了多視角三維目標(biāo)檢測(cè)和BEV語義分割方法的發(fā)展,可以大致分為基于幾何的方法和基于 Transformer 的方法兩種。
2.1.1 Geometry-based Methods
基于幾何的多視三維目標(biāo)檢測(cè)和BEV語義分割主要利用深度預(yù)測(cè)網(wǎng)絡(luò)來估計(jì)圖像的深度分布。這使得可以將從提取的2D圖像特征轉(zhuǎn)換為3D相機(jī) Frustum 特征。然后,通過 Voxel 池化等操作在 Voxel 或BEV空間構(gòu)建特征。
具體而言,Lift-Splat-Shoot(LSS)[28] 首次利用輕量級(jí)深度預(yù)測(cè)網(wǎng)絡(luò)明確估計(jì)每個(gè)圖像的深度分布和上下文向量。深度和上下文向量的外積決定了沿視角射線在3D空間中每個(gè)點(diǎn)上的特征,從而實(shí)現(xiàn)了將圖像特征有效轉(zhuǎn)換為BEV特征。在 LSS 的基礎(chǔ)上,F(xiàn)IERY[38] 引入了一個(gè)基于BEV的未來實(shí)例預(yù)測(cè)模型,能夠預(yù)測(cè)動(dòng)態(tài)代理的未來實(shí)例及其運(yùn)動(dòng)。BEVDet[16] 將視角變換技術(shù)從 LSS 擴(kuò)展到使用BEV特征檢測(cè)3D物體。此外,BEVDepth[29] 利用 LIDAR 的顯式深度信息作為監(jiān)督來增強(qiáng)深度估計(jì),并將攝像機(jī)的外部參數(shù)作為深度估計(jì)的先驗(yàn)參數(shù)。基于 BEVDet,BEVDet4D[30] 在歷史幀之間對(duì)BEV特征進(jìn)行空間對(duì)齊,顯著提高了檢測(cè)性能。此外,SOLOFusion[39] 提出將高分辨率短期和低分辨率長(zhǎng)期特征融合,提高具有長(zhǎng)期時(shí)間輸入的3D檢測(cè)的推理速度。
2.1.2 Transformer-based Methods
基于Transformer的方法利用注意力機(jī)制將預(yù)定義的 Query 投影到多個(gè)視圖圖像平面上,使用坐標(biāo)變換矩陣,并隨后更新 Query 特征和多視圖圖像特征。具體來說,開創(chuàng)性工作DETR3D [31]使用Transformer解碼器進(jìn)行3D目標(biāo)檢測(cè),發(fā)展了一種自頂向下框架,并利用一套一套的損失來衡量 GT 值和預(yù)測(cè)之間的差異。
類似地,CVT [35]引入了一個(gè)簡(jiǎn)單的BEV語義分割基準(zhǔn),該基準(zhǔn)使用交叉視圖Transformer架構(gòu)。在這一點(diǎn)之后,BEVformer [17]構(gòu)建了密集的BEV Query ,并采用了多尺度變形注意力,將多視圖圖像特征映射到這些密集 Query 。此外,PETR [32]通過將來自3D坐標(biāo)的顯式位置信息生成多視圖圖像特征。在PETR的基礎(chǔ)上,PETRv2 [40]將時(shí)間融合跨多個(gè)幀集成,并擴(kuò)展3D位置嵌入,具有時(shí)間感知建模。
此外,Sparse4D [41]為每個(gè)3D Anchor 點(diǎn)分配和投影多個(gè)4D關(guān)鍵點(diǎn),以生成不同的視圖、 aspect ratio 和時(shí)間戳特征,然后將這些特征分層融合以提高整體圖像特征表示。
Sparse4Dv2 [42]擴(kuò)展了Sparse4D,采用了更高效的時(shí)間融合模塊,并引入了攝像機(jī)參數(shù)編碼和密集深度監(jiān)督。最近,StreamPETR [34]利用稀疏目標(biāo) Query 作為中間表示來捕獲時(shí)間信息,并采用了自適應(yīng)尺度自注意力模塊和自適應(yīng)空間-時(shí)間采樣模塊的SparseBEV [33],以動(dòng)態(tài)捕獲BEV和時(shí)間信息。
Radar-camera 3D Perception
毫米波雷達(dá)由于其低成本、長(zhǎng)距離感知、多普勒速度測(cè)量以及對(duì)抗惡劣天氣條件的魯棒性,在自主車輛中得到了廣泛應(yīng)用。盡管毫米波雷達(dá)數(shù)據(jù)通常包括距離、角度和速度信息,但在測(cè)量目標(biāo)的俯仰角方面表現(xiàn)相對(duì)較差。此外,毫米波雷達(dá)數(shù)據(jù)固有的稀疏性和缺乏語義信息,對(duì)純雷達(dá)基于的3D感知提出了挑戰(zhàn)。因此,毫米波雷達(dá)通常被用來增強(qiáng)多模態(tài)3D感知系統(tǒng)的性能,作為輔助模式。
圖1:RCEVDet的整體 Pipeline 。首先,通過圖像編碼器處理多視圖圖像并提取特征,然后使用視圖轉(zhuǎn)換模塊將這些特征轉(zhuǎn)換為圖像BEV特征。同時(shí),雷達(dá)點(diǎn)云通過提出的RadarBEVNet編碼為雷達(dá)BEV特征。接下來,圖像和雷達(dá)BEV特征使用Cross-Attention Multi-layer Fusion模塊動(dòng)態(tài)對(duì)齊和聚合。最后,將融合后的多模態(tài)語義豐富的BEV特征用于3D目標(biāo)檢測(cè)任務(wù)。
近年來,由于多視圖攝像頭和毫米波雷達(dá)傳感器在3D感知方面的互補(bǔ)性質(zhì),其組合引起了廣泛關(guān)注。具體來說,RadarNet [43]引入了雷達(dá)-攝像頭融合的多級(jí)融合 Pipeline ,以提高遠(yuǎn)程目標(biāo)檢測(cè)的準(zhǔn)確性和減少速度誤差。CenterFusion [14]利用關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)從圖像生成初始的3D檢測(cè)結(jié)果,并將基于柱子的雷達(dá)關(guān)聯(lián)模塊用于通過將雷達(dá)特征與相應(yīng)的檢測(cè)框鏈接來細(xì)化這些結(jié)果。類似地,MVFusion [44]實(shí)現(xiàn)了攝像頭和毫米波雷達(dá)之間的語義對(duì)齊,增強(qiáng)了這兩者之間的交互。
此外,Simple-BEV [45]調(diào)查了多傳感器BEV感知系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì)和超參數(shù)設(shè)置。CRAFT [12]提出了一種使用Soft-Polar-Association和Spatio-Contextual Fusion Transformer的 Proposal 級(jí)融合框架,用于高效地在攝像頭和毫米波雷達(dá)之間交換信息。RADIANT [46]開發(fā)了一個(gè)網(wǎng)絡(luò)來估計(jì)雷達(dá)回波和物體中心之間的位置偏移,并利用雷達(dá)深度信息來增強(qiáng)攝像頭的特征。近年來,CRN [13]為多視圖轉(zhuǎn)換生成雷達(dá)增強(qiáng)圖像特征并采用雷達(dá)深度信息,并利用交叉注意機(jī)制解決雷達(dá)和攝像頭傳感器之間的空間不對(duì)齊和信息不匹配問題。
RCFusion [9]利用雷達(dá)PillarNet [47]生成雷達(dá)偽圖像,并提出了一種加權(quán)融合模塊有效地將雷達(dá)和攝像頭的BEV特征進(jìn)行融合。
BEVGuide 基于CVT 框架并提出了一種基于BEV的傳感器無關(guān)的關(guān)注模塊,有助于BEV表示學(xué)習(xí)和理解。BEVCar [37]引入了一種創(chuàng)新的雷達(dá)-攝像頭融合方法,用于BEV圖和目標(biāo)分割,并采用基于注意的圖像提升策略。
RadarBEVNet
先前雷達(dá)-攝像頭融合方法通常使用設(shè)計(jì)用于激光雷達(dá)點(diǎn)云的雷達(dá)編碼器,如PointPillars 。相比之下,作者引入了RadarBEVNet,專為高效雷達(dá)BEV特征提取而設(shè)計(jì)。RadarBEVNet通過雙流雷達(dá) Backbone 網(wǎng)絡(luò)和RCS感知的BEV編碼器將稀疏雷達(dá)點(diǎn)編碼為密集的BEV特征,其中RCS感知的BEV編碼器利用RCS作為一個(gè)物體大小的先驗(yàn),將單個(gè)雷達(dá)點(diǎn)的特征分散到BEV空間中的多個(gè)像素中。
3.1.1 Dual-stream radar backbone
雙流式雷達(dá) Backbone 結(jié)構(gòu)包含兩部分:基于點(diǎn)的 Backbone 結(jié)構(gòu)和基于 Transformer 的 Backbone 結(jié)構(gòu)。
基于點(diǎn)的 Backbone 結(jié)構(gòu)專注于學(xué)習(xí)局部雷達(dá)特征,而基于 Transformer 的 Backbone 結(jié)構(gòu)捕獲全局信息。
對(duì)于點(diǎn)型的 Backbone 結(jié)構(gòu),作者采用類似于PointNet[49]的架構(gòu)。如圖2a所示,點(diǎn)型的 Backbone 結(jié)構(gòu)由S個(gè)塊組成,每個(gè)塊中包含一個(gè)多層感知機(jī)(MLP)和一次池化操作。具體而言,輸入雷達(dá)點(diǎn)特征f首先通過MLP增加其特征維數(shù)。然后,將高維雷達(dá)特征送入MaxPool層,并使用殘差連接。整個(gè)過程可以形式化為以下公式:
至于基于 Transformer 的 Backbone 結(jié)構(gòu),它由S個(gè)標(biāo)準(zhǔn) Transformer 塊[50, 51]組成,其中包含注意力機(jī)制、前饋網(wǎng)絡(luò)和歸一化層,如圖2b所示。由于自主駕駛場(chǎng)景的廣泛范圍,直接使用標(biāo)準(zhǔn)自注意力優(yōu)化模型可以具有挑戰(zhàn)性。為了應(yīng)對(duì)這個(gè)問題,作者提出了一種距離調(diào)制自注意力機(jī)制(DMSA),通過在早期訓(xùn)練迭代階段聚合相鄰信息來促進(jìn)模型收斂。具體而言,給定N個(gè)雷達(dá)點(diǎn)的坐標(biāo),作者首先計(jì)算所有點(diǎn)之間的對(duì)距離D∈R^{N×N}。
實(shí)際上,高斯樣權(quán)重圖G賦予點(diǎn)附近的位置高權(quán)重,遠(yuǎn)離點(diǎn)的位置低權(quán)重。作者可以使用生成的權(quán)重G調(diào)制注意力機(jī)制,如下公式所示:
這里d表示輸入特征維數(shù)。
在雙流雷達(dá) Backbone 結(jié)構(gòu)中,作者還引入了密集連接的多尺度特征金字塔以捕捉不同空間范圍的信息,并將點(diǎn)型的 Backbone 結(jié)構(gòu)與基于 Transformer 的 Backbone 結(jié)構(gòu)相結(jié)合:
作者在多個(gè)數(shù)據(jù)集(包括PASCAL VOC 2007數(shù)據(jù)集和其他幾個(gè)數(shù)據(jù)集)上對(duì)提出的方法進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,與基于單流的信息融合方式相比,雙流雷達(dá) Backbone 結(jié)構(gòu)可以更好地提取局部雷達(dá)特征并利用全局信息。
為了增強(qiáng)來自兩種不同后置的雷達(dá)特性的交互,作者引入了注入和提取模塊,該模塊基于交叉注意力,如圖3所示。此模塊應(yīng)用于兩種后置的每個(gè)塊。
3.1.2 RCS-aware BEV encoder
當(dāng)前的雷達(dá)BERV編碼器通常將點(diǎn)特征散射到BERV空間,基于點(diǎn)的3D坐標(biāo)。然而,這將導(dǎo)致一個(gè)稀疏的BERV特征圖,其中大多數(shù)像素都包含零值。這種稀疏性使得一些像素有效地聚合特征變得困難,可能會(huì)影響檢測(cè)性能。一個(gè)解決方案是增加BERV編碼器層數(shù),但這也可能導(dǎo)致背景特征將小目標(biāo)特征平滑掉。為了解決這個(gè)問題,作者提出了一種稱為RC-aware的BERV編碼器。雷達(dá)橫截面積(RCS)是通過雷達(dá)測(cè)量目標(biāo)的可檢測(cè)性。例如,較大的物體通常會(huì)產(chǎn)生更強(qiáng)的雷達(dá)波反射,導(dǎo)致更大的RCS測(cè)量。因此,RCS可以提供一個(gè)物體的尺寸的粗糙估計(jì)。
RC-aware BERV編碼器的關(guān)鍵設(shè)計(jì)是RC-aware散射操作,它利用RCS作為目標(biāo)的尺寸的先驗(yàn)估計(jì)。利用這個(gè)先驗(yàn),作者提出的散射操作允許單個(gè)雷達(dá)點(diǎn)上的特征被散射到BERV空間中的多個(gè)像素,而不是局限于一個(gè)像素,如圖4所示。
Cross-Attention Multi-layer Fusion Module
在本節(jié)開始介紹 交叉注意力多層融合模塊
3.2.1 Multi-modal Feature Alignment with Cross-Attention
3.2.2 Channel and Spatial Fusion
4 Rcbevdet++: Radar-camera sparse fusion for 3D perception
圖6說明了,為了充分挖掘RcbeVDet的潛力,作者將CAMF模塊擴(kuò)展以支持稀疏融合與基于 Query 的多視點(diǎn)相機(jī)感知模型,這種方法比基于BEV的方法獲得了更高的準(zhǔn)確度。此外,作者將RcbeVDet應(yīng)用到了更多的感知任務(wù),包括3D目標(biāo)檢測(cè),BEV語義分割和3D多目標(biāo)跟蹤。為了區(qū)分這個(gè)更新的RcbeVDet版本與原始版本,作者特意將其命名為RcbeVDet++。
Sparse Fusion with CAMF
圖7所示,作者采用CAMF的稀疏融合方法將密集雷達(dá)BEV特征和圖像稀疏特征進(jìn)行融合。具體而言,作者首先用圖像稀疏特征替換原始圖像BEV特征。然后,作者執(zhí)行一個(gè)投影和抽樣過程,使用3D絕對(duì)位置將每個(gè)圖像稀疏特征與雷達(dá)特征關(guān)聯(lián)。更具體地說,作者將3D絕對(duì)位置轉(zhuǎn)換為BEV,并用雙linear插值采樣相應(yīng)的雷達(dá)特征,以獲得稀疏雷達(dá)特征。接下來,作者利用MLP組成的位置編碼網(wǎng)絡(luò)將3D絕對(duì)位置轉(zhuǎn)換為3D位置嵌入,并將其添加到多模態(tài) Query 中。然后,為了對(duì)齊多模態(tài)不匹配,作者采用可變形交叉注意力針對(duì)稀疏圖像特征和密集雷達(dá)BEV特征,以及針對(duì)稀疏雷達(dá)特征和稀疏圖像特征采用簡(jiǎn)單的交叉注意力。
作者的RCBEVDet++可以生成高質(zhì)量的多模態(tài)特征,這些特征可以用于各種3D感知任務(wù),包括3D目標(biāo)檢測(cè),3D多目標(biāo)跟蹤和BEV語義分割。為了預(yù)測(cè)3D目標(biāo)的邊框,作者采用 Query 引導(dǎo)的Transformer解碼器[33],并在每個(gè)Transformer解碼器層中應(yīng)用CAMF模塊進(jìn)行稀疏融合。
然后,作者采用跟蹤檢測(cè)框架來進(jìn)行3D多目標(biāo)跟蹤任務(wù)。具體而言,作者執(zhí)行基于速度的貪婪距離匹配,即對(duì)每個(gè)目標(biāo)在多個(gè)幀中計(jì)算中心距離,使用預(yù)測(cè)的加速度補(bǔ)償,并以貪心方式為具有最小中心距離的目標(biāo)分配相同的ID。
對(duì)于BEV語義分割,作者將多模態(tài)特征轉(zhuǎn)換為密集BEV特征,因?yàn)檫@將需要具有類別密度的密集BEV映射。作者遵循CVT[35]解碼器架構(gòu)來有效地解碼密集BEV特征到具有語義表示的不同圖。此外,作者采用多個(gè)頭來執(zhí)行不同類型的BEV語義分割任務(wù),每個(gè)頭處理一個(gè)任務(wù),例如車輛分割。最后,作者使用焦損失[54]并采用Sigmoid層作為訓(xùn)練的監(jiān)督。
5 Experiments
在本節(jié)中,作者通過大量實(shí)驗(yàn)評(píng)估 RCBEVDet 和 RCBEVDet++。在第 5.1 節(jié)中,作者詳細(xì)介紹了實(shí)驗(yàn)設(shè)置。在第 5.2 節(jié)中,作者將作者的方法與最先進(jìn)的州界方法在三個(gè)任務(wù)中進(jìn)行了比較,這些任務(wù)分別是 即 三維目標(biāo)檢測(cè)、BEV語義分割和 3D 多目標(biāo)跟蹤。在第 5.3 節(jié)中,作者進(jìn)行了一項(xiàng)廣泛的 Ablation 研究,以調(diào)查 RCBEVDet 和 RCBEVDet++ 中的單個(gè)組件。在第 5.4 節(jié)中,作者討論了 RCBEVDet++ 在 BEV 語義分割中的任務(wù)權(quán)衡。在第 5.5 節(jié)中,作者展示了 RCBEVDet 的魯棒性。在第 5.6 節(jié)中,作者展示了作者方法的可建模性。
Implementation Details
5.1.1 Datasets and Evaluation Metrics
作者在一項(xiàng)流行的自動(dòng)駕駛大規(guī)模評(píng)估標(biāo)準(zhǔn)(nuScenes[26])上進(jìn)行了實(shí)驗(yàn),該標(biāo)準(zhǔn)包括美國(guó)波士頓和新加坡的1000個(gè)駕駛場(chǎng)景。該標(biāo)準(zhǔn)包含850個(gè)場(chǎng)景用于訓(xùn)練和驗(yàn)證,以及150個(gè)場(chǎng)景用于測(cè)試。作者在驗(yàn)證和測(cè)試集上報(bào)告結(jié)果,并與最先進(jìn)的算法進(jìn)行比較,同時(shí)在驗(yàn)證集上評(píng)估了消融結(jié)果。
對(duì)于3D目標(biāo)檢測(cè),nuScenes提供了一組評(píng)估指標(biāo),包括平均精度(mAP)和五個(gè)真陽(yáng)性(TP)指標(biāo):ATE,ASE,AOE,AVE和AAE,分別衡量了轉(zhuǎn)換、縮放、方向、速度和屬性錯(cuò)誤。總體性能由nuScenes檢測(cè)得分(NDS)衡量,該得分整合了所有錯(cuò)誤類型:
對(duì)于BEV語義分割,作者使用所有分割類別之間的平均交點(diǎn)(mIoU)作為指標(biāo),遵循LSS[28]的設(shè)置。
對(duì)于3D多目標(biāo)跟蹤,作者遵循nuScenes的官方指標(biāo),使用了各種召回閾值下的平均多目標(biāo)跟蹤精度(AMOTP)和平均多目標(biāo)跟蹤準(zhǔn)確率(AMOTA)。具體來說,AMOTA定義如下:
5.1.2 Architecture and Training Details
本文采用BEVDepth [29]、BEVPoolv2 [55]、SparseBEV [33]作為RCBEVDet和RCBEVDet++的攝像機(jī)流。對(duì)于BEVDepth,作者遵循BEVDet4D [30]來累積多幀的中間BEV特征,并添加一個(gè)額外的BEV編碼器來聚合這些多幀的BEV特征。對(duì)于雷達(dá),作者累積多掃雷達(dá)點(diǎn),并以RCS和多普勒速度作為輸入特征,與GRIFNet [56]和CRN [13]相同的方式。作者將雙流雷達(dá)骨架中 stages(階段)的數(shù)量設(shè)置為3。
對(duì)于三維目標(biāo)檢測(cè) Head ,作者使用CenterPoint [57]中的中心 Head 進(jìn)行RCBEVDet,并使用SparseBEV [33]中的稀疏 Head 進(jìn)行RCBEVDet++。在BEV語義分割 Head ,作者為每個(gè)任務(wù)采用單獨(dú)的分割 Head 。對(duì)于三維多目標(biāo)跟蹤,作者遵循CenterPoint,以貪心方式跟蹤多幀中的目標(biāo)中心。
作者的模型分為兩階段訓(xùn)練。第一階段,作者根據(jù)標(biāo)準(zhǔn)實(shí)現(xiàn) [29, 33]訓(xùn)練基于攝像機(jī)的模型。第二階段,作者訓(xùn)練雷達(dá)-攝像機(jī)融合模型。攝像機(jī)流的權(quán)重從第一階段繼承,并在第二階段中凍結(jié)攝像機(jī)流的參數(shù)。所有模型使用AdamW [58]優(yōu)化器訓(xùn)練12個(gè)周期。為了防止過擬合,作者從圖像旋轉(zhuǎn)、裁剪、縮放和翻轉(zhuǎn)以及雷達(dá)水平翻轉(zhuǎn)、水平旋轉(zhuǎn)和坐標(biāo)縮放等方面應(yīng)用了各種數(shù)據(jù)增強(qiáng)。
Comparison with State-of-the-Art
作者將作者的方法與當(dāng)前最先進(jìn)的基于攝像頭的和雷達(dá)-攝像頭多模態(tài)方法進(jìn)行了比較,應(yīng)用于三個(gè)任務(wù):3D目標(biāo)檢測(cè),BEV語義分割,和3D多目標(biāo)跟蹤。
5.2.1 3D Object Detection
作者在表格I和II中分別提供了在val集和測(cè)試集上的3D目標(biāo)檢測(cè)結(jié)果。
如表1所示,RCBEVDet在各種backbone上超越了之前的雷達(dá)-攝像頭多模態(tài)3D目標(biāo)檢測(cè)方法。此外,基于SparseBEV,RCBEVDet++比CRN提高了4.4 NDS,展示了作者融合方法的有效性。另外,與之前的最佳方法相比,RCBEVDet和RCBEVDet++將速度誤差降低了14.6%,證明了作者在利用雷達(dá)信息方面的方法效率。
在測(cè)試集上,使用V2-99 Backbone 時(shí),RCBEVDet++將SparseBEV Baseline 提高了5.1 NDS和7.0 mAP,并超越了其離線版本(使用未來幀)。值得一提的是,使用較小V2-99 Backbone 的RCBEVDet++與StreamPETR和Far3D使用較大 Backbone Vit-L的性能相當(dāng)。此外,使用較大Vit-L Backbone 的RCBEVDet++在無測(cè)試時(shí)數(shù)據(jù)增強(qiáng)的情況下實(shí)現(xiàn)了72.7 NDS和67.3 mAP,為nuScenes上的雷達(dá)-攝像頭3D目標(biāo)檢測(cè)設(shè)立了新的最先進(jìn)結(jié)果。
5.2.2 BEV Semantic Segmentation
在Table III的val集上,作者將作者的方法與最先進(jìn)的BEV語義分割方法進(jìn)行比較。采用ResNet-101 Backbone 網(wǎng),RCBEVDet++在"Drivable Area"類別的性能上比CRN有0.6的IoU優(yōu)勢(shì),同時(shí)也比BEVGuide在"Lane"類別的性能上有了6.3的IoU優(yōu)勢(shì)。在所有任務(wù)的綜合評(píng)估中,RCBEVDet++達(dá)到了驚人的62.8 mIoU,比之前的最佳結(jié)果提高了1.8 mIoU。這些結(jié)果表明了作者在處理BEV語義分割任務(wù)時(shí)的方法的有效性。
state-of-the-art的性能,mIoU達(dá)到62.8,比之前的最佳結(jié)果提高了1.8 mIoU。這些結(jié)果展示了作者的方法在處理BEV語義分割任務(wù)上的有效性。
5.2.3 3D Multi-Object Tracking
在表4中,作者總結(jié)了在nuScenes測(cè)試集上的3D多目標(biāo)跟蹤結(jié)果。由于作者方法在估計(jì)物體位置和速度方面的高精度,RGEVDet++同時(shí)實(shí)現(xiàn)了最佳的AMOTA和AMOTP,與最先進(jìn)的方法相比。
Ablation Studies
作者對(duì)所提出的方法的各個(gè)設(shè)計(jì)選擇進(jìn)行了評(píng)估。為了簡(jiǎn)便起見,作者對(duì)3D檢測(cè)任務(wù)進(jìn)行了評(píng)估。所有結(jié)果都在nuScenes驗(yàn)證集上得到,使用了ResNet-50 Backbone 網(wǎng)絡(luò),圖像輸入大小為256X704,BEV大小為128X128,除非另有說明。
5.3.1 Main Components
在本研究中,作者對(duì)第三節(jié)中的主要組成部分進(jìn)行實(shí)驗(yàn),以便評(píng)估它們的有效性,包括RadarBEVNet和CAMF。具體來說,如表5所示,作者逐步向baseline BEVDepth添加組件以創(chuàng)建RGEVDet。首先,基于僅使用相機(jī)的模型,作者利用CRN [13]中采用PointPillar作為雷達(dá)背骨的單雷達(dá)和相機(jī)的3D目標(biāo)檢測(cè) Baseline 。該 Baseline 雷達(dá)-相機(jī)檢測(cè)器 achieve 53.6 NDS和42.3 mAP,相較于僅使用相機(jī)的檢測(cè)器提高了1.7 NDS和1.8 mAP。接下來,將PointPillar替換為提出的RadarBEVNet,產(chǎn)生了2.1 NDS和3.0 mAP的改進(jìn),證明Radar-BEVNet的雷達(dá)特征表示能力很強(qiáng)。此外,整合CAMF將3D檢測(cè)性能從55.7 NDS提高到56.4 NDS。此外,作者遵循Hop [66]的方法,引入額外的多幀損失,稱為Temporal Supersonic,從而實(shí)現(xiàn)0.4 NDS的改進(jìn)和0.3 mAP的降低。
總的來說,作者觀察到每個(gè)組成部分都持續(xù)地提升了3D目標(biāo)檢測(cè)性能。同時(shí),結(jié)果表明多模塊融合可以顯著提升檢測(cè)性能。
5.3.2 RadarBEVNet
表6中展示了與RadarBEVNet設(shè)計(jì)相關(guān)的實(shí)驗(yàn)結(jié)果,包括雙流雷達(dá) Backbone 網(wǎng)絡(luò)和了解目標(biāo)散射截面(RCS)的BEV編碼器。具體而言,使用PointPillar作為雷達(dá) Backbone 的基礎(chǔ)模型實(shí)現(xiàn)了54.3 NDS和42.6 mAP。將了解目標(biāo)散射截面的BEV編碼器集成到模型中,使其在3D目標(biāo)檢測(cè)方面的性能提高了1.4 NDS和1.9 mAP,證明了所提出的了解目標(biāo)散射截面的BEV特征重建的有效性。此外,作者發(fā)現(xiàn)直接將基于Transformer的 Backbone 與BEV Backbone 相結(jié)合,其性能僅略有提高。這可以歸因于基于點(diǎn)和小Transformer Backbone 分別對(duì)雷達(dá)點(diǎn)進(jìn)行單獨(dú)處理,它們各自獨(dú)特的雷達(dá)特征表示缺乏有效的交互。為了解決這個(gè)問題,作者引入了注入和提取模塊,從而提高了0.6 NDS和0.8 mAP的性能。
此外,作者在不同的輸入模式下,將所提出的RadarBEVNet與PointPillar進(jìn)行了比較。如表7所示:
5.3.3 Cross-attention Multi-layer Fusion (CAMF)
在本研究中,作者對(duì)CAMF模塊進(jìn)行了消融實(shí)驗(yàn),該模塊包括用于對(duì)多模態(tài)特征進(jìn)行對(duì)齊的可變形交叉注意力機(jī)制以及用于BEV特征融合的通道和空間融合模塊,如表8所示。具體而言,使用來自BEVfusion[4]的融合模塊的基準(zhǔn)模型在融合模塊上獲得了55.7 NDS和45.3 mAP。當(dāng)引入可變形交叉注意力機(jī)制進(jìn)行多模態(tài)BEV特征對(duì)齊時(shí),3D檢測(cè)性能從55.7 NDS和45.3 mAP提高到56.1 NDS和45.5 mAP。這突顯了交叉注意力機(jī)制在跨模態(tài)特征對(duì)齊的有效性。此外,作者注意到,在BEVfusion[4]的單層融合之外引入了通道和空間融合模塊進(jìn)行BEV特征融合,性能提高了0.3 NDS和0.1 mAP。這表明,通道和空間多層融合提供了更好的多模態(tài)BEV特征。
5.3.4 Sparse Fusion with CAMF
九表展示了作者使用CAMF的稀疏融合的消融結(jié)果。九表的第一行指的是稀疏BEV Baseline 。僅采用變形注意機(jī)制將雷達(dá)BEV特征與圖像稀疏特征對(duì)齊,得到的性能提升為1.2 NDS和2.3 mAP。在添加雷達(dá) Query 樣本進(jìn)行多模態(tài)特征對(duì)齊后,進(jìn)一步提升了檢測(cè)性能2.4 NDS和4.2 mAP。此外,作者觀察到,用非參數(shù)編碼(即正弦位置編碼)替代可學(xué)習(xí)的位編碼,可以提升結(jié)果1.9 NDS和1.9 mAP。最后,與RCBEVDet中的CAMF相比,九表中的線性融合在MLP的層疊融合上超過了多層融合。這是因?yàn)锽EV特征是二維密集特征,需要空間和通道的融合;而稀疏 Query 特征是一維特征,因此,線性融合層是足夠的。
Task Trade-off in BEV semantic segmentation
在nuScenes中,BEV語義分割需要完成三個(gè)任務(wù),包括車輛、可行駛區(qū)域和車道 segmentation。為了在這三個(gè)任務(wù)之間實(shí)現(xiàn)最佳平衡,作者調(diào)整了三個(gè)任務(wù)的損失權(quán)重,并將其結(jié)果顯示在表10中。作者發(fā)現(xiàn),為每個(gè)任務(wù)分配相等的損失權(quán)重得到57.7 mIoU。隨著車輛和車道的損失權(quán)重逐步增加,同時(shí)降低可行駛區(qū)域的損失權(quán)重,分割性能首先從57.7 mIoU增加到59.5 mIoU,達(dá)到峰值,然后下降到58.9 mIoU。在車輛、可行駛區(qū)域和車道分別采用400、80和200的損失權(quán)重時(shí),最佳任務(wù)權(quán)衡實(shí)現(xiàn)。進(jìn)一步增加車輛和車道的損失權(quán)重可能會(huì)損害三個(gè)任務(wù)的所有分割性能。
Analysis of Robustness
5.5.1 Sensor Failure
為了分析傳感器故障場(chǎng)景下的魯棒性,作者隨機(jī)刪除圖像或雷達(dá)輸入進(jìn)行評(píng)估。在本實(shí)驗(yàn)中,作者采用dropout訓(xùn)練策略作為數(shù)據(jù)增強(qiáng),用于訓(xùn)練RCBEVDet,并報(bào)告CRN [13]中的_Car_類mAP。具體來說,RCBEVDet在所有傳感器故障情況下都優(yōu)于CRN和BEVFusion,_Car_類的mAP更高。值得注意的是,CRN在三種雷達(dá)傳感器故障案例中的mAP分別下降了4.5、11.8和25.0,而RCBEVDet僅出現(xiàn)0.9、6.4和10.4 mAP的下降。
這些結(jié)果強(qiáng)調(diào)了所提出的交叉注意力模塊通過動(dòng)態(tài)對(duì)齊增強(qiáng)了BEV特征的魯棒性。
5.5.2 Modal Alignment
為了進(jìn)一步展示CAMF與雷達(dá)校正的效果,作者以隨機(jī)擾動(dòng)的方式對(duì)雷達(dá)輸入的x軸和y軸坐標(biāo)進(jìn)行操作。具體而言,作者將x軸和y軸坐標(biāo)每個(gè)雷達(dá)點(diǎn)的噪聲均勻地從-1到1中采樣。如表12所示,RCBEVDet在噪聲雷達(dá)輸入下僅降低1.3 NDS和1.5 mAP,而CRN降低2.3 NDS和5.1 mAP。此外,作者通過圖8可視化了CAMF如何解決雷達(dá)偏移的問題。如圖8所示,許多雷達(dá)特征與 GT 框之間的位置存在偏差。利用CAMF,這些雷達(dá)特征得以在真實(shí)框內(nèi)重新對(duì)齊,從而有效地校正了雷達(dá)的偏移問題。
5.5.3 Comparison with CRN
CRN [13] 也利用可變形交叉注意力來解決雷達(dá)-相機(jī)的匹配問題。表11 和表12 的結(jié)果表明,作者的 CAMF 比 CRN 中提出的多模態(tài)可變形交叉注意力模塊(MDCA)更魯棒。為了進(jìn)一步區(qū)分作者的方法,作者提出:
Model Generalization
RCBEVDet采用雙分支架構(gòu)將雷達(dá)和多視角相機(jī)融合,并將多視角相機(jī)基礎(chǔ)方法集成到該模型中,從而提高特征表示。為了證明RCBEVDet模型的泛化能力,作者在3D目標(biāo)檢測(cè)框架中分別使用了不同的 Backbone 網(wǎng)絡(luò)和檢測(cè)器設(shè)計(jì)進(jìn)行實(shí)驗(yàn)。
5.6.1 Generalization for Backbone Architectures
為了證明RCBEVDet在backbone架構(gòu)上的模型泛化能力,作者在BEVDepth上進(jìn)行了實(shí)驗(yàn),包括使用基于CNN和Transformer的多種backbone架構(gòu)。如表13所示,作者的方法在不同backbone上的 Baseline 性能可提高3.8~4.9 NDS和4.8~10.2 mAP。此外,對(duì)于大小不同的相同類型的backbone結(jié)構(gòu)(例如,ResNet-18和ResNet-50),RCBEVDet可以實(shí)現(xiàn)一致的性能提升4.9 NDS。
5.6.2 Generalization for 3D Detector Architecture
作者通過將作者的方法集成到各種主流的多視圖攝像頭基的3D目標(biāo)檢測(cè)器中,包括基于LSS的方法(例如,BEVDet和BEVDepth)和基于 Transformer 的方法(例如,StreamPETR和SparseBEV),來評(píng)估檢測(cè)器的架構(gòu)通用性。這些方法代表了各種檢測(cè)器設(shè)計(jì)。如表14所示,通過將雷達(dá)特征進(jìn)行融合,作者的方法提高了所有流行的多視圖攝像頭基3D目標(biāo)檢測(cè)器的性能。具體而言,對(duì)于基于LSS的方法,RCBEVDet對(duì)BEVDet的5.6 NDS和4.9 NDS進(jìn)行了改進(jìn)。
表9: 帶噪聲雷達(dá)輸入的雷達(dá)-攝像頭多模態(tài)對(duì)齊。BEVDepth,分別。對(duì)于基于 Transformer 的方法,RCBEVDet++在NDS方面獲得相似的性能改進(jìn),即分別提高了StreamPETR和SparseBEV的5.6 NDS和5.9 NDS。值得注意的是,與基于LSS的方法相比,基于 Transformer 的方法得到的mAP改進(jìn)更多。原因是基于LSS的方法通常使用LiDAR點(diǎn)提供的深度監(jiān)督進(jìn)行更準(zhǔn)確的3D位置預(yù)測(cè),而基于 Transformer 的方法可以隱式地學(xué)習(xí)3D位置。因此,基于 Transformer 的方法可以從雷達(dá)特征中獲得更多的深度信息。總體而言,這些結(jié)果表明作者的方法在各種3D目標(biāo)檢測(cè)器上的檢測(cè)器架構(gòu)通用性。
6 Conclusion
在本文中,作者首先介紹了RCBEVDet,這是一個(gè)雷達(dá)-攝像頭融合3D檢測(cè)器。
它包括一個(gè)現(xiàn)有的基于攝像頭的3D檢測(cè)模型,一個(gè)專門設(shè)計(jì)的雷達(dá)特征提取器,以及CAMF模塊,用于對(duì)齊和融合雷達(dá)-攝像多模態(tài)特征。RCBEVDet在多個(gè)backbone上改善了各種基于攝像頭的3D目標(biāo)檢測(cè)器性能,并在nuScenes數(shù)據(jù)集上展示了對(duì)抗傳感器故障情況的強(qiáng)大魯棒性能力。
為了發(fā)揮RCBEVDet的潛力,作者提出了RCBEVDet++,它將CAMF模塊擴(kuò)展到支持基于 Query 的多視相機(jī)感知模型,實(shí)現(xiàn)稀疏融合,并適應(yīng)更多的感知任務(wù),包括3D目標(biāo)檢測(cè)、BEV語義分割和3D多目標(biāo)跟蹤。
在nuScenes數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,RCBEVDet++進(jìn)一步提高了基于相機(jī)的感知模型性能,并在這三個(gè)感知任務(wù)上實(shí)現(xiàn)了新的最先進(jìn)的雷達(dá)-攝像頭多模態(tài)結(jié)果。
值得注意的是,無需使用測(cè)試時(shí)增強(qiáng)或模型集成,RCBEVDet++取得了ViT-L圖像backbone的3D目標(biāo)檢測(cè)72.73 NDS和67.34 mAP。