檢測(cè)&OCC雙SOTA!Doracamom實(shí)現(xiàn)首個(gè)LV多模態(tài)融合的統(tǒng)一多任務(wù)感知算法框架~
寫在前面&筆者的個(gè)人理解
自動(dòng)駕駛技術(shù)是現(xiàn)代交通革命的前沿,備受關(guān)注。自動(dòng)駕駛系統(tǒng)通常包括環(huán)境感知、軌跡預(yù)測(cè)和規(guī)劃控制等組件,以實(shí)現(xiàn)自動(dòng)駕駛功能。準(zhǔn)確的 3D 感知是自動(dòng)駕駛系統(tǒng)的基礎(chǔ),主要側(cè)重于 3D目標(biāo)檢測(cè)和語(yǔ)義占用預(yù)測(cè)任務(wù)。3D 目標(biāo)檢測(cè)使用 3D 邊界框來(lái)定位場(chǎng)景中的前景目標(biāo)并預(yù)測(cè)類別和速度等屬性,屬于稀疏場(chǎng)景表示。
相比之下,語(yǔ)義占用使用細(xì)粒度體素表示來(lái)捕捉場(chǎng)景的幾何和語(yǔ)義特征,這是一種密集場(chǎng)景表示形式。為了完成這些任務(wù),通常使用攝像頭、激光雷達(dá)和毫米波雷達(dá)等傳感器來(lái)收集環(huán)境數(shù)據(jù)作為輸入。在這些傳感器中,LiDAR 采用飛行時(shí)間 (TOF) 原理,發(fā)射和接收激光束以生成密集點(diǎn)云,提供環(huán)境的高精度幾何表示。然而,LiDAR 易受惡劣天氣影響,且成本高昂。相比之下,攝像頭和毫米波雷達(dá)更具成本效益,適合大規(guī)模部署。攝像頭可以高分辨率捕捉豐富的顏色和紋理信息,但缺乏深度信息,容易受到天氣干擾。
另一方面,毫米波雷達(dá)發(fā)射電磁波來(lái)探測(cè)目標(biāo)距離、多普勒和散射信息,從而能夠抵御天氣條件。4D 成像雷達(dá)是傳統(tǒng)毫米波雷達(dá)的一項(xiàng)進(jìn)步,它不僅包含額外的高度信息,而且還提供比傳統(tǒng) 2 + 1D雷達(dá)更高分辨率的點(diǎn)云。最近的研究表明,它在各種下游任務(wù)中具有相當(dāng)大的前景。然而,與激光雷達(dá)相比,它的點(diǎn)云仍然稀疏且嘈雜。因此,跨模態(tài)融合對(duì)于有效彌補(bǔ)這些缺點(diǎn)至關(guān)重要,強(qiáng)調(diào)了整合來(lái)自攝像頭和4D雷達(dá)的信息的必要性。
近年來(lái),尤其是隨著4D雷達(dá)數(shù)據(jù)集的出現(xiàn),4D 雷達(dá)和攝像機(jī)融合研究在感知領(lǐng)域顯示出巨大的潛力。目前,大多數(shù)主流融合技術(shù)都采用BEV架構(gòu),將原始傳感器輸入轉(zhuǎn)換為 BEV 特征進(jìn)行融合。對(duì)于占用預(yù)測(cè)任務(wù),大多數(shù)研究集中在以視覺(jué)為中心或視覺(jué)和 LiDAR 融合上,因?yàn)檎加妙A(yù)測(cè)任務(wù)需要細(xì)粒度的體素表示和語(yǔ)義信息。傳統(tǒng)雷達(dá)缺乏高度信息,不適合 3D 占用預(yù)測(cè)。相比之下,4D 雷達(dá)通過(guò)訪問(wèn)高度信息和更高分辨率的點(diǎn)云提供了新的可能性。此外,將3D目標(biāo)檢測(cè)和占用預(yù)測(cè)作為兩個(gè)關(guān)鍵感知任務(wù)集成在統(tǒng)一的多任務(wù)框架內(nèi),可以優(yōu)化計(jì)算資源和效率,帶來(lái)實(shí)質(zhì)性的效益。
因此,在本文中我們提出了首個(gè)將多視角相機(jī)和4D雷達(dá)點(diǎn)云融合的統(tǒng)一框架Doracamom,同時(shí)處理3D目標(biāo)檢測(cè)和語(yǔ)義占用預(yù)測(cè)任務(wù)。在OmniHDScenes、View-of-Delft (VoD) 和 TJ4DRadSet 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,Doracamom在兩個(gè)任務(wù)中都取得了最先進(jìn)的性能,為多模態(tài) 3D 感知建立了新的基準(zhǔn)。
文章鏈接:https://arxiv.org/abs/2501.15394;
網(wǎng)絡(luò)模型結(jié)構(gòu)&技術(shù)細(xì)節(jié)
在詳細(xì)介紹了本文提出的算法模型技術(shù)細(xì)節(jié)之前,下圖展示了我們提出的Doracamom算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu),如下圖所示。
整體而言,多視角圖像和 4D 雷達(dá)點(diǎn)云被輸入到攝像頭和 4D 雷達(dá)編碼器中,分別提取圖像 2D 特征和 4D 雷達(dá) BEV 特征。然后將這些特征傳遞給粗糙體素query生成器,該生成器結(jié)合圖像和雷達(dá)特征來(lái)生成幾何語(yǔ)義感知的粗粒度體素query。體素query編碼器使用交叉視圖注意力通過(guò)堆疊的transformer block迭代增強(qiáng)細(xì)粒度體素特征。
Camera & 4D Radar Encoders
在特征提取階段,我們采用解耦架構(gòu),從兩個(gè)輸入模態(tài)中獨(dú)立提取高維特征。相機(jī)編碼器處理多視角圖像,使用共享的ResNet-50 主干網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)作為Neck結(jié)構(gòu)進(jìn)行特征提取,從而獲得多尺度特征。為了解決 4D 雷達(dá)點(diǎn)云的稀疏性問(wèn)題并通過(guò)消除自車運(yùn)動(dòng)效應(yīng)來(lái)獲取其速度,我們實(shí)施了結(jié)合多幀雷達(dá)點(diǎn)云累積和速度補(bǔ)償?shù)念A(yù)處理流程。該算法使用相應(yīng)的自車車輛速度來(lái)處理每次雷達(dá)掃描,并通過(guò)雷達(dá)到自車的旋轉(zhuǎn)矩陣將其轉(zhuǎn)換到雷達(dá)坐標(biāo)系中。為了補(bǔ)償相對(duì)徑向速度,根據(jù)每個(gè)點(diǎn)的方位角和仰角,將速度矢量分解為徑向方向。然后使用旋轉(zhuǎn)矩陣將補(bǔ)償?shù)乃俣茸儞Q到當(dāng)前自車坐標(biāo)系。對(duì)于每個(gè)點(diǎn)的位置,使用雷達(dá)到自車的變換矩陣實(shí)現(xiàn)變換。請(qǐng)注意,在累積操作期間會(huì)忽略由周圍動(dòng)態(tài)物體的運(yùn)動(dòng)引起的點(diǎn)的運(yùn)動(dòng),因?yàn)檫@種運(yùn)動(dòng)很少會(huì)引入較大的誤差。
4D Radar編碼器處理輸入的點(diǎn)云數(shù)據(jù)。我們采用RadarPillarNet來(lái)編碼輸入的4D毫米波雷達(dá)點(diǎn)云數(shù)據(jù),進(jìn)而通過(guò)分層特征提取生成偽圖像。編碼后的特征隨后由 SECOND 和SECONDFPN 處理,以生成精細(xì)的4D雷達(dá)BEV特征。
Coarse Voxel Queries Generator
在雷達(dá)特征處理階段,我們首先通過(guò)雙線性插值將雷達(dá) BEV 特征轉(zhuǎn)換為與體素網(wǎng)格對(duì)齊,隨后,我們使用 Conv-BN-ReLU進(jìn)一步優(yōu)化特征通道。通過(guò)應(yīng)用簡(jiǎn)單的unsqueeze操作沿高度維度擴(kuò)展 2D BEV 特征,我們獲得了雷達(dá) 3D 體素特征,可以用數(shù)學(xué)形式表示為如下的形式
對(duì)于圖像特征處理,我們首先根據(jù)3D體素query的形狀在自車坐標(biāo)系內(nèi)定義 3D 參考點(diǎn)。同時(shí),我們將體素特征初始化為零。然后使用相機(jī)的固有矩陣計(jì)算從自車坐標(biāo)系到圖像像素坐標(biāo)的變換矩陣。
我們將參考點(diǎn)投影到每個(gè)圖像平面上,以獲得它們?cè)谔卣鲌D上的對(duì)應(yīng)坐標(biāo)。有效點(diǎn)由兩個(gè)標(biāo)準(zhǔn)確定:(x,y)必須位于特征圖邊界內(nèi)并且z一定是正數(shù)。特征采樣過(guò)程采用最近鄰插值,并采用“l(fā)ast-update”策略解決重疊的多視圖區(qū)域。最終的粗粒度體素查詢是通過(guò)元素相加獲得的:
Voxel Queries Encoder
為了增強(qiáng)和細(xì)化體素查詢,我們采用基于L層Transformer 的架構(gòu)進(jìn)行特征編碼。我們采用可變形注意力進(jìn)行跨視圖特征聚合,這不僅可以緩解遮擋和歧義問(wèn)題,還可以通過(guò)減少訓(xùn)練時(shí)間來(lái)提高效率。在跨視圖注意模塊中,輸入包括體素查詢、相應(yīng)的 3D 參考點(diǎn)和圖像特征。使用相機(jī)參數(shù)將 3D 參考點(diǎn)投影到2D 視圖中,并從命中視圖中采樣和加權(quán)圖像特征。輸出特征可以表示為如下的形式:
Dual-branch Temporal Encoder
時(shí)序信息在感知系統(tǒng)中起著至關(guān)重要的作用。現(xiàn)有的相關(guān)方法已經(jīng)證明,利用時(shí)序特征可以有效解決遮擋問(wèn)題,增強(qiáng)場(chǎng)景理解,并提高運(yùn)動(dòng)狀態(tài)估計(jì)的準(zhǔn)確性。然而,這些方法僅限于在單個(gè)特征空間中進(jìn)行時(shí)間建模,因此很難捕獲全面的時(shí)空表示。為了解決這一限制,我們提出了一種新穎的雙分支時(shí)序編碼器模塊,該模塊在 BEV 和體素空間中并行處理多模態(tài)時(shí)間特征,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。
具體而言,雷達(dá) BEV 分支擅長(zhǎng)捕獲全局幾何特征,而圖像體素分支則專注于保留細(xì)粒度的語(yǔ)義信息。這種互補(bǔ)的雙分支設(shè)計(jì)不僅在特征表達(dá)和時(shí)序建模方面提供了多樣化的表示能力,而且還實(shí)現(xiàn)了計(jì)算成本和特征表達(dá)能力之間的優(yōu)化平衡。此外,特征冗余機(jī)制顯著增強(qiáng)了感知系統(tǒng)的魯棒性。
在時(shí)序特征融合中,一個(gè)關(guān)鍵挑戰(zhàn)是自車運(yùn)動(dòng)和動(dòng)態(tài)物體運(yùn)動(dòng)導(dǎo)致的特征錯(cuò)位。為了解決自車運(yùn)動(dòng)引起的特征位移,我們提出了一種基于位姿變換的特征對(duì)齊策略,該策略可將歷史特征與當(dāng)前幀精確對(duì)齊。此外,為了進(jìn)一步減輕動(dòng)態(tài)物體造成的特征錯(cuò)位問(wèn)題,我們采用可變形注意來(lái)自適應(yīng)地融合當(dāng)前幀和歷史幀之間的特征。在體素時(shí)序分支當(dāng)中,我們通過(guò)連接對(duì)齊的歷史特征并通過(guò)簡(jiǎn)單的Res3D塊對(duì)其進(jìn)行處理,以實(shí)現(xiàn)高效的特征集成過(guò)程。
在 BEV 時(shí)序分支當(dāng)中,我們也應(yīng)用了類似的處理過(guò)程。歷史 BEV 特征被concat到一起并通過(guò) Res2D 塊進(jìn)行處理
Cross-Modal BEV-Voxel Fusion Module
為了有效利用體素和 BEV 空間的時(shí)序增強(qiáng)特征,我們提出了一個(gè)跨模態(tài) BEV-體素融合模塊,該模塊為下游多任務(wù)解碼生成幾何和語(yǔ)義豐富的多模態(tài)表示。其整體網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,該模塊通過(guò)注意力加權(quán)機(jī)制自適應(yīng)地融合異構(gòu)特征,同時(shí)采用輔助任務(wù)進(jìn)一步提高生成特征的質(zhì)量。
具體來(lái)說(shuō),該模塊首先通過(guò) 3D 反卷積塊對(duì)低分辨率體素特征進(jìn)行上采樣,以獲得高分辨率特征,以便隨后進(jìn)行融合。對(duì)于體素特征增強(qiáng),首先通過(guò) 2D 中的 Conv-BN-ReLU 塊處理雷達(dá) BEV 特征以重塑特征通道,然后進(jìn)行解壓縮操作,沿高度維度擴(kuò)展 2D BEV 特征。然后將擴(kuò)展的特征與體素特征連接起來(lái),并通過(guò)卷積塊進(jìn)行處理以降低通道維度。最后,采用具有注意機(jī)制的殘差結(jié)構(gòu)來(lái)獲得融合的特征。
實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)
下表展示了不同方法在 OmniHD-Scenes 測(cè)試集上針對(duì) 3D 檢測(cè)任務(wù)的性能比較。與其他基于 4D 雷達(dá)、攝像頭或它們?nèi)诤系姆椒ㄏ啾?,我們提出?Doracamom 實(shí)現(xiàn)了卓越的整體性能(39.12 mAP 和 46.22 ODS)。具體來(lái)說(shuō),它比 BEVFusion 好 5.17 mAP 和 3.22 ODS,同時(shí)比 RCFusion 好 4.24 mAP 和 4.69 ODS。即使在沒(méi)有 DTE 模塊的單幀設(shè)置中,我們的模型在 mAP 方面也優(yōu)于所有其他方法。此外,Doracamom 顯著縮小了與基于 LiDAR 的 PointPillars(46.22 ODS vs. 55.54 ODS)的性能差距,這證明了我們提出的架構(gòu)的有效性以及低成本傳感器配置在自動(dòng)駕駛感知系統(tǒng)中的巨大潛力。在 TP 指標(biāo)方面,我們的方法在 mAOE 和 mAVE 中都取得了最佳性能,分別達(dá)到 0.3545 和 0.6151。
下圖所示的可視化結(jié)果表明,Doracamom 可以在白天和夜晚場(chǎng)景中提供可靠的性能。它在擁擠和復(fù)雜的場(chǎng)景中實(shí)現(xiàn)了較高的檢測(cè)精度,只有偶爾漏檢遠(yuǎn)處被遮擋的物體。
此外,下圖展示了不同方法的 BEV 特征圖??梢杂^察到,Doracamom 的特征圖顯示出清晰的物體邊界和高度可區(qū)分的特征,并且沒(méi)有物體嚴(yán)重拉伸或扭曲等重大問(wèn)題。
下表展示了不同方法在 OmniHDScenes 驗(yàn)證集上針對(duì)占用預(yù)測(cè)任務(wù)的性能比較。與其他方法相比,我們提出的 Doracamom 實(shí)現(xiàn)了卓越的整體性能(33.96 SC IoU 和 21.81 mIoU)。當(dāng) BEVFormer 使用更大的主干網(wǎng)絡(luò)(R101-DCN)和更高分辨率的圖像輸入時(shí),其性能超越了結(jié)合攝像頭和 4D 雷達(dá)數(shù)據(jù)的多傳感器融合方法,如 M-CONet。盡管如此,憑借我們精心設(shè)計(jì)的架構(gòu),即使是Doracamom-S 也比BEVFormer-T 的性能高出 +1.72 SC IoU 和 +2.00 mIoU。
此外,下表展示了不同模型在不利條件下的表現(xiàn),其中 Doracamom算法模型取得了更好的結(jié)果,mAP 為 41.86,ODS 為 48.74,持續(xù)優(yōu)于其他方法,并表現(xiàn)出更強(qiáng)的穩(wěn)健性。
下表展示了不同模型在資源消耗和效率方面的比較。與現(xiàn)有方法相比,我們的 Doracamom 系列模型在性能和效率之間表現(xiàn)出色。在資源消耗方面,Doracamom-S 僅需要 4.71G 內(nèi)存和 49.63M 參數(shù),比 BEVFusion(約 8G 內(nèi)存和 57M 參數(shù))和 PanoOcc(5.03G 內(nèi)存和 51.94M 參數(shù))更輕量。即使包含 2 個(gè)幀,Doracamom-2frames 也能保持相對(duì)較低的資源使用率(4.72G 內(nèi)存,52.67M 參數(shù))。在推理效率方面,Doracamom-S 和 Doracamom-2frames 分別達(dá)到 4.8FPS 和 4.4FPS,明顯優(yōu)于 BEVFusion 系列(3.2-3.6FPS)。雖然比 PanoOcc (5.5FPS) 稍慢,但我們的模型表現(xiàn)出了顯著的性能優(yōu)勢(shì):Doracamom-2frames 在所有評(píng)估指標(biāo)中都實(shí)現(xiàn)了最佳性能,大大超越了其他方法。
結(jié)論
在本文中,我們提出了 Doracamom算法模型,這是第一個(gè)具有多視角相機(jī)和 4D 雷達(dá)融合的統(tǒng)一多任務(wù)感知框架。在 OmniHD-Scenes、VoD 和 TJ4DRadSet 三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法在 3D 目標(biāo)檢測(cè)和 3D 語(yǔ)義占用預(yù)測(cè)任務(wù)中都實(shí)現(xiàn)了最先進(jìn)的性能。