BEV下的Radar-Camera跨數(shù)據(jù)集融合實(shí)驗(yàn)研究
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
原標(biāo)題:Cross-Dataset Experimental Study of Radar-Camera Fusion in Bird’s-Eye View
論文鏈接:https://arxiv.org/pdf/2309.15465.pdf
作者單位:Opel Automobile GmbH Rheinland-Pfalzische Technische Universitat Kaiserslautern-Landau German Research Center for Artificial Intelligence
論文思路:
通過(guò)利用互補(bǔ)的傳感器信息,毫米波雷達(dá)和camera融合系統(tǒng)有潛力為先進(jìn)的駕駛員輔助系統(tǒng)和自動(dòng)駕駛功能提供高度穩(wěn)健和可靠的感知系統(tǒng)?;谙鄼C(jī)的目標(biāo)檢測(cè)的最新進(jìn)展提供了新的毫米波雷達(dá)相機(jī)與鳥(niǎo)瞰特征圖融合的可能性。本文提出了一種新穎且靈活的融合網(wǎng)絡(luò),并評(píng)估其在兩個(gè)數(shù)據(jù)集上的性能:nuScenes 和 View-of-Delft。本文的實(shí)驗(yàn)表明,雖然camera分支需要大量且多樣化的訓(xùn)練數(shù)據(jù),但毫米波雷達(dá)分支從高性能毫米波雷達(dá)中受益更多。使用遷移學(xué)習(xí),本文提高了camera在較小數(shù)據(jù)集上的性能。本文的結(jié)果進(jìn)一步表明,毫米波雷達(dá)-camera融合方法顯著優(yōu)于僅camera和僅毫米波雷達(dá)基線。
網(wǎng)絡(luò)設(shè)計(jì):
最近3D目標(biāo)檢測(cè)的一個(gè)趨勢(shì)是將圖像的特征轉(zhuǎn)換成一種常見(jiàn)的鳥(niǎo)瞰圖(BEV)表示,它提供了一種靈活的融合架構(gòu),可以在多個(gè)camera之間進(jìn)行融合,也可以使用測(cè)距傳感器進(jìn)行融合。在這項(xiàng)工作中,本文擴(kuò)展了原本用于激光camera融合的BEVFusion方法來(lái)進(jìn)行毫米波雷達(dá)camera融合。本文用選定的毫米波雷達(dá)數(shù)據(jù)集訓(xùn)練和評(píng)估了本文提出的融合方法。在幾個(gè)實(shí)驗(yàn)中,本文討論了每個(gè)數(shù)據(jù)集的優(yōu)缺點(diǎn)。最后,本文應(yīng)用遷移來(lái)實(shí)現(xiàn)進(jìn)一步的改進(jìn)。
圖1基于BEVFusion的BEV毫米波雷達(dá)-camera融合流程圖。在生成的camera圖像中,本文包括投影毫米波雷達(dá)探測(cè)和 ground truth 邊界框。
本文遵循BEVFusion的融合架構(gòu)。圖1展示了本文在BEV中進(jìn)行毫米波雷達(dá)-camera融合的網(wǎng)絡(luò)概況。請(qǐng)注意,融合發(fā)生時(shí),camera和毫米波雷達(dá)特征在BEV連接。下面,本文將為每個(gè)區(qū)塊提供進(jìn)一步的細(xì)節(jié)。
A. Camera Encoder and Camera-to-BEV View Transform
camera編碼器和視圖變換采用了[15]的思想,它是一種靈活的框架,可以提取任意camera外部和內(nèi)部參數(shù)的圖像BEV特征。首先,使用tiny-Swin Transformer網(wǎng)絡(luò)從每個(gè)圖像中提取特征。接下來(lái),本文利用[14]的 Lift 和 Splat 步驟將圖像的特征轉(zhuǎn)換到BEV平面。為此,密集深度預(yù)測(cè)之后是基于規(guī)則的block,其中的特征被轉(zhuǎn)換成偽點(diǎn)云,并進(jìn)行柵格化并累積到BEV網(wǎng)格中。
B. Radar Pillar Feature Encoder
此塊的目的是將毫米波雷達(dá)點(diǎn)云編碼到與圖像BEV特征相同的網(wǎng)格上的BEV特征中。為此,本文使用了[16]的 pillar 特征編碼技術(shù),將點(diǎn)云光柵化為無(wú)限高的體素,即所謂的pillar。
C. BEV Encoder
與[5]相似,毫米波雷達(dá)和camera的BEV特征是通過(guò)級(jí)聯(lián)融合的。融合的特征然后由聯(lián)合卷積BEV編碼器處理,使網(wǎng)絡(luò)能夠考慮空間錯(cuò)位和使用不同模態(tài)之間的協(xié)同效應(yīng)。
D. Detection Head
本文使用CenterPoint檢測(cè)頭來(lái)預(yù)測(cè)每個(gè)類的目標(biāo)中心的heatmaps。進(jìn)一步的回歸頭預(yù)測(cè)物體的尺寸、旋轉(zhuǎn)和高度,以及nuScenes的速度和類屬性。而 heatmaps 采用 Gaussian focal loss 進(jìn)行訓(xùn)練,其余的檢測(cè)頭采用 L1 loss 進(jìn)行訓(xùn)練。
實(shí)驗(yàn)結(jié)果:
引用:
St?cker, L., Heidenreich, P., Rambach, J., & Stricker, D. (2023). Cross-Dataset Experimental Study of Radar-Camera Fusion in Bird's-Eye View. ArXiv. /abs/2309.15465
原文鏈接:https://mp.weixin.qq.com/s/ayZl9tnm47y9VpfgmIG2qg