OccFusion:一種簡(jiǎn)單有效的Occ多傳感器融合框架(性能SOTA)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
對(duì)3D場(chǎng)景的全面理解在自動(dòng)駕駛中至關(guān)重要,最近的3D語(yǔ)義占用預(yù)測(cè)模型已經(jīng)成功地解決了描述具有不同形狀和類別的真實(shí)世界物體的挑戰(zhàn)。然而,現(xiàn)有的3D占用預(yù)測(cè)方法在很大程度上依賴于全景相機(jī)圖像,這使得它們?nèi)菀资艿秸彰骱吞鞖鈼l件變化的影響。通過(guò)集成激光雷達(dá)和環(huán)視雷達(dá)等附加傳感器的功能,本文的框架提高了占用預(yù)測(cè)的準(zhǔn)確性和穩(wěn)健性,從而在nuScenes基準(zhǔn)上獲得了頂級(jí)性能。此外,在nuScene數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn),包括具有挑戰(zhàn)性的夜間和雨天場(chǎng)景,證實(shí)了我們的傳感器融合策略在各種感知范圍內(nèi)的卓越性能。
論文鏈接:https://arxiv.org/pdf/2403.01644.pdf
論文名稱:OccFusion: A Straightforward and Effective Multi-Sensor Fusion Framework for 3D Occupancy Prediction
本文的主要貢獻(xiàn)概述如下:
- 提出了一種多傳感器融合框架,用于集成相機(jī)、激光雷達(dá)和雷達(dá)信息,以執(zhí)行3D語(yǔ)義占用預(yù)測(cè)任務(wù)。
- 在3D語(yǔ)義占用預(yù)測(cè)任務(wù)中,將本文的方法與其他最先進(jìn)的(SOTA)算法進(jìn)行了比較,以證明多傳感器融合的優(yōu)勢(shì)。
- 進(jìn)行了徹底的消融研究,以評(píng)估不同傳感器組合在具有挑戰(zhàn)性的照明和天氣條件下(如夜間和雨天)所實(shí)現(xiàn)的性能增益。
- 考慮到各種傳感器組合和具有挑戰(zhàn)性的場(chǎng)景,進(jìn)行了一項(xiàng)全面的研究,以分析感知范圍因素對(duì)我們的框架在3D語(yǔ)義占用預(yù)測(cè)任務(wù)中的性能的影響!
網(wǎng)絡(luò)結(jié)構(gòu)一覽
OccFusion的總體架構(gòu)如下所示。首先,將環(huán)繞視圖圖像輸入到2D主干中以提取多尺度特征。隨后,在每個(gè)尺度上進(jìn)行視圖變換,以獲得每個(gè)級(jí)別的全局BEV特征和局部3D特征volume 。激光雷達(dá)和環(huán)視雷達(dá)生成的3D點(diǎn)云也被輸入到3D主干中,以生成多尺度局部3D特征量和全局BEV特征。每個(gè)級(jí)別的動(dòng)態(tài)融合3D/2D模塊融合了相機(jī)和激光雷達(dá)/雷達(dá)的功能。在此之后,將每個(gè)級(jí)別的合并的全局BEV特征和局部3D特征volume 饋送到全局-局部注意力融合中,以生成每個(gè)尺度的最終3D volume 。最后,對(duì)每個(gè)級(jí)別的3D volume 進(jìn)行上采樣,并在采用多尺度監(jiān)督機(jī)制的情況下進(jìn)行skip連接。
實(shí)驗(yàn)對(duì)比分析
nuScenes驗(yàn)證集上的3D語(yǔ)義占用預(yù)測(cè)結(jié)果。所有方法都使用密集占用標(biāo)簽進(jìn)行訓(xùn)練。模態(tài)概念:相機(jī)(C)、激光雷達(dá)(L)、雷達(dá)(R)。
nuScenes驗(yàn)證雨天場(chǎng)景子集上的3D語(yǔ)義占用預(yù)測(cè)結(jié)果。所有方法都使用密集占用標(biāo)簽進(jìn)行訓(xùn)練。模態(tài)概念:相機(jī)(C)、激光雷達(dá)(L)、雷達(dá)(R)。
nuScenes驗(yàn)證夜間場(chǎng)景子集的3D語(yǔ)義占用預(yù)測(cè)結(jié)果。所有方法都使用密集占用標(biāo)簽進(jìn)行訓(xùn)練。模態(tài)概念:相機(jī)(C)、激光雷達(dá)(L)、雷達(dá)(R)。
性能變化趨勢(shì)。(a) 整個(gè)nuScenes驗(yàn)證集的性能變化趨勢(shì),(b)nuScenes驗(yàn)證夜間場(chǎng)景子集,以及(c)nuScene驗(yàn)證雨天場(chǎng)景子集的性能變化趨勢(shì)。
表四:不同方法的模型效率比較。實(shí)驗(yàn)是在一臺(tái)A10上使用六幅多攝像頭圖像、激光雷達(dá)和雷達(dá)數(shù)據(jù)進(jìn)行的。對(duì)于輸入圖像分辨率,所有方法均采用1600×900?!?越低越好。
更多消融實(shí)驗(yàn):