超越BEVFusion!又快又好的極簡(jiǎn)BEV融合部署方案
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
在算法開發(fā)中,激光雷達(dá)-相機(jī)3D目標(biāo)檢測(cè)遇到了過度擬合問題,這是由于違反了一些基本規(guī)則。在數(shù)據(jù)集構(gòu)建的數(shù)據(jù)標(biāo)注方面,本文參考了理論補(bǔ)充,并認(rèn)為回歸任務(wù)預(yù)測(cè)不應(yīng)涉及來自相機(jī)分支的特征。通過采用“檢測(cè)即標(biāo)簽”的前沿觀點(diǎn),本文提出了一種新的范式,稱為DAL。使用最經(jīng)典的初級(jí)算法,通過模仿數(shù)據(jù)標(biāo)注過程構(gòu)建了一個(gè)簡(jiǎn)單的預(yù)測(cè)流水線。然后,本文以最簡(jiǎn)單的方式對(duì)其進(jìn)行訓(xùn)練,以最小化其依賴性并增強(qiáng)其可移植性。盡管構(gòu)造和訓(xùn)練都很簡(jiǎn)單,但所提出的DAL范式不僅在性能上取得了重大突破,而且在所有現(xiàn)有方法中提供了速度和精度之間的優(yōu)越權(quán)衡。憑借全面的優(yōu)勢(shì),DAL會(huì)是未來工作開發(fā)和實(shí)際部署的理想基準(zhǔn)。代碼已發(fā)布,https://github.com/HuangJunJie2017/BEVDet。
盡管構(gòu)造和訓(xùn)練簡(jiǎn)單,但提出的DAL范式不僅極大地推動(dòng)了性能邊界(例如,在nuScenes val集上為74.0 NDS,在nuScenes test集上為74.8 NDS),而且在所有現(xiàn)有方法中提供了速度和精度之間的優(yōu)越權(quán)衡。本文的主要貢獻(xiàn)可以概括如下
- 文章提出了一個(gè)前沿的視角,即“檢測(cè)作為標(biāo)注”,用于3D物體檢測(cè)中的LiDAR-相機(jī)融合。這是對(duì)現(xiàn)有方法的良好補(bǔ)充,也是未來工作應(yīng)遵循的基本規(guī)則。
- 文章遵循“檢測(cè)作為標(biāo)注”的觀點(diǎn),構(gòu)建了一個(gè)名為DAL的魯棒范例。DAL是第一個(gè)具有極其優(yōu)雅的訓(xùn)練管道的LiDAR-Camera融合范例。此外,它極大地推動(dòng)了該問題的性能邊界,在推理延遲和準(zhǔn)確性之間實(shí)現(xiàn)了優(yōu)異的權(quán)衡。憑借全面的優(yōu)勢(shì),DAL是未來工作發(fā)展和實(shí)際使用的理想基線。
- 文章指出了速度分布不可避免的不平衡問題,并提出了實(shí)例級(jí)速度增益來緩解這一問題。
算法的網(wǎng)絡(luò)設(shè)計(jì)
從 "檢測(cè)即標(biāo)記 "的角度出發(fā),模仿數(shù)據(jù)標(biāo)注過程構(gòu)建了一個(gè)預(yù)測(cè)管道,如下圖所示。提出的管道遵循從密集到稀疏的范式。密集感知階段的重點(diǎn)是特征編碼和候選特征生成。使用圖像編碼器和點(diǎn)云編碼器分別提取圖像和點(diǎn)云中的特征。N 表示視圖的數(shù)量。H × W 表示圖像視圖中特征的大小。X × Y 表示特征在鳥眼視圖(BEV)中的大小。特征編碼器具有經(jīng)典的骨干結(jié)構(gòu)(如 ResNet 和 VoxelNet)和頸部結(jié)構(gòu)(如 FPN和 SECOND)。只需將密集圖像的 BEV 特征與點(diǎn)云的 BEV 特征進(jìn)行串聯(lián)融合,并通過應(yīng)用兩個(gè)額外的殘差塊來預(yù)測(cè)密集熱圖。C 表示類別的數(shù)量。最后,選出在密集熱圖中預(yù)測(cè)得分領(lǐng)先的 K 個(gè)候選者。這樣就模仿了數(shù)據(jù)標(biāo)注中的候選生成過程。在此過程中,會(huì)同時(shí)使用圖像和點(diǎn)云的特征來生成一套完整的候選數(shù)據(jù)。
DAL范式的預(yù)測(cè)管道。將來自圖像和點(diǎn)云的BEV特征融合在一起,生成密集的熱圖。提取前K個(gè)建議及其點(diǎn)云特征,用于回歸任務(wù)預(yù)測(cè)。與圖像特征、圖像BEV特征和點(diǎn)云BEV特征融合的特征用于類別預(yù)測(cè)。根據(jù)每個(gè)建議的相應(yīng)預(yù)測(cè)中心提取稀疏圖像特征。
在稀疏感知階段,首先根據(jù)候選對(duì)象在密集熱圖中的坐標(biāo)收集每個(gè)候選對(duì)象的點(diǎn)云特征。然后使用簡(jiǎn)單的前饋網(wǎng)絡(luò)(FFN)預(yù)測(cè)回歸目標(biāo)(例如中心、大小、方向和速度)。在這個(gè)過程中不涉及圖像特征,以防止過擬合問題。最后,本文將圖像特征、圖像BEV特征和點(diǎn)云BEV特征融合在一起,生成用于類別預(yù)測(cè)的融合特征。圖像BEV特征的部分是根據(jù)候選對(duì)象在密集熱圖中的坐標(biāo)提取的,而圖像特征的部分是根據(jù)預(yù)測(cè)的對(duì)象中心提取的。
除了進(jìn)行一些關(guān)鍵修改外,DAL的預(yù)測(cè)管道從BEVFusion繼承了大部分結(jié)構(gòu)設(shè)計(jì)。首先,點(diǎn)云BEV特征和圖像BEV特征在密集BEV編碼器之后進(jìn)行融合,而BEVFusion在之前進(jìn)行融合。本文推遲融合,以最大限度地保留LiDAR分支的回歸能力。然后,由于發(fā)現(xiàn)沒有必要,去除了稀疏實(shí)例和BEV特征之間的注意力。最后,回歸任務(wù)僅使用點(diǎn)云特征進(jìn)行預(yù)測(cè),而BEVFusion使用融合特征。
由于本文在構(gòu)建預(yù)測(cè)管道時(shí)分配了適當(dāng)?shù)姆绞?,只需要像大多?shù)經(jīng)典視覺任務(wù)一樣加載在 ImageNet 上預(yù)訓(xùn)練的圖像骨干的參數(shù)。然后本文以端到端的方式訓(xùn)練 DAL,只有一個(gè)階段。只使用來自目標(biāo)數(shù)據(jù)集 nuScenes的數(shù)據(jù)。通過這種方式,本文以最優(yōu)雅的方式訓(xùn)練 DAL 模型,這在文獻(xiàn)中很少見。
例如,DAL與TransFusion和BEVFusion共享目標(biāo)和損失的設(shè)計(jì)。除此之外,本文在圖像特征上添加了一個(gè)輔助分類頭,以加強(qiáng)圖像分支在搜索候選對(duì)象和區(qū)分不同類別方面的能力。這對(duì)于DAL來說非常重要,因?yàn)?D目標(biāo)檢測(cè)頭中密集感知階段和稀疏感知階段的監(jiān)督都有缺陷。具體來說,在密集感知階段,圖像特征會(huì)根據(jù)視圖轉(zhuǎn)換中的預(yù)測(cè)深度得分進(jìn)行調(diào)整。反向傳播中的梯度也是如此。預(yù)測(cè)深度得分有缺陷是不可避免的,監(jiān)督也是如此。在稀疏感知階段,損失計(jì)算中只涉及預(yù)測(cè)實(shí)例的圖像特征,而不是所有注釋目標(biāo)的圖像特征。具有所有注釋目標(biāo)監(jiān)督的輔助分類頭可以解決上述問題,并在一定程度上加強(qiáng)圖像分支。在實(shí)踐中,使用注釋目標(biāo)的重心來提取每個(gè)注釋目標(biāo)的稀疏特征。然后,使用另一個(gè)FFN對(duì)稀疏特征進(jìn)行分類,損失計(jì)算與3D目標(biāo)檢測(cè)頭中的分類任務(wù)相同。不進(jìn)行重新加權(quán),本文直接將輔助損失添加到現(xiàn)有的損失中:
在回歸任務(wù)預(yù)測(cè)中棄用圖像特征不僅可以防止不可避免的性能退化,而且可以在圖像空間中進(jìn)行更廣泛的數(shù)據(jù)增強(qiáng)。本文以調(diào)整大小增強(qiáng)為例進(jìn)行解釋?;谙鄼C(jī)的3D物體檢測(cè)根據(jù)其在圖像視圖中的大小預(yù)測(cè)目標(biāo)的大小。當(dāng)圖像隨機(jī)調(diào)整大小時(shí),為了保持圖像特征與預(yù)測(cè)目標(biāo)之間的一致性,需要對(duì)預(yù)測(cè)目標(biāo)進(jìn)行相應(yīng)的調(diào)整。然后是LiDAR-相機(jī)融合的3D物體檢測(cè)中的連鎖反應(yīng)中的點(diǎn)云。因此,現(xiàn)有的方法總是在圖像空間中使用小范圍的數(shù)據(jù)增強(qiáng)。結(jié)果,它們遠(yuǎn)離了大多數(shù)圖像2D任務(wù)(例如分類,檢測(cè),分割)中圖像空間大規(guī)模數(shù)據(jù)增強(qiáng)的好處。
最后,本文觀察到訓(xùn)練數(shù)據(jù)中速度分布極不平衡。如圖3所示,nuScenes訓(xùn)練集中汽車類別的多數(shù)實(shí)例是靜態(tài)的。為了調(diào)整分布,隨機(jī)選擇了一些靜態(tài)物體,并根據(jù)預(yù)定義的速度調(diào)整其點(diǎn)云,如圖4所示。本文僅對(duì)靜態(tài)物體進(jìn)行速度增強(qiáng),因?yàn)榭梢詮钠鋷ё⑨尩倪吔缈蛑休p松地識(shí)別來自多個(gè)LiDAR幀的全套點(diǎn)。
圖3. nuScenes訓(xùn)練集中汽車類別的速度分布。
圖4.使用不同的預(yù)定義速度(即(vx,vy))增強(qiáng)相同的靜態(tài)對(duì)象
相關(guān)實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集
本文在大規(guī)?;鶞?zhǔn)nuScenes上進(jìn)行全面的實(shí)驗(yàn)。NuScenes是驗(yàn)證許多室外任務(wù)的最新流行基準(zhǔn),如3D物體檢測(cè)、占用率預(yù)測(cè)、BEV語義分割、端到端自動(dòng)駕駛。它包括1000個(gè)場(chǎng)景,其中包含來自6個(gè)相機(jī)的圖像和來自具有32束光束的LiDAR的點(diǎn)云。相機(jī)組具有與LiDAR一致的360度視野。這使其成為評(píng)估LiDAR-相機(jī)融合算法的首選數(shù)據(jù)集。這些場(chǎng)景被正式分為700/150/150個(gè)場(chǎng)景,用于訓(xùn)練/驗(yàn)證/測(cè)試。有10個(gè)類別的140萬個(gè)注釋的3D邊界框:汽車、卡車、公共汽車、拖車、工程車輛、行人、摩托車、自行車、障礙物和交通錐。
評(píng)估指標(biāo)
對(duì)于3D對(duì)象檢測(cè),本文報(bào)告了官方預(yù)定義的度量標(biāo)準(zhǔn):平均精確度(mAP)、平均平移誤差(ATE)、平均縮放誤差(ASE)、平均方向誤差(AOE)、平均速度誤差(AVE)、平均屬性誤差(AAE)和NuScenes檢測(cè)評(píng)分(NDS)。mAP類似于2D對(duì)象檢測(cè)中的mAP,用于衡量精度和召回率,但基于地面上2D中心距離的匹配,而不是交集比(IOU)。NDS是其他指標(biāo)的組合,用于綜合判斷檢測(cè)能力。其余指標(biāo)用于計(jì)算相應(yīng)方面的陽性結(jié)果精度(例如,平移、縮放、方向、速度和屬性)。
預(yù)測(cè)管道
如表2所示,本文遵循兩種經(jīng)典的3D對(duì)象檢測(cè)范式BEVDet-R50 和CenterPoint ,分別構(gòu)建圖像分支和LiDAR分支,用于消融研究。此外,本文還提供了一些推薦的配置,在推理延遲和準(zhǔn)確性之間實(shí)現(xiàn)了出色的權(quán)衡。
訓(xùn)練和評(píng)估
DAL模型在16個(gè)3090 GPU上以64個(gè)批處理大小進(jìn)行訓(xùn)練。如表1所示,
與大多數(shù)需要多個(gè)預(yù)訓(xùn)練階段和復(fù)雜學(xué)習(xí)率策略的現(xiàn)有方法不同,DAL僅從ImageNet分類任務(wù)中加載預(yù)訓(xùn)練權(quán)重,并使用CBGS對(duì)整個(gè)流水線進(jìn)行20個(gè)epoch的訓(xùn)練。DAL與CenterPoint共享相同的學(xué)習(xí)率策略。具體來說,學(xué)習(xí)率通過遵循循環(huán)學(xué)習(xí)率策略進(jìn)行調(diào)整,初始值為2.0×10-4。在評(píng)估過程中,本文報(bào)告了單個(gè)模型在無測(cè)試時(shí)間增廣情況下的性能。默認(rèn)情況下,推理速度都在單個(gè)3090 GPU上測(cè)試。BEVPoolV2 用于加速視圖變換算法LSS。
nuScenes val set的結(jié)果。如表4所示和圖1所示,提出的DAL范式不僅極大地推動(dòng)了性能邊界,而且還提供了速度和精度之間的更好權(quán)衡。配置DAL-Large的分?jǐn)?shù)為71.5 mAP和74.0 NDS,大大超過了現(xiàn)有的最佳記錄,分別增加了+1.0 mAP和+0.7 NDS。在如此高的準(zhǔn)確度下,DAL-Large仍然以6.10 FPS的推理速度運(yùn)行。另一個(gè)推薦的配置DAL-Base以與最快的方法CMT-R50 類似的推理速度運(yùn)行。其準(zhǔn)確度大大超過了CMT-R50,分別為2.1 mAP和2.6 NDS。與CMT-R50具有相似的準(zhǔn)確度,DAL-Tiny的加速率為54%。
nuScenes測(cè)試集的結(jié)果。本文報(bào)告了DAL-Large配置在nuScenes測(cè)試集上的性能,沒有模型集成和測(cè)試時(shí)間擴(kuò)展。DAL在NDS 74.8方面優(yōu)于所有其他方法。
總結(jié)
本文提出了一個(gè)前沿的視角“檢測(cè)作為標(biāo)注”,用于激光雷達(dá)-攝像頭融合的3D物體檢測(cè)。DAL是按照這個(gè)視角開發(fā)的模板。DAL是一個(gè)非常優(yōu)雅的范例,具有簡(jiǎn)潔的預(yù)測(cè)管道和易于訓(xùn)練的過程。盡管在這些方面很簡(jiǎn)單,但它極大地推動(dòng)了激光雷達(dá)-攝像頭融合的3D物體檢測(cè)的性能邊界,并在速度和精度之間實(shí)現(xiàn)了最佳的平衡。因此,它對(duì)未來的工作和實(shí)際應(yīng)用來說都是一個(gè)很好的里程碑。
DAL中沒有考慮超出激光雷達(dá)范圍的對(duì)象。本文嘗試過通過僅使用點(diǎn)云特征預(yù)測(cè)密集的熱圖,并將其與使用融合特征預(yù)測(cè)的熱圖進(jìn)行比較,來區(qū)分這種情況。然后,使用另一個(gè)FFN在融合特征上預(yù)測(cè)這些實(shí)例的回歸目標(biāo)。然而,這種修改對(duì)最終準(zhǔn)確性的貢獻(xiàn)較小。這是因?yàn)?nuScenes 中只注釋了具有 1 個(gè)以上激光雷達(dá)點(diǎn)的目標(biāo)。此外,在 nuScenes 評(píng)估中,范圍足夠小,確保了足夠的激光雷達(dá)點(diǎn)用于預(yù)測(cè)回歸方面。
此外,nuScenes數(shù)據(jù)集中的簡(jiǎn)單分類任務(wù)限制了DAL應(yīng)用SwinTransformer、DCN 和EfficientNet等高級(jí)圖像骨干。開放世界分類任務(wù)要復(fù)雜得多,因此也更加困難。因此,圖像分支在實(shí)踐中可以利用高級(jí)圖像骨干。
雖然DAL有一個(gè)無注意力的預(yù)測(cè)管道,但它只是一個(gè)揭示“檢測(cè)作為標(biāo)記”價(jià)值的模板。因此,本文使用最經(jīng)典的算法,而不應(yīng)用注意力。然而,本文并沒有有意將其排除在DAL之外。相反,本文認(rèn)為注意力是一種吸引人的機(jī)制,可以在許多方面進(jìn)一步發(fā)展DAL。例如,本文可以應(yīng)用像UniTR 這樣的高級(jí)DSVT主干,應(yīng)用基于注意力的LiDAR-相機(jī)融合,如CMT,以及應(yīng)用基于注意力的稀疏檢測(cè)范式,如DETR。
原文鏈接:https://mp.weixin.qq.com/s/NQ9LIAxsN4Azj0Nj7fV10w