自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

僅使用卷積!BEVENet:面向自動(dòng)駕駛BEV空間的高效3D目標(biāo)檢測(cè)

人工智能 智能汽車
BEVENet提出了一種高效的基于BEV的3D檢測(cè)框架,它利用僅卷積的架構(gòu)設(shè)計(jì)來(lái)規(guī)避ViT模型的限制,同時(shí)保持基于BEV方法的有效性。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面&&個(gè)人理解

BEV空間中的3D檢測(cè)已成為自動(dòng)駕駛領(lǐng)域中非常流行的方法,各大公司都在搶占使用。盡管與透視法相比,BEV已有較大改進(jìn),但在現(xiàn)實(shí)世界的自動(dòng)駕駛汽車中部署基于BEV的技術(shù)仍然具有挑戰(zhàn)性。這主要是由于它們依賴于基于視覺(jué)transformer(ViT)的架構(gòu),該架構(gòu)引入了相對(duì)于輸入分辨率的二次復(fù)雜度。為了解決這個(gè)問(wèn)題,BEVENet提出了一種高效的基于BEV的3D檢測(cè)框架,它利用僅卷積的架構(gòu)設(shè)計(jì)來(lái)規(guī)避ViT模型的限制,同時(shí)保持基于BEV方法的有效性。

BEVENet的實(shí)驗(yàn)表明,在NuScenes上比SOTA方法快3倍,在NuScene驗(yàn)證數(shù)據(jù)集上實(shí)現(xiàn)了0.456的mAP和0.555的NDS,推理速度為每秒47.6幀。首次實(shí)現(xiàn)了基于BEV方法的顯著效率提高,突出了其在真實(shí)世界自動(dòng)駕駛應(yīng)用中的增強(qiáng)可行性!

聊一下目前行業(yè)應(yīng)用的情況

BEV空間中的3D檢測(cè)在自動(dòng)駕駛研究界獲得了相當(dāng)大的吸引力。作為基于激光雷達(dá)方法的替代方案,使用周視相機(jī)生成偽激光雷達(dá)點(diǎn)已成為一種前景廣闊的解決方案。因此,已經(jīng)提出了許多將感知任務(wù)納入BEV空間的方法。然而,現(xiàn)有的方法通常對(duì)計(jì)算要求很高,并且嚴(yán)重依賴于大規(guī)模數(shù)據(jù)集。雖然這些條件可以在實(shí)驗(yàn)室環(huán)境中滿足,但它們對(duì)在真實(shí)世界中的車輛環(huán)境中實(shí)施存在相當(dāng)大的障礙。

ViT模塊是需要大量GPU內(nèi)存消耗和矩陣運(yùn)算的組件,盡管ViT架構(gòu)由于其捕獲全局語(yǔ)義信息的能力而在基于BEV的方法中被廣泛使用,但需要在較多的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且需要比卷積神經(jīng)網(wǎng)絡(luò)(CNNs)更長(zhǎng)的訓(xùn)練時(shí)間,以便于模型理解像素之間的位置關(guān)系!盡管訓(xùn)練成本增加,但與基于CNN的模型相比,ViT在各種視覺(jué)基準(zhǔn)上只提供了微小的改進(jìn)。

ViT模型的另一個(gè)值得注意的限制是其相對(duì)于輸入維度的二次復(fù)雜度,特別是輸入圖像的分辨率。盡管這些模型是強(qiáng)大的,但它們?cè)谇度胧皆O(shè)備上的部署受到計(jì)算資源限制的阻礙。此外,大輸入分辨率肯定受到ViT模型的青睞,然而,自動(dòng)駕駛場(chǎng)景中的大多數(shù)物體都相對(duì)較小,因此它們的檢測(cè)對(duì)ViT模型來(lái)說(shuō)仍然是一個(gè)持續(xù)的挑戰(zhàn)。

基于上述分析,建議通過(guò)研究替代方法來(lái)解決這些局限性,例如純基于CNN的模塊。BEVENet主要目標(biāo)是設(shè)計(jì)一種高效的3D檢測(cè)框架,該框架在受約束的硬件條件下采用BEV范式。為此,系統(tǒng)地分析了3D檢測(cè)pipeline中的六個(gè)基本組件:主干、視圖投影、深度估計(jì)、時(shí)間融合、BEV特征編碼和檢測(cè)頭。模型復(fù)雜性和基準(zhǔn)測(cè)試指標(biāo)在分析中都被考慮在內(nèi),因?yàn)樗鼈兪巧窠?jīng)網(wǎng)絡(luò)模型在現(xiàn)實(shí)世界中部署的基本指標(biāo)。

網(wǎng)絡(luò)的設(shè)計(jì)

BEVENet的目標(biāo)是設(shè)計(jì)一個(gè)高效的模型,用于在有限的硬件資源上進(jìn)行部署,同時(shí)保持基于BEV的方法的精度。這里采用了一種基于 reduction based的方法,迭代地降低每個(gè)模塊的復(fù)雜性。具體來(lái)說(shuō),首先通過(guò)GFlop的理論分解和復(fù)雜性分析,對(duì)NuScenes排行榜上的SOTA方法進(jìn)行分解。隨后,迭代地組合每個(gè)模塊的備選方案,將速度作為設(shè)計(jì)選擇的基準(zhǔn)。最后,試圖通過(guò)結(jié)合來(lái)自已建立的基線的最優(yōu)模型調(diào)整策略來(lái)提高最終3D檢測(cè)任務(wù)的性能。

如圖2所示,BEVENet架構(gòu)包括六個(gè)模塊:具有NuImage預(yù)訓(xùn)練的共享backbone模型ElanNet;具有查找表的視圖投影模塊LSS;具有數(shù)據(jù)增強(qiáng)的全卷積深度估計(jì)模塊;具有2秒歷史信息的時(shí)間模塊;具有殘差block的BEV特征編碼器;最后,提出了一種具有環(huán)形NMS的簡(jiǎn)化檢測(cè)頭。

圖片

1)Backbone部分

主干模型構(gòu)成了3D檢測(cè)任務(wù)的基石,利用來(lái)自六個(gè)相機(jī)的輸入來(lái)提取后續(xù)任務(wù)的基本語(yǔ)義特征。為了緩解ViT模型帶來(lái)的復(fù)雜性挑戰(zhàn),使用精心挑選的四個(gè)模型進(jìn)行了比較研究。為了對(duì)比ViT模型與其卷積模型之間的復(fù)雜性,從每個(gè)類別中戰(zhàn)略性地選擇了兩個(gè)具有代表性的模型。其中包括naive ViT、SwinT、Resnet和ElanNet。通過(guò)這項(xiàng)比較研究,目標(biāo)是挖掘出性能最好的模型,同時(shí)堅(jiān)持提高簡(jiǎn)單性和性能的目標(biāo)。除了比較主干之外,還同時(shí)研究了提高模型性能的可能技術(shù):試圖減輕由來(lái)自不同來(lái)源的數(shù)據(jù)集的統(tǒng)計(jì)偏移引起的性能惡化(采用了對(duì)NuImage的預(yù)訓(xùn)練)。

2) View Projection

視圖投影模塊:來(lái)自2D域的相機(jī)圖像沿著光線被提升到3D空間,在水平方向和垂直方向上進(jìn)行投影。參考Lift Splat Shoot和BEVDet,特征投影模塊預(yù)測(cè)每個(gè)像素的深度概率,根據(jù)幾何相似性計(jì)算地面真實(shí)深度(圖3)。

3)深度預(yù)測(cè)

引入深度估計(jì)模塊來(lái)補(bǔ)償由視圖投影引起的depth精度噪聲。該模塊用自己的深度預(yù)測(cè)覆蓋截頭體云點(diǎn)深度,通過(guò)經(jīng)驗(yàn)確定的權(quán)重對(duì)兩者進(jìn)行平均。該模塊攝取激光雷達(dá)點(diǎn)和多視圖圖像;前者作為GT,而后者經(jīng)過(guò)增強(qiáng)以增強(qiáng)預(yù)測(cè)穩(wěn)健性(圖4)。圖像特征、相機(jī)參數(shù)和圖像增強(qiáng)變換矩陣的融合被輸入到編碼層中。深度估計(jì)模塊利用內(nèi)參和外參來(lái)增強(qiáng)深度預(yù)測(cè)。在深度估計(jì)模塊中,采用了與BEVDepth相同的設(shè)計(jì),但將擴(kuò)充矩陣和外部參數(shù)與內(nèi)部參數(shù)一起添加作為深度估計(jì)網(wǎng)絡(luò)的輸入,MLP層也被卷積網(wǎng)絡(luò)所取代。

4)Temporal Fusion 和BEV編碼

時(shí)間融合模塊旨在提高3D檢測(cè)精度,主要因?yàn)槟P涂梢岳脻撛跁r(shí)間信息的能力。在被遮擋或遮擋的場(chǎng)景中,它可以根據(jù)隱藏目標(biāo)過(guò)去的位置推斷隱藏目標(biāo)的位置。該模塊設(shè)計(jì)簡(jiǎn)單,通過(guò)卷積編碼器處理先前幀的累積特征圖,利用前兩秒跨度的特征更好地解釋被遮擋物體的運(yùn)動(dòng)和定位。同時(shí),BEV編碼器模塊充當(dāng)連接偽激光雷達(dá)云和最終檢測(cè)頭的中間層。采用兩個(gè)殘差block將稀疏的激光雷達(dá)點(diǎn)變換為特征點(diǎn)的密集矩陣。BEV空間中的每個(gè)網(wǎng)格都是通過(guò)具有預(yù)定義分辨率的體素化生成的。

5)檢測(cè)頭

基于BEV功能,檢測(cè)頭參考了CenterPoint,將預(yù)測(cè)目標(biāo)設(shè)置為包括自動(dòng)駕駛場(chǎng)景中物體的位置、scale、方向和速度。為了與其他算法進(jìn)行公平的比較,在訓(xùn)練階段采用了與CenterPoint相同的設(shè)置。損失函數(shù)為:

在推理階段,根據(jù)RepVGG將所有多分支卷積層和BN層重新參數(shù)化為級(jí)聯(lián)的普通卷積網(wǎng)絡(luò)。如圖5a所示,檢測(cè)頭包括幾個(gè)并行卷積神經(jīng)網(wǎng)絡(luò),這種結(jié)構(gòu)可以通過(guò)合并卷積層和BN層來(lái)簡(jiǎn)化。如圖5c所示,ResNet-like架構(gòu)等效于沒(méi)有skip連接或1x1卷積的普通卷積神經(jīng)網(wǎng)絡(luò)。identity 模塊可以直接添加到輸出特征圖中,而無(wú)需任何特殊操作。同時(shí),通過(guò)對(duì)批量輸入的平均值和標(biāo)準(zhǔn)方差進(jìn)行數(shù)學(xué)求和,可以將BN層與卷積層相結(jié)合。通過(guò)重新參數(shù)化簡(jiǎn)化檢測(cè)頭的圖示。與原始檢測(cè)頭相比,通過(guò)輸出節(jié)點(diǎn)的值對(duì)其進(jìn)行數(shù)學(xué)組合,這將產(chǎn)生相同的結(jié)果,但乘法運(yùn)算較少。

實(shí)驗(yàn)對(duì)比

數(shù)據(jù)集和評(píng)估指標(biāo):BEVENet使用NuScenes基準(zhǔn)數(shù)據(jù)集進(jìn)行評(píng)估,包括通過(guò)六個(gè)攝像頭和一個(gè)激光雷達(dá)傳感器拍攝的1000個(gè)駕駛場(chǎng)景。該數(shù)據(jù)集標(biāo)注了51.2米地平面內(nèi)的10個(gè)類別,用于3D檢測(cè)任務(wù)。性能評(píng)估利用了官方的NuScenes指標(biāo),即平均平均精度(mAP)、平均平移誤差(ATE)、平均尺度誤差(ASE)、平均方位誤差(AOE)、平均速度誤差(AVE)、均值屬性誤差(AAE)和NuScenes-Detection Scores(NDS),以及以效率為導(dǎo)向的指標(biāo),即每秒幀數(shù)(FPS)和GFlops。前者測(cè)量NVIDIA A100 GPU上的性能,不包括預(yù)處理和后處理時(shí)間,而后者使用MMDetection3D工具包。

數(shù)據(jù)處理:數(shù)據(jù)處理采用了類似于BEVDet的方法,針對(duì)NuScenes數(shù)據(jù)集的特定需求量身定制,該數(shù)據(jù)集的原始分辨率為1600×900。在預(yù)處理過(guò)程中,將其重新縮放到704×256。關(guān)鍵幀變換包括隨機(jī)翻轉(zhuǎn)、縮放、裁剪、旋轉(zhuǎn)和復(fù)制粘貼機(jī)制,以解決目標(biāo)分布中的任何傾斜問(wèn)題。這些增強(qiáng)操作在數(shù)學(xué)上被轉(zhuǎn)換為變換矩陣。類均衡分組和采樣(CBGS)與復(fù)制粘貼機(jī)制相結(jié)合,在訓(xùn)練過(guò)程中應(yīng)用,遵循CenterPoint的方法。在測(cè)試階段,只縮放圖像,但不裁剪圖像以與模型的輸入尺寸對(duì)齊。

在NuScenes排行榜上選擇了11種SOTA方法作為基線:BEVFormer、BEVDet、BEVDet4D、BEVDepth、PETR、PGD、FCOS3D、DETR3D、CAPE、SoloFusion和TiGBEV。從表I中,可以看到,與SOTA方法相比,BEVENet在各種性能指標(biāo)上都取得了顯著改進(jìn)。BEVENet的圖像大小為704x256,在161.42的最低GFlop下,其計(jì)算效率優(yōu)于所有其他模型。這反映了BEVENet的資源效率,使其特別適合在硬件受限的環(huán)境中進(jìn)行部署。在FPS方面,BEVENet也以47.6的幀速率表現(xiàn)出色。至于其他核心性能指標(biāo),BEVENet的mAP為45.6,NDS為55.5,再次成為所有中最高的。

消融實(shí)驗(yàn):

上面的部分展示了模型的最佳性能,與其他SOTA模型并列。下面將介紹通過(guò)復(fù)雜性分析確定最終設(shè)計(jì)中出現(xiàn)的模塊的分析過(guò)程??紤]到不同模塊配置的不同結(jié)果,提出了決策背后的基本原理。為了啟動(dòng)分析,首先為BEVENet的六個(gè)主要模塊中的每一個(gè)提出了六個(gè)SOTA基線配置,如圖2所示。這些基線配置是ResNet50、LSS、原始BEVDepth、具有視覺(jué)tarnsformer模型的BEV編碼器、設(shè)置為8秒的時(shí)間融合窗口和利用具有Scale NMS的CenterHead的檢測(cè)頭。這些基線配置在表III中用粗體突出顯示。將把用于復(fù)雜性分析的初始BEVENet稱為BEVENet基線,以將其與最終提出的BEVENet區(qū)分開(kāi)來(lái)。對(duì)這些基線的添加標(biāo)記為“+”。六個(gè)模塊的消融實(shí)驗(yàn)分析如下:

在分析不同的主干模型時(shí),仔細(xì)檢查了ViT、SwinTransformer、ResNet和ELanNet,每個(gè)模型都有相似的參數(shù)計(jì)數(shù),以便進(jìn)行公正的比較。從ResNet50作為基線開(kāi)始,根據(jù)表III(a),F(xiàn)PS為27.4,mAP為39.3,NDS為45.9,發(fā)現(xiàn)ViT在17.9的FPS中表現(xiàn)不佳,Swin-T與ResNet50不相上下,ELanNet在30.2的FPS中更出色。用NuImage預(yù)訓(xùn)練增強(qiáng)ELanNet顯著提高了性能,將FPS提高到30.3,同時(shí)將mAP和NDS分別提高到42.0和50.1。因此,為提高推理效率而設(shè)計(jì)的ELanNet在這項(xiàng)任務(wù)中超過(guò)了ViT、Swin Transformer和ResNet50。

視圖投影模塊的功能是2D到3D轉(zhuǎn)換的關(guān)鍵,它在各種配置中進(jìn)行了檢查,ElanNet將NuImage預(yù)訓(xùn)練作為主干。如表III(b)所示,盡管LSS、Transformer和MLP方法之間的FPS、mAP和NDS差異最小,但LSS通過(guò)預(yù)先計(jì)算的圖像到點(diǎn)云轉(zhuǎn)換矩陣,將FPS顯著提高到34.9,驗(yàn)證了其對(duì)視圖投影的有效性。同時(shí),對(duì)投影后深度優(yōu)化至關(guān)重要的深度估計(jì)模塊進(jìn)行了檢查。

圖6最初反映了BEVDepth結(jié)構(gòu),顯示了其10.9%的巨大復(fù)雜性貢獻(xiàn)。因此MLP層被2層殘差block代替,最低限度的重新設(shè)計(jì)將FPS提高了近一個(gè)點(diǎn),將mAP提高了兩個(gè)點(diǎn)(表III(c))。此外,通過(guò)集成圖像增強(qiáng)矩陣進(jìn)一步增強(qiáng)了它。

在一系列時(shí)間窗口長(zhǎng)度上對(duì)時(shí)間融合模塊進(jìn)行了評(píng)估,該模塊對(duì)高遮擋環(huán)境中的有效推理和速度估計(jì)細(xì)化至關(guān)重要。如表III(d)所示,將間隔從“8秒”縮短到“2秒”,F(xiàn)PS適度提高0.6,而不會(huì)對(duì)mAP或NDS得分造成明顯損害。同時(shí),BEV編碼器模塊作為時(shí)間合并特征和檢測(cè)頭之間的聯(lián)絡(luò),出乎意料地將FPS增強(qiáng)了兩幀,盡管其復(fù)雜性適中,如圖6所示。從Transformer作為基線開(kāi)始,對(duì)MLP和殘差塊替換進(jìn)行了實(shí)驗(yàn)。表III(e)證明了殘差block的卓越性能,將FPS提高到38.8。

原文鏈接:https://mp.weixin.qq.com/s/kEW9DvtmHC7x9VuTLpzMXg

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-11-17 09:55:41

2024-07-04 12:06:00

2023-06-02 10:33:35

2022-07-13 10:20:14

自動(dòng)駕駛3D算法

2023-10-09 09:42:18

自動(dòng)駕駛模型

2022-01-20 11:17:27

自動(dòng)駕駛智能汽車

2023-12-12 10:23:54

自動(dòng)駕駛雷達(dá)視覺(jué)

2020-03-19 16:14:45

AI 數(shù)據(jù)人工智能

2023-06-30 09:33:37

自動(dòng)駕駛技術(shù)

2024-12-04 10:00:00

自動(dòng)駕駛3D檢測(cè)

2018-05-14 08:55:58

自動(dòng)駕駛數(shù)據(jù)人工智能

2024-01-19 09:31:04

自動(dòng)駕駛方案

2024-01-05 08:30:26

自動(dòng)駕駛算法

2024-04-22 15:08:35

擴(kuò)散模型自動(dòng)駕駛

2023-12-01 10:37:20

自動(dòng)駕駛3D

2023-11-02 09:22:13

自動(dòng)駕駛框架

2022-09-13 15:19:48

3D網(wǎng)絡(luò)

2023-11-14 11:23:39

計(jì)算自動(dòng)駕駛

2024-09-05 11:48:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)