自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

WidthFormer:實(shí)時(shí)自動(dòng)駕駛!助力基于Transformer的BEV方案量產(chǎn)

人工智能 智能汽車
WidthFormer是一種輕量級(jí)且易于部署的BEV變換方法,它使用單層transformer解碼器來(lái)計(jì)算BEV表示。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面&行業(yè)理解

基于BEV的transformer方案今年量產(chǎn)的主要方案,transformer結(jié)構(gòu)和CNN相比,特征提取能力更強(qiáng),但需要較多的算力,這也是為什么許多車上都是1~2顆orin芯片支持。所以如何輕量化基于Transformer的BEV方案,成為各大自動(dòng)駕駛公司后面優(yōu)化的重點(diǎn),地平線的最新工作,將Transformer+BVE輕量化,保持了性能領(lǐng)先和速度領(lǐng)先。

WidthFormer有哪些優(yōu)勢(shì)?

WidthFormer是一種輕量級(jí)且易于部署的BEV變換方法,它使用單層transformer解碼器來(lái)計(jì)算BEV表示。除此之外,還提出了參考位置編碼(RefPE),這是一種新的用于3D對(duì)象檢測(cè)的位置編碼機(jī)制,以輔助WidthFormer的視圖轉(zhuǎn)換,重點(diǎn)來(lái)啦!它還可以用于以即插即用的方式提高稀疏3D檢測(cè)器的性能。在nuScenes 3D檢測(cè)數(shù)據(jù)集上評(píng)估了所提出的模塊,結(jié)果表明RefPE可以顯著提高稀疏目標(biāo)檢測(cè)器的性能。此外,WidthFormer在一系列3D檢測(cè)架構(gòu)中的性能和效率都優(yōu)于以前的BEV變換方法。

代碼:https://github.com/ChenhongyiYang/WidthFormer

WidthFormer在不同的3D檢測(cè)架構(gòu)中優(yōu)于以前的方法。當(dāng)使用256×704輸入圖像時(shí),它在NVIDIA 3090 GPU和地平線J5芯片上實(shí)現(xiàn)了1.5毫秒和2.8毫秒的延遲。此外,WidthFormer對(duì)不同程度的相機(jī)擾動(dòng)也表現(xiàn)出較強(qiáng)的魯棒性。這個(gè)研究為在現(xiàn)實(shí)世界復(fù)雜的道路環(huán)境中部署B(yǎng)EV transformation方法提供了寶貴的見(jiàn)解。

基于BEV變換的方法一覽

直觀的基于IPM的方法通過(guò)3D-2D投影和插值計(jì)算BEV特征。其中的一個(gè)問(wèn)題是,當(dāng)平坦地面假設(shè)不成立時(shí),BEV特征的質(zhì)量將受到嚴(yán)重?fù)p害。在基于Lift Splat的方法中,BEV特征是通過(guò)垂直匯集投影的點(diǎn)云特征,并根據(jù)其預(yù)測(cè)深度進(jìn)行加權(quán)來(lái)計(jì)算的。盡管Lift splat工藝具有高性能,但其效率遠(yuǎn)遠(yuǎn)不夠。BEVFusion通過(guò)多線程機(jī)制加速了這個(gè)池化過(guò)程!

圖片

M2BEV通過(guò)假設(shè)均勻的深度分布來(lái)節(jié)省存儲(chǔ)器使用。MatrixVT通過(guò)在垂直維度上壓縮視覺(jué)特征來(lái)提高整體效率,然后使用有效的極坐標(biāo)變換來(lái)計(jì)算BEV特征。BEVDepth結(jié)合了點(diǎn)云,用于改進(jìn)深度估計(jì)?;趖ransformer的VT方法通過(guò)注意力機(jī)制直接輸出BEV表示。PYVA使用交叉注意力來(lái)學(xué)習(xí)BEV特征,并使模型具有周期一致性。CVT和PETR依賴于3D位置編碼來(lái)向模型提供3D幾何信息。為了提高效率,最近的許多方法采用了可變形注意力。

網(wǎng)絡(luò)結(jié)構(gòu)

如圖3所示,WidthFormer將多視圖圖像作為輸入,并輸出轉(zhuǎn)換后的BEV特征。它首先通過(guò)合并圖像的高度維度將圖像特征壓縮為寬度特征。然后使用RefineTransformer對(duì)寬度特征進(jìn)行細(xì)化,以補(bǔ)償潛在的信息損失。在添加了參考位置編碼后,寬度特征被輸入到轉(zhuǎn)換器解碼器中,用作key和value,這些key和value由根據(jù)預(yù)定義的BEV極坐標(biāo)計(jì)算的BEV查詢向量進(jìn)行查詢!

圖片

1)參考位置編碼 (RefPE)

作者為基于transformer的3D檢測(cè)器(例如,PETR)和本文的BEV視圖變換模塊設(shè)計(jì)了一種新的3D位置編碼機(jī)制:參考位置編碼(RefPE)。RefPE有一個(gè)旋轉(zhuǎn)部分和一個(gè)距離部分。對(duì)于稀疏的3D檢測(cè)器,它有另一個(gè)高度部分。旋轉(zhuǎn)編碼簡(jiǎn)單地通過(guò)對(duì)BEV平面上的相機(jī)射線的旋轉(zhuǎn)度進(jìn)行編碼來(lái)計(jì)算。如(a)所示,為了計(jì)算逐點(diǎn)距離PE和高度PE,利用從視覺(jué)特征預(yù)測(cè)的參考系數(shù)來(lái)聚合相機(jī)射線上參考點(diǎn)的距離和高度PE。如(b)所示,對(duì)于寬度特征,去除高度PE,并通過(guò)使用預(yù)測(cè)的高度分布沿著圖像列聚合所有逐點(diǎn)距離PE來(lái)計(jì)算它們的距離PE。

圖片

2) 使用WidthForme完成BEV Transformation

WidthFormer將多視圖圖像作為輸入,并輸出轉(zhuǎn)換后的BEV特征。它首先通過(guò)合并圖像的高度維度將圖像特征壓縮為寬度特征。然后使用RefineTransformer對(duì)寬度特征進(jìn)行細(xì)化,以補(bǔ)償潛在的信息損失。在添加了我們的參考位置編碼后,寬度特征被輸入到轉(zhuǎn)換器解碼器中,用作關(guān)鍵字和值,這些關(guān)鍵字和值由根據(jù)預(yù)定義的BEV極坐標(biāo)計(jì)算的BEV查詢向量進(jìn)行查詢。在所提出的RefPE的支持下,設(shè)計(jì)了一種新的基于transformer的BEV視圖轉(zhuǎn)換模塊WidthFormer。形式上,WidthFormer的輸入是多視圖圖像特征,輸出是統(tǒng)一的BEV表示,WidthFormer的概述如圖3所示!

3)細(xì)化Width特征

雖然將二維特征壓縮為一維特征可以極大地提高模型的效率和可擴(kuò)展性,但是不可避免的引入了信息丟失,那么有什么方法可以補(bǔ)償這個(gè)丟失的信息呢?

Refine transformer。Refine Transformer是一種輕量級(jí)的transformer解碼器。它通過(guò)關(guān)注其他寬度特征和原始圖像特征并從中檢索信息來(lái)細(xì)化初始寬度特征。如圖3所示,通過(guò)MaxPooling圖像特征的高度維度來(lái)計(jì)算初始寬度特征。在Refine Transformer中,寬度特征首先通過(guò)自注意操作從其他寬度特征中檢索信息;然后它從相應(yīng)的 使用交叉注意力操作的圖像列。最后,使用前饋網(wǎng)絡(luò)來(lái)計(jì)算最終的寬度特征。

補(bǔ)充任務(wù)。為了進(jìn)一步提高寬度特征的表示能力,在訓(xùn)練過(guò)程中,用互補(bǔ)任務(wù)訓(xùn)練模型,將任務(wù)相關(guān)信息直接注入寬度特征,這是由BEVFormer v2推動(dòng)的。如圖3(a)所示,互補(bǔ)任務(wù)包括單目3D檢測(cè)任務(wù)和高度預(yù)測(cè)任務(wù)。為這兩個(gè)任務(wù)附加了一個(gè)FCOS3D樣式的Head。頭部采用1D寬度特征作為輸入,并以單目方式檢測(cè)3D目標(biāo)。為了使其能夠以1D寬度特征作為輸入,進(jìn)行了兩個(gè)修改:(1)將所有2D卷積操作更改為1D卷積;(2) 在標(biāo)簽編碼過(guò)程中,忽略了高度范圍,只限制了寬度范圍。為了使互補(bǔ)任務(wù)與WidthFormer保持一致,將原來(lái)的回歸深度估計(jì)改為分類風(fēng)格。對(duì)于高度預(yù)測(cè),在FCOS3D頭部添加了一個(gè)額外的分支,以預(yù)測(cè)目標(biāo)在原始圖像特征中的高度位置,這可以補(bǔ)充高度pooling中丟失的信息。注意,負(fù)責(zé)補(bǔ)充任務(wù)在模型推理過(guò)程中可以完全去除,不會(huì)影響推理效率。此外,訓(xùn)練輔助頭只消耗<10M的額外GPU內(nèi)存,因此對(duì)訓(xùn)練效率的影響最??!

實(shí)驗(yàn)結(jié)果對(duì)比

在常用的nuScenes數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了基準(zhǔn)測(cè)試,該數(shù)據(jù)集分為700、150和150個(gè)場(chǎng)景(分別用于訓(xùn)練、驗(yàn)證和測(cè)試)。每個(gè)場(chǎng)景包含6個(gè)視圖的圖像,這些圖像覆蓋了整個(gè)周圍環(huán)境。這里遵循官方評(píng)估協(xié)議,對(duì)3D檢測(cè)任務(wù),除了常用的平均精度(mAP)之外,評(píng)估度量還包括nuScenes(TP)誤差,其包括平均平移誤差(mATE)、平均尺度誤差(mASE)、平均方向誤差(mAOE)、平均速度誤差(mAVE)和平均屬性誤差(mAAE),除此之外還有nuScenes檢測(cè)分?jǐn)?shù)(NDS)!

這里使用兩種3D檢測(cè)架構(gòu):BEVDet和BEVDet4D來(lái)測(cè)試提出的WidthFormer,其涵蓋單幀和多幀設(shè)置。采用了BEVDet代碼庫(kù)中所有三個(gè)檢測(cè)器的實(shí)現(xiàn)方式。除非另有規(guī)定,否則使用BEVDet的默認(rèn)數(shù)據(jù)預(yù)處理和擴(kuò)充設(shè)置。將BEV特征大小設(shè)置為128×128,將BEV通道大小設(shè)置為64。對(duì)于BEVDet4D和BEVDepth4D實(shí)驗(yàn),遵循僅使用一個(gè)歷史幀的原始BEVDet4D實(shí)現(xiàn)。所有模型都使用CBGS進(jìn)行了24個(gè)epoch的訓(xùn)練,ImageNet預(yù)訓(xùn)練的ResNet-50用作默認(rèn)骨干網(wǎng)絡(luò)。所有訓(xùn)練和CUDA延遲測(cè)量均使用NVIDIA 3090 GPU進(jìn)行。

使用PETR-DN和StreamPETR檢測(cè)器的不同位置編碼方法的比較。ResNet-50-DCN用作默認(rèn)主干網(wǎng)。輸入大小對(duì)于PETR-DN設(shè)置為512×1408,對(duì)于StreamPETR設(shè)置為256×704。所有模型都在沒(méi)有CBGS的情況下訓(xùn)練了24個(gè)epoch。

使用BEVDet和BEVDet4D檢測(cè)器的不同BEV視圖轉(zhuǎn)換方法的比較。ResNet-50被用作默認(rèn)的骨干網(wǎng)絡(luò)。輸入大小設(shè)置為256×704。所有模型都使用CBGS進(jìn)行了劃時(shí)代訓(xùn)練。

在不同尺寸設(shè)置下使用BEVDet的不同VT方法的CUDA延遲和mAP權(quán)衡比較:

放大檢測(cè)結(jié)果,并與nuScenes val-set上其他最先進(jìn)的3D檢測(cè)器進(jìn)行比較?!甅F’代表多幀融合,’C'代表相機(jī);'L'代表LIDAR!

原文鏈接:https://mp.weixin.qq.com/s/avoZwvY7H6kKk_4NlbTyjg

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-06-30 09:33:37

自動(dòng)駕駛技術(shù)

2023-12-06 09:49:36

自動(dòng)駕駛算法

2023-11-09 09:48:46

2023-07-07 10:37:43

自動(dòng)駕駛技術(shù)

2023-10-08 16:13:47

自動(dòng)駕駛

2024-01-05 08:30:26

自動(dòng)駕駛算法

2024-06-18 10:00:00

自動(dòng)駕駛BEV感知

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2023-11-14 11:23:39

計(jì)算自動(dòng)駕駛

2023-11-17 09:55:41

2023-02-21 15:26:26

自動(dòng)駕駛特斯拉

2022-10-27 10:18:25

自動(dòng)駕駛

2024-07-04 12:06:00

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動(dòng)駕駛

2021-11-18 09:50:35

自動(dòng)駕駛輔助駕駛人工智能

2019-05-21 11:14:17

Dynatrace人工智能監(jiān)控

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)