自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

WidthFormer：實(shí)時(shí)自動(dòng)駕駛！助力基于Transformer的BEV方案量產(chǎn)

作者：自動(dòng)駕駛Daily 2024-01-19 09:31:04

人工智能智能汽車

WidthFormer是一種輕量級(jí)且易于部署的BEV變換方法，它使用單層transformer解碼器來(lái)計(jì)算BEV表示。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面&行業(yè)理解

基于BEV的transformer方案今年量產(chǎn)的主要方案，transformer結(jié)構(gòu)和CNN相比，特征提取能力更強(qiáng)，但需要較多的算力，這也是為什么許多車上都是1~2顆orin芯片支持。所以如何輕量化基于Transformer的BEV方案，成為各大自動(dòng)駕駛公司后面優(yōu)化的重點(diǎn)，地平線的最新工作，將Transformer+BVE輕量化，保持了性能領(lǐng)先和速度領(lǐng)先。

WidthFormer有哪些優(yōu)勢(shì)？

WidthFormer是一種輕量級(jí)且易于部署的BEV變換方法，它使用單層transformer解碼器來(lái)計(jì)算BEV表示。除此之外，還提出了參考位置編碼（RefPE），這是一種新的用于3D對(duì)象檢測(cè)的位置編碼機(jī)制，以輔助WidthFormer的視圖轉(zhuǎn)換，重點(diǎn)來(lái)啦！它還可以用于以即插即用的方式提高稀疏3D檢測(cè)器的性能。在nuScenes 3D檢測(cè)數(shù)據(jù)集上評(píng)估了所提出的模塊，結(jié)果表明RefPE可以顯著提高稀疏目標(biāo)檢測(cè)器的性能。此外，WidthFormer在一系列3D檢測(cè)架構(gòu)中的性能和效率都優(yōu)于以前的BEV變換方法。

代碼：https://github.com/ChenhongyiYang/WidthFormer

WidthFormer在不同的3D檢測(cè)架構(gòu)中優(yōu)于以前的方法。當(dāng)使用256×704輸入圖像時(shí)，它在NVIDIA 3090 GPU和地平線J5芯片上實(shí)現(xiàn)了1.5毫秒和2.8毫秒的延遲。此外，WidthFormer對(duì)不同程度的相機(jī)擾動(dòng)也表現(xiàn)出較強(qiáng)的魯棒性。這個(gè)研究為在現(xiàn)實(shí)世界復(fù)雜的道路環(huán)境中部署B(yǎng)EV transformation方法提供了寶貴的見(jiàn)解。

基于BEV變換的方法一覽

直觀的基于IPM的方法通過(guò)3D-2D投影和插值計(jì)算BEV特征。其中的一個(gè)問(wèn)題是，當(dāng)平坦地面假設(shè)不成立時(shí)，BEV特征的質(zhì)量將受到嚴(yán)重?fù)p害。在基于Lift Splat的方法中，BEV特征是通過(guò)垂直匯集投影的點(diǎn)云特征，并根據(jù)其預(yù)測(cè)深度進(jìn)行加權(quán)來(lái)計(jì)算的。盡管Lift splat工藝具有高性能，但其效率遠(yuǎn)遠(yuǎn)不夠。BEVFusion通過(guò)多線程機(jī)制加速了這個(gè)池化過(guò)程！

M2BEV通過(guò)假設(shè)均勻的深度分布來(lái)節(jié)省存儲(chǔ)器使用。MatrixVT通過(guò)在垂直維度上壓縮視覺(jué)特征來(lái)提高整體效率，然后使用有效的極坐標(biāo)變換來(lái)計(jì)算BEV特征。BEVDepth結(jié)合了點(diǎn)云，用于改進(jìn)深度估計(jì)?；趖ransformer的VT方法通過(guò)注意力機(jī)制直接輸出BEV表示。PYVA使用交叉注意力來(lái)學(xué)習(xí)BEV特征，并使模型具有周期一致性。CVT和PETR依賴于3D位置編碼來(lái)向模型提供3D幾何信息。為了提高效率，最近的許多方法采用了可變形注意力。

網(wǎng)絡(luò)結(jié)構(gòu)

如圖3所示，WidthFormer將多視圖圖像作為輸入，并輸出轉(zhuǎn)換后的BEV特征。它首先通過(guò)合并圖像的高度維度將圖像特征壓縮為寬度特征。然后使用RefineTransformer對(duì)寬度特征進(jìn)行細(xì)化，以補(bǔ)償潛在的信息損失。在添加了參考位置編碼后，寬度特征被輸入到轉(zhuǎn)換器解碼器中，用作key和value，這些key和value由根據(jù)預(yù)定義的BEV極坐標(biāo)計(jì)算的BEV查詢向量進(jìn)行查詢！

1）參考位置編碼 (RefPE)

作者為基于transformer的3D檢測(cè)器（例如，PETR）和本文的BEV視圖變換模塊設(shè)計(jì)了一種新的3D位置編碼機(jī)制：參考位置編碼（RefPE）。RefPE有一個(gè)旋轉(zhuǎn)部分和一個(gè)距離部分。對(duì)于稀疏的3D檢測(cè)器，它有另一個(gè)高度部分。旋轉(zhuǎn)編碼簡(jiǎn)單地通過(guò)對(duì)BEV平面上的相機(jī)射線的旋轉(zhuǎn)度進(jìn)行編碼來(lái)計(jì)算。如（a）所示，為了計(jì)算逐點(diǎn)距離PE和高度PE，利用從視覺(jué)特征預(yù)測(cè)的參考系數(shù)來(lái)聚合相機(jī)射線上參考點(diǎn)的距離和高度PE。如（b）所示，對(duì)于寬度特征，去除高度PE，并通過(guò)使用預(yù)測(cè)的高度分布沿著圖像列聚合所有逐點(diǎn)距離PE來(lái)計(jì)算它們的距離PE。

2）使用WidthForme完成BEV Transformation

WidthFormer將多視圖圖像作為輸入，并輸出轉(zhuǎn)換后的BEV特征。它首先通過(guò)合并圖像的高度維度將圖像特征壓縮為寬度特征。然后使用RefineTransformer對(duì)寬度特征進(jìn)行細(xì)化，以補(bǔ)償潛在的信息損失。在添加了我們的參考位置編碼后，寬度特征被輸入到轉(zhuǎn)換器解碼器中，用作關(guān)鍵字和值，這些關(guān)鍵字和值由根據(jù)預(yù)定義的BEV極坐標(biāo)計(jì)算的BEV查詢向量進(jìn)行查詢。在所提出的RefPE的支持下，設(shè)計(jì)了一種新的基于transformer的BEV視圖轉(zhuǎn)換模塊WidthFormer。形式上，WidthFormer的輸入是多視圖圖像特征，輸出是統(tǒng)一的BEV表示，WidthFormer的概述如圖3所示！

3）細(xì)化Width特征

雖然將二維特征壓縮為一維特征可以極大地提高模型的效率和可擴(kuò)展性，但是不可避免的引入了信息丟失，那么有什么方法可以補(bǔ)償這個(gè)丟失的信息呢？

Refine transformer。Refine Transformer是一種輕量級(jí)的transformer解碼器。它通過(guò)關(guān)注其他寬度特征和原始圖像特征并從中檢索信息來(lái)細(xì)化初始寬度特征。如圖3所示，通過(guò)MaxPooling圖像特征的高度維度來(lái)計(jì)算初始寬度特征。在Refine Transformer中，寬度特征首先通過(guò)自注意操作從其他寬度特征中檢索信息；然后它從相應(yīng)的使用交叉注意力操作的圖像列。最后，使用前饋網(wǎng)絡(luò)來(lái)計(jì)算最終的寬度特征。

補(bǔ)充任務(wù)。為了進(jìn)一步提高寬度特征的表示能力，在訓(xùn)練過(guò)程中，用互補(bǔ)任務(wù)訓(xùn)練模型，將任務(wù)相關(guān)信息直接注入寬度特征，這是由BEVFormer v2推動(dòng)的。如圖3（a）所示，互補(bǔ)任務(wù)包括單目3D檢測(cè)任務(wù)和高度預(yù)測(cè)任務(wù)。為這兩個(gè)任務(wù)附加了一個(gè)FCOS3D樣式的Head。頭部采用1D寬度特征作為輸入，并以單目方式檢測(cè)3D目標(biāo)。為了使其能夠以1D寬度特征作為輸入，進(jìn)行了兩個(gè)修改：（1）將所有2D卷積操作更改為1D卷積；（2）在標(biāo)簽編碼過(guò)程中，忽略了高度范圍，只限制了寬度范圍。為了使互補(bǔ)任務(wù)與WidthFormer保持一致，將原來(lái)的回歸深度估計(jì)改為分類風(fēng)格。對(duì)于高度預(yù)測(cè)，在FCOS3D頭部添加了一個(gè)額外的分支，以預(yù)測(cè)目標(biāo)在原始圖像特征中的高度位置，這可以補(bǔ)充高度pooling中丟失的信息。注意，負(fù)責(zé)補(bǔ)充任務(wù)在模型推理過(guò)程中可以完全去除，不會(huì)影響推理效率。此外，訓(xùn)練輔助頭只消耗<10M的額外GPU內(nèi)存，因此對(duì)訓(xùn)練效率的影響最??！

實(shí)驗(yàn)結(jié)果對(duì)比

在常用的nuScenes數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了基準(zhǔn)測(cè)試，該數(shù)據(jù)集分為700、150和150個(gè)場(chǎng)景（分別用于訓(xùn)練、驗(yàn)證和測(cè)試）。每個(gè)場(chǎng)景包含6個(gè)視圖的圖像，這些圖像覆蓋了整個(gè)周圍環(huán)境。這里遵循官方評(píng)估協(xié)議，對(duì)3D檢測(cè)任務(wù)，除了常用的平均精度（mAP）之外，評(píng)估度量還包括nuScenes（TP）誤差，其包括平均平移誤差（mATE）、平均尺度誤差（mASE）、平均方向誤差（mAOE）、平均速度誤差（mAVE）和平均屬性誤差（mAAE），除此之外還有nuScenes檢測(cè)分?jǐn)?shù)（NDS）！

這里使用兩種3D檢測(cè)架構(gòu)：BEVDet和BEVDet4D來(lái)測(cè)試提出的WidthFormer，其涵蓋單幀和多幀設(shè)置。采用了BEVDet代碼庫(kù)中所有三個(gè)檢測(cè)器的實(shí)現(xiàn)方式。除非另有規(guī)定，否則使用BEVDet的默認(rèn)數(shù)據(jù)預(yù)處理和擴(kuò)充設(shè)置。將BEV特征大小設(shè)置為128×128，將BEV通道大小設(shè)置為64。對(duì)于BEVDet4D和BEVDepth4D實(shí)驗(yàn)，遵循僅使用一個(gè)歷史幀的原始BEVDet4D實(shí)現(xiàn)。所有模型都使用CBGS進(jìn)行了24個(gè)epoch的訓(xùn)練，ImageNet預(yù)訓(xùn)練的ResNet-50用作默認(rèn)骨干網(wǎng)絡(luò)。所有訓(xùn)練和CUDA延遲測(cè)量均使用NVIDIA 3090 GPU進(jìn)行。

使用PETR-DN和StreamPETR檢測(cè)器的不同位置編碼方法的比較。ResNet-50-DCN用作默認(rèn)主干網(wǎng)。輸入大小對(duì)于PETR-DN設(shè)置為512×1408，對(duì)于StreamPETR設(shè)置為256×704。所有模型都在沒(méi)有CBGS的情況下訓(xùn)練了24個(gè)epoch。

使用BEVDet和BEVDet4D檢測(cè)器的不同BEV視圖轉(zhuǎn)換方法的比較。ResNet-50被用作默認(rèn)的骨干網(wǎng)絡(luò)。輸入大小設(shè)置為256×704。所有模型都使用CBGS進(jìn)行了劃時(shí)代訓(xùn)練。

在不同尺寸設(shè)置下使用BEVDet的不同VT方法的CUDA延遲和mAP權(quán)衡比較：

放大檢測(cè)結(jié)果，并與nuScenes val-set上其他最先進(jìn)的3D檢測(cè)器進(jìn)行比較?！甅F’代表多幀融合，’C'代表相機(jī)；'L'代表LIDAR！

原文鏈接：https://mp.weixin.qq.com/s/avoZwvY7H6kKk_4NlbTyjg

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

自動(dòng)駕駛方案

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)