自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

地圖先驗(yàn)的花式玩法?元戎啟行提出PriorMapNet:暴漲3個點(diǎn)!

人工智能 智能汽車
今天為大家分享北理工和元戎啟行的工作PriorMapNet!問鼎nuScenes和Argoverse2。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面 & 筆者的個人理解

北理工和元戎啟行的工作PriorMapNet!在線高精地圖構(gòu)建對于自動駕駛中的后續(xù)預(yù)測和規(guī)劃任務(wù)至關(guān)重要。遵循MapTR范式,最近的工作取得了不錯的結(jié)果。然而在主流方法中,參考點(diǎn)是隨機(jī)初始化的,導(dǎo)致預(yù)測和GT之間的匹配不穩(wěn)定。為了解決這個問題,我們引入PriorMapNet來增強(qiáng)在線高精地圖的構(gòu)建。具體來說提出了PPS解碼器,它為參考點(diǎn)提供了位置和結(jié)構(gòu)先驗(yàn)。根據(jù)數(shù)據(jù)集中的地圖元素進(jìn)行擬合,先驗(yàn)參考點(diǎn)降低了學(xué)習(xí)難度,實(shí)現(xiàn)了穩(wěn)定的匹配。此外,我們提出了PF編碼器,利用BEV特征先驗(yàn)來增強(qiáng)圖像到BEV的轉(zhuǎn)換。此外,我們提出了DMD交叉注意,它分別沿多尺度和多樣本解耦交叉注意力,以提高效率。我們提出的PriorMapNet在nuScenes和Argoverse2數(shù)據(jù)集上的在線矢量化高精地圖構(gòu)建任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能。

圖片

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  • 我們通過將特征、位置和結(jié)構(gòu)先驗(yàn)集成到編碼器和解碼器中,引入了一種新的基于先驗(yàn)的在線高精地圖構(gòu)建框架。
  • 提出了DMD交叉注意,它分別沿多尺度和多樣本解耦交叉注意力,以提高效率。
  • 在nuScenes和Argoverse2數(shù)據(jù)集上的在線矢量化高精地圖構(gòu)建中實(shí)現(xiàn)了SOTA性能,展示了高性能和泛化能力。

相關(guān)工作回顧

在線高精地圖

與傳統(tǒng)的離線高精地圖構(gòu)建方法不同,最近的研究使用車載傳感器構(gòu)建在線高精地圖。早期的方法將地圖構(gòu)建作為分割任務(wù),預(yù)測BEV空間中的光柵化地圖。HDMapNet通過后處理將這些光柵化地圖進(jìn)一步轉(zhuǎn)換為矢量化地圖。

VectorMapNet引入了第一個端到端的矢量化地圖模型,使用DETR解碼器檢測地圖元素,并使用自回歸變換器優(yōu)化結(jié)果。因此,MapTR和MapTRv2設(shè)計了一種具有實(shí)例點(diǎn)級分層查詢嵌入方案的單階段地圖構(gòu)建范式。后來提出的主流方法遵循了這一流程,改進(jìn)的重點(diǎn)是增強(qiáng)查詢和外部功能的交互。InsMapper和HIMap進(jìn)一步探索了實(shí)例和點(diǎn)之間的相關(guān)性,并改進(jìn)了查詢中的交互。MapQR在實(shí)例級查詢中隱式編碼點(diǎn)級查詢,并嵌入查詢位置,如Conditional DETR。盡管有上述發(fā)展,但這些方法隨機(jī)初始化參考點(diǎn),導(dǎo)致匹配不穩(wěn)定。為了解決這個問題,我們的PriorMapNet引入了先驗(yàn)來增強(qiáng)匹配穩(wěn)定性。

高精地圖先驗(yàn)的引入

先驗(yàn)為地圖構(gòu)建提供了有效的初始化,降低了模型學(xué)習(xí)的難度。我們將先驗(yàn)分為兩類:語義先驗(yàn)和位置和結(jié)構(gòu)先驗(yàn)。對于先驗(yàn)語義,MGMap提出了Mask Active Instance(MAI),它學(xué)習(xí)地圖實(shí)例分割結(jié)果,并為實(shí)例查詢提供語義先驗(yàn)。Bi-Mapper設(shè)計了一個雙流模型,使用全局和局部視角的先驗(yàn)來增強(qiáng)語義圖學(xué)習(xí)。對于先驗(yàn)位置和結(jié)構(gòu),Topo2D(Li等人,2024a)使用2D車道檢測結(jié)果作為先驗(yàn)來初始化查詢。SMERF和P-MapNet引入了標(biāo)準(zhǔn)地圖(SDMap)作為地圖構(gòu)建的位置和結(jié)構(gòu)先驗(yàn)。然而,上述方法依賴于額外的模塊,增加了計算復(fù)雜度。相比之下,PriorMapNet使用離線聚類地圖元素作為位置和結(jié)構(gòu)先驗(yàn),在不增加額外計算消耗的情況下提高了性能。

地圖構(gòu)建中的Image-to-BEV Encoder

地圖構(gòu)建通常依賴于BEV特征,該特征由編碼器從圖像中轉(zhuǎn)換而來。編碼器有兩種類型:自下而上和自上而下。自下而上的編碼器將圖像提升到3D,并使用voxel pooling生成BEV特征。自頂向下編碼器生成包含3D信息的BEV查詢,并使用變壓器提取圖像特征以進(jìn)行BEV查詢。然而,由于查詢是隨機(jī)初始化的,單層編碼器的精度較低,多層編碼器帶來了更高的計算復(fù)雜度。為了克服這些局限性,我們使用先驗(yàn)特征增強(qiáng)了BEV查詢。

PriorMapNet方法詳解

概覽

PriorMapNet網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。主要包含四個部分Backbone、PF-Encoder、PPS-Decoder和Prediction Output。

圖片

Decoder with Prior Position and Structure

PPS-Decoder如圖4c所示。結(jié)合隨機(jī)初始化參考點(diǎn)的MapTRv2和僅提供語義先驗(yàn)而不提供位置信息的MGMap,PPS-Decoder通過位置和結(jié)構(gòu)先驗(yàn)增強(qiáng)參考點(diǎn),提供“good anchor”來提高準(zhǔn)確性和匹配穩(wěn)定性。

PPS-Decoder包含多個級聯(lián)的解碼器層,用于迭代地優(yōu)化分層查詢和參考點(diǎn)。分層查詢由實(shí)例級查詢和點(diǎn)級查詢組成,它們通過broadcasting組合在一起:

圖片

參考點(diǎn)用先前的位置和結(jié)構(gòu)進(jìn)行初始化。為了擬合數(shù)據(jù)集中地圖元素的分布,我們使用K-Means對地圖元素進(jìn)行聚類,并提取第一個Npri元素的位置信息,如圖2所示。聚類和抽象是由離線完成的,確保在推理過程中沒有額外的計算負(fù)擔(dān)。在訓(xùn)練和推理過程中,一些參考點(diǎn)獲得了擬合的位置和結(jié)構(gòu)先驗(yàn)(稱為先驗(yàn)參考點(diǎn),而其余的參考點(diǎn)仍然來自可學(xué)習(xí)的參數(shù)(稱為可學(xué)習(xí)參考點(diǎn),參考點(diǎn)的組合集表示為R)。

圖片

為了嵌入查詢位置,參考點(diǎn)在DAB-DETR之后用正弦位置進(jìn)行編碼。查詢位置嵌入實(shí)現(xiàn)如下:

圖片

線性層的參數(shù)不在解碼器層之間共享。PE(·)在坐標(biāo)上單獨(dú)計算,位置嵌入沿著特征通道連接:

圖片

參考點(diǎn)和位置嵌入在PPS解碼器層之間進(jìn)行更新。在每一層中,自我關(guān)注和交叉關(guān)注機(jī)制使用以下輸入進(jìn)行QKV和參考點(diǎn):

圖片

先驗(yàn)參考點(diǎn)適合數(shù)據(jù)集中地圖元素的位置和結(jié)構(gòu)分布,這有助于查詢專注于學(xué)習(xí)與參考點(diǎn)的偏移。此外,我們維護(hù)了可學(xué)習(xí)參考點(diǎn),以捕獲和表示與典型位置和結(jié)構(gòu)模式不同的地圖元素。自注意力使先前參考點(diǎn)和可學(xué)習(xí)參考點(diǎn)之間能夠相互作用,減少冗余檢測,提高整體檢測精度。

Encoder with Prior Feature

PF編碼器通過BEV特征先驗(yàn)增強(qiáng)了圖像到BEV的轉(zhuǎn)換。PF編碼器建立在自上而下編碼器(如BEVFormer和GKT)的基礎(chǔ)上,利用BEV特征作為查詢,通過交叉注意力提取相關(guān)圖像特征。

我們首先使用LSS將圖像特征轉(zhuǎn)換為初始化的BEV特征,然后將其用作BEV查詢先驗(yàn),在單層BEVFormer編碼器中進(jìn)行優(yōu)化。在MGMap之后,BEV特征通過EML Neck下采樣到多尺度。

為了更好地聚合來自同一映射元素的特征,有必要吸收同一實(shí)例的嵌入并區(qū)分不同實(shí)例的嵌入。因此,我們引入了地圖元素的判別損失,以使相同的立場更接近,并進(jìn)一步分離不同的實(shí)例:

圖片

在PPS解碼器的交叉注意力層,查詢加權(quán)樣本BEV特征。PF編碼器使查詢能夠有效地聚合與同一地圖元素相關(guān)的特征,同時區(qū)分不同的地圖實(shí)例,提高地圖構(gòu)建的準(zhǔn)確性。

Decoupled Multi-Scale Deformable Attention

為了解決多尺度可變形交叉注意力(MSDA)的計算復(fù)雜性,我們提出了DMD交叉注意機(jī)制,以沿多尺度和多樣本解耦交叉注意力,如圖5b所示。

圖片

在vanilla MSDA中,每個查詢都與M尺度BEV特征交互,并在每個尺度上采樣N個點(diǎn),其計算復(fù)雜度為O(M×N):

圖片

為了提高效率,DMD交叉注意力機(jī)制將香草MSDA過程分為兩個階段:

圖片

多尺度階段在M個尺度上進(jìn)行交叉注意力,每個尺度采樣一個點(diǎn)。多采樣階段使用多尺度階段的輸出,并專注于最大尺度特征來采樣N個點(diǎn)。DMD交叉注意將計算復(fù)雜度降低到O(M,N),并實(shí)現(xiàn)了比普通MSDA更高的性能。

實(shí)驗(yàn)分析

數(shù)據(jù)集和指標(biāo)

為了驗(yàn)證我們提出的方法PriorMapNet的有效性,我們在廣泛使用的nuScenes數(shù)據(jù)集和Argoverse 2數(shù)據(jù)集上對其進(jìn)行了評估,并將其與SOTA方法進(jìn)行了比較。

nuScenes數(shù)據(jù)集是在線矢量化高精地圖構(gòu)建的標(biāo)準(zhǔn)基準(zhǔn),包含由六個多視圖相機(jī)和激光雷達(dá)捕獲的1000個駕駛場景,其中2D矢量化地圖元素作為地面實(shí)況。Argoverse 2專為自動駕駛的感知和預(yù)測研究而設(shè)計,包含1000個場景,每個場景15秒。由七個多視圖相機(jī)捕獲的3D矢量化地圖元素作為GT提供。

根據(jù)之前的研究,我們評估了三類地圖元素的性能:車道分隔帶、人行橫道和道路邊界。PriorMapNet的性能使用平均精度(AP)指標(biāo)進(jìn)行評估,如果預(yù)測與其GT之間的腔室距離在0.5、1.0和1.5米的閾值范圍內(nèi),則預(yù)測被視為TP。

主要結(jié)果

nuScenes上的結(jié)果。我們在表1中報告了nuScenes秋季集的定量結(jié)果。在相機(jī)模式下,PriorMapNet超越了之前的SOTA方法,與我們的基線MapTRv2相比,mAP提高了6.2%。在一個RTX 4090 GPU上,PriorMapNet的推斷速度為每秒13.9幀(FPS)。此外,在相機(jī)和激光雷達(dá)融合模式下,PriorMapNet達(dá)到72.9%的mAP和7.5 FPS,展現(xiàn)出強(qiáng)大的泛化能力。定性結(jié)果如圖6所示,進(jìn)一步說明PriorMapNet取得了改進(jìn)的結(jié)果。補(bǔ)充材料中顯示了更多定性結(jié)果。

圖片圖片

Argoverse 2上的結(jié)果。我們在表2中報告了Argoverse 2 val集的定量結(jié)果。Argoverse 2提供3D地圖注釋,允許對2D和3D地圖元素進(jìn)行預(yù)測。PriorMapNet在兩個維度上都超越了之前的SOTA方法,2D地圖元素的mAP為72.0%,3D地圖元素的mAP為69.9%,推理速度為12.6 FPS。實(shí)驗(yàn)結(jié)果證明了我們方法的可推廣性。

圖片

擴(kuò)大BEV范圍的結(jié)果。我們在nuScenes驗(yàn)證集上對擴(kuò)大的BEV范圍進(jìn)行模型訓(xùn)練和評估,如表3所示。BEV網(wǎng)格的尺寸保持在[0.3m,0.3m]。為了驗(yàn)證我們方法的魯棒性,我們相應(yīng)地增加了地圖元素的先驗(yàn)聚類和位置范圍。其他設(shè)置與原始模型保持一致。實(shí)驗(yàn)結(jié)果表明,PriorMapNet在擴(kuò)大BEV范圍方面保持了優(yōu)勢。值得注意的是,在100×50m的范圍內(nèi),我們的方法形成了SOTA方法SQD MapNet,該方法集成了stream策略。

圖片

消融實(shí)驗(yàn)

圖片圖片圖片

結(jié)論

本文引入PriorMapNet,利用先驗(yàn)知識增強(qiáng)在線矢量化高精地圖構(gòu)建。為了解決不穩(wěn)定匹配的問題,我們提出了PPS解碼器,該解碼器提供了從數(shù)據(jù)集中預(yù)先聚類的位置和結(jié)構(gòu)參考點(diǎn)。為了有效地嵌入邊界元特征,我們提出了PF編碼器,該編碼器利用邊界元特征先驗(yàn)增強(qiáng)圖像到邊界元的轉(zhuǎn)換,并利用判別損失來改善映射元素嵌入的聚合。為了降低計算復(fù)雜度,我們提出了DMD交叉注意,它分別沿多尺度和多樣本執(zhí)行交叉注意力。我們提出的PriorMapNet在nuScenes和Argoverse2數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。局限性和未來的工作。盡管我們開發(fā)了在線矢量化高精地圖構(gòu)建,但在未來的工作中需要解決幾個局限性。首先,我們的地圖元素先驗(yàn)只包含位置信息,缺乏語義信息,這限制了查詢的交互和優(yōu)化。其次,我們的方法僅依賴于單幀傳感器輸入,構(gòu)建時間和空間連續(xù)地圖元素的表示。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-10-11 09:32:48

2023-03-27 22:21:17

智能駕駛自動駕駛

2022-05-11 10:41:25

kaptcha工具驗(yàn)證碼

2024-03-28 10:00:04

2017-07-21 10:14:41

高德極客地圖高德地圖

2024-10-23 15:13:35

2021-03-18 08:11:18

PythonDash工具

2023-07-17 17:55:59

網(wǎng)絡(luò)間諜網(wǎng)絡(luò)攻擊

2013-04-01 11:17:43

Foursquare

2020-12-16 16:21:06

谷歌架構(gòu)技術(shù)

2020-05-28 13:11:37

Python編碼 開發(fā)

2019-12-23 10:22:05

AI 數(shù)據(jù)人工智能

2013-05-30 18:40:02

2019-07-11 14:45:52

簡歷編程項(xiàng)目

2025-01-22 10:15:00

2024-09-04 09:38:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號