自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分割仍舊發(fā)光!Mask2Map:爆拉MapTRv2 近10個(gè)點(diǎn)~

人工智能 智能汽車
今天為大家分享在線高精地圖的最新工作—Mask2Map!基于分割的全新框架,爆拉MapTR v2近十個(gè)點(diǎn)!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面 & 筆者理解

高精地圖(HD Map)一直以來(lái)被認(rèn)為是是保證自動(dòng)駕駛車輛安全有效導(dǎo)航的關(guān)鍵要素。它們通過(guò)提供地圖實(shí)例的詳細(xì)位置和語(yǔ)義信息,促進(jìn)精確的規(guī)劃和障礙物避讓。傳統(tǒng)上,利用基于SLAM的方法離線構(gòu)建的高精地圖,涉及復(fù)雜的過(guò)程,需要大量的勞動(dòng)力和經(jīng)濟(jì)成本。而且,這種方法在響應(yīng)道路條件變化并提供及時(shí)更新方面存在局限性。所以,最近越來(lái)越多的論文開始研究如何基于學(xué)習(xí)來(lái)在線構(gòu)造高精地圖構(gòu)建,專注于生成自車周圍的局部地圖。

論文地址:https://arxiv.org/pdf/2407.13517

早期的工作將地圖構(gòu)建視為一種語(yǔ)義分割任務(wù),基于從各種傳感器獲得的BEV特征。它們預(yù)測(cè)了柵格格式中每個(gè)像素的類別標(biāo)簽,避免了生成精確矢量輪廓的復(fù)雜性。雖然這種方法提供了語(yǔ)義地圖信息,但在捕捉不同類別的地圖組件的精確關(guān)鍵位置及其結(jié)構(gòu)關(guān)系方面存在不足。因此,其輸出并不適合直接應(yīng)用于下游任務(wù),如運(yùn)動(dòng)預(yù)測(cè)和規(guī)劃。為了解決這個(gè)問(wèn)題,越來(lái)越多的研究者將 HD map 矢量化,能夠直接生成矢量化的地圖實(shí)體。常見的方法如下圖1所示。

圖片

之前的工作主要分為三種思路:

  • 圖1(a): 基于分割的解碼方法,該方法涉及語(yǔ)義分割,然后使用啟發(fā)式后處理算法生成矢量化地圖。然而,這種方法需要大量的處理時(shí)間。
  • 圖1(b): 基于檢測(cè)的解碼方法識(shí)別對(duì)應(yīng)于各種實(shí)例的關(guān)鍵點(diǎn),然后按順序生成矢量化地圖組件。但是,僅依賴關(guān)鍵點(diǎn)可能無(wú)法充分捕捉實(shí)例的多樣化形狀,從而阻礙了生成準(zhǔn)確的高精地圖。
  • 圖1(c): 各種基于可學(xué)習(xí)查詢的解碼方法,這些方法通過(guò)并行從BEV特征中解碼可學(xué)習(xí)查詢,直接預(yù)測(cè)矢量化地圖組件。由于初始可學(xué)習(xí)查詢與給定場(chǎng)景無(wú)關(guān),它們限制了同時(shí)捕獲復(fù)雜場(chǎng)景中地圖實(shí)例的語(yǔ)義和幾何信息的能力。

在這篇論文中,作者介紹了一種新的端到端高精地圖構(gòu)建框架,稱為Mask2Map。如圖1(d)所示,Mask2Map通過(guò)利用分割掩碼來(lái)區(qū)分BEV領(lǐng)域中不同類別的實(shí)例。所提出的Mask2Map架構(gòu)包括兩個(gè)網(wǎng)絡(luò):實(shí)例級(jí)掩碼預(yù)測(cè)網(wǎng)絡(luò)(Instance Level Mask Prediction Network,IMPNet)和掩碼驅(qū)動(dòng)地圖預(yù)測(cè)網(wǎng)絡(luò)(Mask-Driven Map Prediction Network,MMPNet)。最初,IMPNet從傳感器數(shù)據(jù)構(gòu)建多尺度BEV特征,并生成掩碼感知查詢,從全局角度捕獲實(shí)例的語(yǔ)義特征。遵循實(shí)例分割模型Mask2Former的框架,作者設(shè)計(jì)了掩碼感知查詢,能夠生成與BEV范圍中不同類別的實(shí)例相關(guān)聯(lián)的BEV分割掩碼。隨后,基于IMPNet提供的掩碼感知查詢,MMPNet動(dòng)態(tài)地從BEV范圍的局部角度預(yù)測(cè)地圖實(shí)例的有序點(diǎn)集。

相關(guān)工作

BEV分割方法

BEV分割任務(wù)指的是利用傳感器數(shù)據(jù)收集有關(guān)車輛周圍靜態(tài)環(huán)境信息的任務(wù)。該類分割方法通常從傳感器數(shù)據(jù)中提取BEV特征,并使用靜態(tài)場(chǎng)景的柵格化圖像作為GT,在BEV領(lǐng)域執(zhí)行語(yǔ)義分割。例如,Lift-Splat-Shoot (LSS) 將從多視圖相機(jī)提取的特征轉(zhuǎn)換為3D特征,使用預(yù)測(cè)的深度信息,然后通過(guò)聚合這些特征生成BEV表示。CVT 使用交叉視圖注意力從透視圖到BEV領(lǐng)域?qū)W習(xí)幾何變換,使用相機(jī)感知的位置編碼。BEVFormer 通過(guò)與空間和時(shí)間信息交互,通過(guò)預(yù)定義的網(wǎng)格狀BEV查詢統(tǒng)一BEV表示。BEVSegFormer 通過(guò)使用可變形交叉注意力模塊,從不依賴于相機(jī)內(nèi)參和外參的多視圖相機(jī)特征中生成密集的語(yǔ)義查詢,執(zhí)行BEV語(yǔ)義分割。

矢量化高精地圖構(gòu)建方法

在線高精地圖構(gòu)建方法因其潛力而受到廣泛關(guān)注,有可能取代自動(dòng)駕駛中的高精地圖,并為規(guī)劃和定位提供有用信息。這些方法使用傳感器數(shù)據(jù)實(shí)時(shí)預(yù)測(cè)自車周圍的詳細(xì)地圖實(shí)例。例如,HDMapNet 使用帶有BEV特征的語(yǔ)義分割模型和后處理方法來(lái)生成矢量化高精地圖。然而,這種方法需要大量的計(jì)算時(shí)間。為了提高處理效率,引入了基于查詢的方法,利用Transformer注意力解碼場(chǎng)景并直接預(yù)測(cè)地圖實(shí)例的有序點(diǎn)序列。VectorMapNet 引入了一個(gè)兩階段框架,首先檢測(cè)地圖實(shí)例的邊界框,然后使用自回歸解碼器依次預(yù)測(cè)每個(gè)實(shí)例的點(diǎn)。MapTR 利用DETR的架構(gòu)將地圖實(shí)例表示為有序點(diǎn)集,并使用層次化查詢對(duì)Transformer解碼器進(jìn)行編碼。MapTRv2 進(jìn)一步擴(kuò)展了其能力,使用深度監(jiān)督學(xué)習(xí)3D幾何信息,并在透視視圖和BEV上進(jìn)行語(yǔ)義分割。MapVR 為每個(gè)地圖實(shí)例生成矢量化地圖,然后使用可微分光柵化器將其轉(zhuǎn)換為光柵化地圖,提供實(shí)例級(jí)分割監(jiān)督。PivotNet 通過(guò)生成關(guān)鍵點(diǎn)的有序列表預(yù)測(cè)地圖實(shí)例,這些關(guān)鍵點(diǎn)對(duì)于捕獲地圖組件的整體形狀至關(guān)重要。

去噪訓(xùn)練策略

基于DETR架構(gòu)的感知模型已經(jīng)采用了基于Transformer架構(gòu)的查詢預(yù)測(cè),通過(guò)二分匹配將GT標(biāo)簽分配給預(yù)測(cè),以確保適當(dāng)?shù)谋O(jiān)督。然而,這種分配有時(shí)會(huì)導(dǎo)致跨時(shí)期或?qū)又g的匹配不一致。例如,不同的GT標(biāo)簽可能在不同的時(shí)期分配給相同的查詢,從而導(dǎo)致收斂速度變慢和性能下降。為了解決這個(gè)挑戰(zhàn),DN-DETR 引入了去噪訓(xùn)練策略。該策略將從嘈雜的GT邊界框派生的查詢集成到DETR解碼器的現(xiàn)有查詢中,將預(yù)測(cè)這些GT邊界框的任務(wù)分配給這些GT查詢。這種方法已被證明在穩(wěn)定跨訓(xùn)練時(shí)期的二分匹配中是有效的。MP-Former 解決了連續(xù)解碼器層之間不一致的掩碼預(yù)測(cè)問(wèn)題。MP-Former 采用了掩碼引導(dǎo)訓(xùn)練方法,使用故意加入噪聲的GT查詢和GT掩碼,以減輕不準(zhǔn)確掩碼預(yù)測(cè)的負(fù)面影響。Mask DINO 引入了一個(gè)統(tǒng)一的去噪訓(xùn)練框架,增強(qiáng)了多任務(wù)學(xué)習(xí)在目標(biāo)檢測(cè)和分割任務(wù)中的穩(wěn)定性。

方法論

創(chuàng)新點(diǎn)

作者引入了幾種創(chuàng)新方法來(lái)提高預(yù)測(cè)高精地圖的準(zhǔn)確性:

  • 設(shè)計(jì)了位置查詢生成器(Positional Query Generator,PQG),它生成捕獲全面位置信息的實(shí)例級(jí)位置查詢,以增強(qiáng)掩碼感知查詢。
  • 大多數(shù)現(xiàn)有方法在構(gòu)建高精地圖時(shí)沒(méi)有考慮每個(gè)地圖實(shí)例的點(diǎn)級(jí)信息,但是作者引入了幾何特征提取器(Geometric Feature Extractor,GFE)來(lái)捕獲每個(gè)實(shí)例的幾何結(jié)構(gòu)。GFE處理BEV分割掩碼,從BEV特征中提取地圖實(shí)例的點(diǎn)級(jí)幾何特征。
  • 作者觀察到由于IMPNet和MMPNet的查詢與不同實(shí)例的GT相關(guān)聯(lián),Mask2Map的性能受到限制。為了解決這個(gè)問(wèn)題,作者提出了一種網(wǎng)絡(luò)間去噪訓(xùn)練策略(Inter-network Denoising Training )。這種方法使用嘈雜的GT查詢和擾動(dòng)的GT分割掩碼作為IMPNet的輸入,并引導(dǎo)模型對(duì)抗噪聲,從而確保網(wǎng)絡(luò)間的一致性并提高高精地圖構(gòu)建的性能。

模型結(jié)構(gòu)

Mask2Map的整體架構(gòu)如下圖2所示。Mask2Map架構(gòu)包括兩個(gè)網(wǎng)絡(luò):IMPNet和MMPNet。首先,IMPNet生成從全局視角捕獲全面語(yǔ)義信息的掩碼感知查詢。隨后,MMPNet利用通過(guò)PQG和GFE獲得的幾何信息,從局部視角構(gòu)建更詳細(xì)的矢量化地圖。

圖片

實(shí)例級(jí)掩碼預(yù)測(cè)網(wǎng)絡(luò)(IMPNet)

IMPNet由BEV編碼器掩碼感知查詢生成器組成。BEV編碼器從傳感器數(shù)據(jù)中提取多尺度BEV特征,掩碼感知查詢生成器產(chǎn)生掩碼感知查詢,隨后用于生成BEV分割掩碼。

BEV編碼器: IMPNet通過(guò)處理多視圖相機(jī)圖像、激光雷達(dá)點(diǎn)云或兩者的融合,生成BEV特征。多視圖相機(jī)圖像通過(guò)LSS操作轉(zhuǎn)換為BEV表示。激光雷達(dá)點(diǎn)云通過(guò)體素編碼轉(zhuǎn)換為BEV表示。當(dāng)集成相機(jī)和激光雷達(dá)傳感器進(jìn)行融合時(shí),從兩種模態(tài)提取的BEV特征被連接并通過(guò)額外的卷積層。

掩碼驅(qū)動(dòng)地圖預(yù)測(cè)網(wǎng)絡(luò)(MMPNet)

MMPNet包括三個(gè)主要組成部分:位置查詢生成器(Positional Query Generator)、幾何特征提取器(Geometric Feature Extractor)和掩碼引導(dǎo)地圖解碼器(Mask-Guided Map Decoder)。位置查詢生成器注入位置信息以增強(qiáng)掩碼感知查詢,而幾何特征提取器處理BEV分割掩碼以從BEV特征中提取幾何特征。最后,掩碼引導(dǎo)地圖解碼器使用位置查詢生成器和幾何特征提取器提供的特征,預(yù)測(cè)地圖實(shí)例的類別和有序點(diǎn)集的坐標(biāo)。

網(wǎng)絡(luò)間去噪訓(xùn)練

Mask2Map通過(guò)IMPNet傳遞掩碼感知查詢給MMPNet,以進(jìn)行實(shí)例特征的層次化細(xì)化。為了確保有效的訓(xùn)練,作者為IMPNet分配了實(shí)例分割損失,為MMPNet分配了地圖構(gòu)建損失。IMPNet和MMPNet使用的查詢應(yīng)該通過(guò)二分匹配與它們各自的GT進(jìn)行匹配。然而,當(dāng)IMPNet和MMPNet的查詢與不同實(shí)例的GT相關(guān)聯(lián)時(shí),匹配過(guò)程中可能會(huì)出現(xiàn)不一致性。作者觀察到這種網(wǎng)絡(luò)間的不一致性往往會(huì)引發(fā)收斂速度變慢和性能下降。

為了解決這個(gè)問(wèn)題,作者采用了去噪訓(xùn)練策略。關(guān)鍵思想是將從每個(gè)GT實(shí)例派生的嘈雜GT查詢,合并到IMPNet內(nèi)的可學(xué)習(xí)查詢中(見圖2)。作者的模型被訓(xùn)練以去噪這些查詢,通過(guò)直接將它們與相應(yīng)的GT匹配。這與通過(guò)二分匹配將可學(xué)習(xí)查詢與GT匹配的方式形成對(duì)比。因此,這種策略被稱為網(wǎng)絡(luò)間去噪訓(xùn)練。這個(gè)過(guò)程引導(dǎo)模型在IMPNet和MMPNet使用的查詢之間建立對(duì)應(yīng)關(guān)系,有效減輕了網(wǎng)絡(luò)間的不一致性。此外,除了GT查詢,作者還生成了擾動(dòng)的GT分割掩碼,以替代IMPNet的BEV分割掩碼。

圖片

作者通過(guò)為每個(gè)實(shí)例的GT類別分配所有類別嵌入向量之一來(lái)生成GT查詢。作者通過(guò)以概率λ隨機(jī)替換類嵌入向量與其他類別之一來(lái)添加翻轉(zhuǎn)噪聲。同時(shí),作者還通過(guò)將地圖噪聲添加到每個(gè)實(shí)例的有序點(diǎn)序列中,并將其光柵化,生成擾動(dòng)的GT分割掩碼,如圖3(c)所示。

嘈雜GT查詢和可學(xué)習(xí)查詢的組合被稱為可學(xué)習(xí)實(shí)例查詢。與使用BEV分割掩碼不同,作者專門使用擾動(dòng)的GT分割掩碼進(jìn)行嘈雜GT查詢。嘈雜GT查詢通過(guò)IMPNet和MMPNet傳遞,其預(yù)測(cè)結(jié)果與相應(yīng)的GT匹配,而不進(jìn)行二分匹配。

訓(xùn)練損失

用于訓(xùn)練Mask2Map的總損失L由下式給出:

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。 作者在nuScenes 和 Argoverse2 兩個(gè)公開數(shù)據(jù)集上做了測(cè)試。

評(píng)估指標(biāo)。 作者定義了感知范圍為橫向方向 [-15.0m, 15.0m] 和縱向方向 [-30.0m, 30.0m]。作者將地圖實(shí)例分為三類用于高精地圖構(gòu)建:人行橫道、車道分隔線和道路邊界。作者采用兩種評(píng)估指標(biāo):基于 Chamfer 距離提出的平均精度 (AP) 和基于光柵化的 AP 。作者主要使用 Chamfer 距離度量,使用 0.5、1.0 和 1.5 米的閾值計(jì)算平均精度 (mAP)。對(duì)于基于光柵化的平均精度 (mAP?),作者測(cè)量每個(gè)地圖實(shí)例的交并比,閾值設(shè)置為 {0.50, 0.55, ..., 0.75} 用于人行橫道和 {0.25, 0.30, ..., 0.50} 用于線形元素。為了進(jìn)一步評(píng)估網(wǎng)絡(luò)間匹配一致性比率,作者使用了查詢利用率 (Query Utilization, Util) 指標(biāo),該指標(biāo)計(jì)算 MMPNet 的第一解碼器層與 IMPNet 的最后一層匹配的一致性比率。

性能比較

nuScenes 上的結(jié)果。 表1展示了 Mask2Map 在 nuScenes 驗(yàn)證集上的全面性能分析,使用 Chamfer 距離度量。Mask2Map 建立了新的最先進(jìn)性能,顯著優(yōu)于現(xiàn)有方法。當(dāng)僅使用相機(jī)輸入時(shí),Mask2Map 在 24 個(gè)周期內(nèi)取得了 71.6% mAP 的顯著結(jié)果,在 110 個(gè)周期內(nèi)取得了 74.6% mAP,分別比之前的最先進(jìn)模型 MapTRv2 高出 10.1% mAP 和 5.9% mAP。當(dāng)使用相機(jī)-激光雷達(dá)融合時(shí),Mask2Map 比 MapTRv2 提高了 9.4% mAP 的性能。表2基于光柵化度量評(píng)估了 Mask2Map 的性能。值得注意的是,作者的 Mask2Map 方法比 MapTRv2 提高了 18.0 mAP 的顯著性能。

Argoverse2 上的結(jié)果。 表3展示了幾種高精地圖構(gòu)建方法在 Argoverse2 驗(yàn)證集上的性能評(píng)估。所提出的 Mask2Map 與現(xiàn)有模型相比顯示出顯著的性能提升。Mask2Map 超過(guò)了當(dāng)前領(lǐng)先的方法 MapTRv2,提高了 4.1% mAP,表明作者的模型在不同場(chǎng)景中實(shí)現(xiàn)了一致的性能。

圖片

消融研究

作者進(jìn)行了消融研究,以評(píng)估 Mask2Map 核心思想的貢獻(xiàn)。在這些實(shí)驗(yàn)中,使用了僅相機(jī)輸入和 ResNet50 骨干網(wǎng)絡(luò)。訓(xùn)練在 nuScenes 訓(xùn)練數(shù)據(jù)集的 1/4 上進(jìn)行了 24 個(gè)周期。評(píng)估在完整驗(yàn)證集上執(zhí)行。

主要組件的貢獻(xiàn): 表4展示了 Mask2Map 每個(gè)組件的影響。作者通過(guò)逐個(gè)添加每個(gè)組件來(lái)評(píng)估性能。第一行代表一個(gè)基線模型,使用基于 LSS 的 BEV 編碼器提取 BEV 特征,并使用可變形注意力預(yù)測(cè)矢量化地圖實(shí)例。將 IMPNet 添加到基線模型時(shí),作者注意到 mAP 顯著增加了 5.9%,表明包含掩碼感知查詢(能夠生成實(shí)例分割結(jié)果)顯著提升了高精地圖構(gòu)建的性能。此外,添加 MMPNet 使 mAP 進(jìn)一步提高了 3.8%,強(qiáng)調(diào)了通過(guò) BEV 分割掩碼注入地圖實(shí)例的位置和幾何信息的重要性。最后,作者的網(wǎng)絡(luò)間去噪訓(xùn)練提供了額外的 6.5% mAP 增加,強(qiáng)調(diào)了其在提升性能中的有效性。

MMPNet 子模塊的貢獻(xiàn): 作者在表5中詳細(xì)研究了 PQG 和 GFE 的貢獻(xiàn)。僅 GFE 就比基線貢獻(xiàn)了顯著的 3.1% mAP 增加,而僅 PQG 則產(chǎn)生了 3.4% mAP 的改進(jìn)。PQG 和 GFE 的組合通過(guò) 4.8% mAP 進(jìn)一步提高了性能,展示了它們的互補(bǔ)效應(yīng)。

網(wǎng)絡(luò)間去噪訓(xùn)練對(duì)匹配一致性的影響: 作者進(jìn)一步研究了網(wǎng)絡(luò)間去噪訓(xùn)練的影響。如表6所示,網(wǎng)絡(luò)間去噪訓(xùn)練將匹配比率 Util 從 24.7% 顯著提高到 74.7%,這轉(zhuǎn)化為整體 mAP 性能的 6.5% 顯著增加。這表明作者的網(wǎng)絡(luò)間去噪訓(xùn)練有效地減輕了 IMPNet 和 MMPNet 之間查詢到 GT 匹配的不一致性。

網(wǎng)絡(luò)間去噪訓(xùn)練中噪聲的影響: 在表7中,作者探索了在網(wǎng)絡(luò)間去噪訓(xùn)練中使用的地圖噪聲的影響。作者將方法與不使用地圖噪聲的 GT 分割掩碼的基線進(jìn)行了比較。結(jié)果表明,在 GT 中添加地圖噪聲比基線提高了 0.8% mAP。

圖片

定性分析

定性結(jié)果。 圖4展示了所提出的 Mask2Map 產(chǎn)生的定性結(jié)果。作者與當(dāng)前的最先進(jìn)方法 MapTRv2 進(jìn)行了比較。注意,Mask2Map 產(chǎn)生了比 MapTRv2 更好的地圖構(gòu)建結(jié)果。

圖片

總結(jié)

作者介紹了一種名為Mask2Map的端到端在線高精地圖構(gòu)建方法。Mask2Map利用IMPNet生成掩碼感知查詢和BEV分割掩碼,從全局視角捕獲語(yǔ)義場(chǎng)景上下文。隨后,MMPNet通過(guò)PQG和GFE增強(qiáng)掩碼感知查詢,整合語(yǔ)義和幾何信息。最后,掩碼引導(dǎo)地圖解碼器預(yù)測(cè)地圖實(shí)例的類別和有序點(diǎn)集。此外,作者提出了網(wǎng)絡(luò)間去噪訓(xùn)練,以減輕IMPNet和MMPNet之間由于不同的二分匹配結(jié)果導(dǎo)致的網(wǎng)絡(luò)間不一致性。作者在nuScenes和Argoverse2基準(zhǔn)測(cè)試上的評(píng)估表明,所提出的想法比基線帶來(lái)了顯著的性能提升,以相當(dāng)大的優(yōu)勢(shì)超越了現(xiàn)有的高精地圖構(gòu)建方法。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-04-03 09:48:47

自動(dòng)駕駛軌跡

2024-10-29 09:24:59

2024-09-04 09:38:02

2020-03-08 21:50:32

Windows微軟Windows 10

2020-03-11 10:09:57

JAVA詳解classpath

2023-06-01 09:00:00

圖像分割模自動(dòng)化

2013-11-19 11:59:49

Linux命令Shell腳本

2018-01-23 10:25:40

Win10網(wǎng)絡(luò)命令

2013-05-22 10:28:19

2013-03-20 10:21:07

2021-03-30 10:33:46

Windows 10PC數(shù)據(jù)收集

2021-09-23 14:43:05

普渡機(jī)器人人工智能

2024-09-09 09:17:00

2017-04-18 10:36:17

FireFox工具前端開發(fā)

2010-08-11 13:18:40

安裝DB2數(shù)據(jù)庫(kù)

2021-07-28 08:16:15

Windows 10操作系統(tǒng)Windows

2024-08-15 08:31:35

SAM 2LLM大型語(yǔ)言模

2010-07-25 17:16:55

2014-06-23 11:15:06

Windows 8.1Windows 9

2020-06-12 12:14:29

云計(jì)算教育
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)