無(wú)圖感知更進(jìn)一步!ScalableMap:邁向大范圍高精地圖新方案!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
筆者的個(gè)人理解
今年真的是無(wú)圖感知爆發(fā)的一年啊~近幾天arxiv上放出了一篇在線局部高精地圖構(gòu)建算法—ScalableMap,ScalableMap提出了一種新的端到端范式,用于純視覺(jué)構(gòu)建在線long-range矢量化高精地圖。HD地圖的矢量化表示,使用polyline和polygon來(lái)表示地圖元素,進(jìn)而應(yīng)用到下游的地圖構(gòu)建。然而,以前參考動(dòng)態(tài)目標(biāo)檢測(cè)設(shè)計(jì)的方案忽略了線性地圖元素內(nèi)的結(jié)構(gòu)約束,導(dǎo)致在長(zhǎng)距離場(chǎng)景中性能下降。因此本文利用地圖元素的特性來(lái)提高地圖構(gòu)建的性能。ScalableMap在線性結(jié)構(gòu)的指導(dǎo)下提取了更準(zhǔn)確的鳥瞰圖(BEV)特征,然后提出了一種分層稀疏地圖表示,以進(jìn)一步利用矢量化地圖元素的可擴(kuò)展性,并基于這種表示設(shè)計(jì)了漸進(jìn)解碼機(jī)制和監(jiān)督策略。ScalableMap在nuScenes數(shù)據(jù)集上取得了SOTA性能,尤其是在遠(yuǎn)程場(chǎng)景中,在實(shí)現(xiàn)18.3 FPS的同時(shí),超過(guò)了以前最先進(jìn)的模型6.5 mAP。
開(kāi)源鏈接:https://github.com/jingy1yu/ScalableMap
總結(jié)來(lái)說(shuō),ScalableMap的主要貢獻(xiàn)有如下兩點(diǎn):
- ScalableMap是第一個(gè)端到端的遠(yuǎn)程矢量化地圖構(gòu)建范式。作者利用地圖元素的結(jié)構(gòu)特性來(lái)提取更準(zhǔn)確的BEV特征,提出了一種基于可縮放矢量化元素的HSMR,并相應(yīng)地設(shè)計(jì)了漸進(jìn)解碼器和監(jiān)督策略。這幾點(diǎn)改進(jìn)均大幅提升了模型的感知性能;
- 作者通過(guò)大量實(shí)驗(yàn)評(píng)估了ScalableMap在nuScenes數(shù)據(jù)集上的性能。ScalableMap在更大范圍的HD地圖學(xué)習(xí)中取得了最先進(jìn)的結(jié)果,超過(guò)現(xiàn)有的多模態(tài)方法6.5 mAP,同時(shí)達(dá)到18.3 FPS。
高精地圖構(gòu)建的相關(guān)工作
車道檢測(cè):車道檢測(cè)任務(wù)多年來(lái)一直是一個(gè)熱門的研究課題。早期方法通常依賴于需要復(fù)雜后處理才能獲得最終結(jié)果的分割方案。為了獲得結(jié)構(gòu)化信息,一些方案旨在找到曲線的統(tǒng)一表示,而另一些方案則利用基于Anchor的方案來(lái)抽象具有開(kāi)放形狀的地圖元素。與上述解決方案相比,我們的思維更接近HRAN,它直接輸出結(jié)構(gòu)化polyline。然而,它依賴于已知計(jì)算效率低的遞歸網(wǎng)絡(luò)。ScalableMap能夠處理具有復(fù)雜幾何結(jié)構(gòu)的真實(shí)地圖元素,而前面提到的方法只能處理單個(gè)類型或規(guī)則形狀。
邊界提取:邊界提取旨在預(yù)測(cè)圖像中物體的多邊形邊界。Polygon RNN采用遞歸結(jié)構(gòu)對(duì)捕獲每個(gè)邊界,不適合有實(shí)時(shí)要求的場(chǎng)景。一些工作在邊界提取方面取得了良好的效果,但它們通常是為圖像空間中的多邊形設(shè)計(jì)的,不適合于地圖構(gòu)建任務(wù)。最接近本文的方案是BoundaryFormer,它使用查詢來(lái)預(yù)測(cè)多邊形的頂點(diǎn),以獲得矢量化的多邊形邊界。然而,它為圖像空間中的閉合形狀元素定義的可微損失不適用于由開(kāi)放形狀線性元素主導(dǎo)的地圖元素,因?yàn)榕c動(dòng)態(tài)對(duì)象相比,它們具有較少集中的特征。
矢量化高精地圖構(gòu)建:最近的工作試圖直接從傳感器數(shù)據(jù)獲取矢量化高精地圖。HDMapNet使用耗時(shí)的啟發(fā)式后處理方法生成矢量化地圖,而VectorMapNet提出了一種具有端到端范式的兩階段框架,該框架使用慢速自回歸解碼器來(lái)循環(huán)預(yù)測(cè)頂點(diǎn)。InstaGraM提出了一種基于頂點(diǎn)和edge heatmap的圖建模方法來(lái)推理實(shí)例-頂點(diǎn)關(guān)系,這可能很難推斷出多個(gè)視圖中出現(xiàn)的地圖元素的一些頂點(diǎn)??紤]到處理元素中任意形狀和不同數(shù)量頂點(diǎn)的挑戰(zhàn),MapTR通過(guò)使用固定數(shù)量的插值來(lái)獲得單一形式的表示來(lái)解決這一問(wèn)題。但MapTR的分層查詢?cè)O(shè)計(jì)主要關(guān)注初始化階段元素的結(jié)構(gòu)關(guān)聯(lián),導(dǎo)致收斂緩慢,并隨著感知范圍的增加而影響性能。只有SuperFusion是遠(yuǎn)程矢量化高精地圖構(gòu)建的相關(guān)工作,它也使用后處理來(lái)獲得矢量化結(jié)果。ScalableMap是第一個(gè)在整個(gè)過(guò)程中利用地圖元素的結(jié)構(gòu)特性來(lái)構(gòu)建大范圍矢量化地圖的端到端方案。
詳解ScalableMap
概覽
給定一組環(huán)視圖像,ScalableMap的目標(biāo)是實(shí)時(shí)預(yù)測(cè)一定范圍內(nèi)的M個(gè)局部地圖元素{,包括車道線、道路邊界和人行橫道。每個(gè)地圖元素由有序頂點(diǎn)的稀疏集表示。
ScalableMap的體系結(jié)構(gòu)如圖1所示。主要包含三個(gè)組件:
- 結(jié)構(gòu)引導(dǎo)的混合BEV特征提??;
- 漸進(jìn)解碼器;
- 漸進(jìn)式監(jiān)督;
BEV特征提取
地圖元素的延展和線性特性加劇了2D-3D變換的不適定性,導(dǎo)致特征錯(cuò)位和不連續(xù)。為了獲得混合BEV特征,作者利用一個(gè)分支來(lái)提取position-aware的BEV特征和另一個(gè)分支用于提取instance-aware的BEV特征。然后,在地圖元素的結(jié)構(gòu)特性的指導(dǎo)下,將這些分支融合在一起。
透視視圖轉(zhuǎn)換器。模型首先通過(guò)ResNet提取圖像特征。采用BEVFormer提出的方法來(lái)獲得position-aware的BEV特征,該方法利用可變形注意力來(lái)實(shí)現(xiàn)基于預(yù)定義的3D網(wǎng)格和標(biāo)定參數(shù)的BEV查詢和相應(yīng)圖像特征之間的空間交互。此外使用幾個(gè)MLP來(lái)獲得實(shí)instance-aware的BEV特征,因?yàn)樗鼈冊(cè)诒A魣D像空間中的連續(xù)特征方面是有效的。使用k個(gè)MLP將k個(gè)圖像特征單獨(dú)地轉(zhuǎn)換為它們各自的俯視圖。為了進(jìn)一步提高視圖之間的特征連續(xù)性,作者使用線性層將俯視圖特征轉(zhuǎn)換為統(tǒng)一的BEV特征。
結(jié)構(gòu)引導(dǎo)的特征融合。為了增強(qiáng)特征對(duì)精確地圖構(gòu)建的魯棒性,作者進(jìn)一步提出了一種相互校正策略,該策略利用來(lái)自兩個(gè)不同特征的信息:具有相對(duì)精確的地圖頂點(diǎn)位置數(shù)據(jù),包含地圖元素的綜合形狀信息。通過(guò)直接相加這些特征,進(jìn)一步得到了更新的。此外在中引入了一個(gè)分割頭,引導(dǎo)它專注于可行駛區(qū)域來(lái)學(xué)習(xí)變換尺度。隨后,將與refined的連接,并通過(guò)卷積層執(zhí)行它們的融合。該融合過(guò)程糾正了中的錯(cuò)位,得到了具有增強(qiáng)的豐富性和準(zhǔn)確性的混合bev特征。
漸進(jìn)式Decoder
矢量化地圖元素的各種形狀對(duì)傳統(tǒng)的抽象方案(如基于邊界框和基于錨點(diǎn)的方法)提出了挑戰(zhàn)。為了解決這個(gè)問(wèn)題,本文引入了HSMR。HSMR提供了一種稀疏和統(tǒng)一的表示,可以準(zhǔn)確描述元素的實(shí)際形狀,同時(shí)支持快速推理。在此基礎(chǔ)上設(shè)計(jì)了一個(gè)受DETR范式啟發(fā)的漸進(jìn)解碼器。此外集成了一個(gè)模塊,該模塊首先生成結(jié)構(gòu)查詢,然后動(dòng)態(tài)插入查詢,充當(dāng)連接不同密度地圖的重要橋梁。
分層稀疏圖表示。地圖元素的polyline表示通常是通過(guò)對(duì)曲率超過(guò)閾值的點(diǎn)進(jìn)行采樣來(lái)獲得的,從而導(dǎo)致每個(gè)元素的頂點(diǎn)數(shù)量不同。我們將形成每個(gè)元素的頂點(diǎn)數(shù)量定義為地圖密度,以確保一致的表示。基于該密度,我們對(duì)頂點(diǎn)數(shù)量過(guò)多的元素使用均勻點(diǎn)采樣,而對(duì)于頂點(diǎn)數(shù)量少于所需密度的元素,我們根據(jù)原始頂點(diǎn)之間的距離執(zhí)行點(diǎn)子采樣。這種方法允許我們?cè)谌我饷芏认芦@得相同元素的表示。通過(guò)將DETR范式的迭代優(yōu)化思想與矢量化地圖的動(dòng)態(tài)可調(diào)密度相結(jié)合,我們分層地利用低密度地圖作為高密度地圖的抽象表示。低密度地圖在足夠稀疏的同時(shí)充分地捕捉地圖元素形狀。HSMR及其性能的可視化描述如圖4所示。
Decoder Layers。進(jìn)一步作者定義了負(fù)責(zé)第n個(gè)元素的第m個(gè)頂點(diǎn)的查詢。利用地圖元素的分層稀疏表示,最初生成少量查詢以捕獲每個(gè)地圖元素的近似形狀。每個(gè)查詢是通過(guò)添加實(shí)例嵌入和位置嵌入而形成的。方法的漸進(jìn)地圖元素解碼器由多個(gè)解碼器層組成,每個(gè)解碼器層包含兩種類型的注意力機(jī)制。這些注意力機(jī)制促進(jìn)了頂點(diǎn)之間的信息交換,并實(shí)現(xiàn)了每個(gè)頂點(diǎn)與其相應(yīng)BEV特征之間的交互。頂點(diǎn)之間的交換使用多頭自注意來(lái)實(shí)現(xiàn),而另一個(gè)使用可變形注意來(lái)實(shí)現(xiàn)。
結(jié)構(gòu)查詢生成和動(dòng)態(tài)查詢插入。為了連接處理不同密度的層,我們利用同一元素內(nèi)相鄰頂點(diǎn)之間的位置約束來(lái)增加地圖密度。我們通過(guò)獲取共享一條邊的兩個(gè)相鄰查詢的平均值來(lái)引入新查詢,并在這兩個(gè)查詢之間動(dòng)態(tài)插入新查詢。具體來(lái)說(shuō)沒(méi)有采用同時(shí)初始化大量查詢并迭代更新的傳統(tǒng)方法,而是采用了一種策略,即僅用有限數(shù)量的查詢初始化每個(gè)元素,并逐層逐漸增加地圖密度。這使該模塊能夠?qū)W⒂谠枷∈鑼?shí)例特征,并利用矢量化地圖元素的結(jié)構(gòu)特征,確保強(qiáng)大的大范圍感知能力。
漸進(jìn)式監(jiān)督策略
使用常見(jiàn)的二分匹配策略匹配真值和預(yù)測(cè):
使用focal loss來(lái)監(jiān)督元素類別和可行駛區(qū)域,以下?lián)p失函數(shù)中包含了額外的損失項(xiàng):
頂點(diǎn)損失。考慮到HSMR涉及子采樣過(guò)程,本文區(qū)分了原始頂點(diǎn)和新添加頂點(diǎn)之間的監(jiān)督。漸進(jìn)polyline損失的監(jiān)督機(jī)制的可視化表示如圖2所示。使用L1損失優(yōu)化:
邊緣損失。使用邊緣損失來(lái)監(jiān)督邊的形狀,包括與新添加頂點(diǎn)的距離以及由相鄰邊緣形成的角度。距離度量以L1損失進(jìn)行監(jiān)督,而斜率和角度分量以余弦相似性進(jìn)行監(jiān)督。每個(gè)元素的邊緣損失公式為:
實(shí)驗(yàn)驗(yàn)證
主要結(jié)果
與基線的比較。將ScalableMap與最先進(jìn)的nuScenes驗(yàn)證測(cè)試方法進(jìn)行比較來(lái)評(píng)估其性能。如表1所示,在相機(jī)模態(tài)下,ScalableMap的表現(xiàn)略好于MapTR,在沿Y軸[-30.0m,30.0m]的傳統(tǒng)感知范圍內(nèi),實(shí)現(xiàn)了1.9個(gè)更高的mAP和更快的推理速度。當(dāng)相同的模型直接應(yīng)用于[-60.0m,60.0m]場(chǎng)景時(shí),ScalableMap實(shí)現(xiàn)了45.6 mAP和18.3 FPS,而MapTR的相應(yīng)值分別為39.1和11.2。值得注意的是,SuperFusion是唯一一種公布這一范圍內(nèi)實(shí)驗(yàn)結(jié)果的方法。然而,它是激光雷達(dá)和單目相機(jī)的融合模型。在相同的基準(zhǔn)下,我們的方法實(shí)現(xiàn)的mAP比SuperFusion高出16.2,即使在具有接近實(shí)時(shí)推理速度的多目相機(jī)模式下也表現(xiàn)出卓越的性能。結(jié)果表明,本文的方案有效地滿足了在線地圖構(gòu)建任務(wù)的實(shí)時(shí)性要求,在傳統(tǒng)的感知范圍測(cè)試和遠(yuǎn)程測(cè)試中都具有卓越的準(zhǔn)確性。
定性結(jié)果可視化。ScalableMap在nuScenes驗(yàn)證數(shù)據(jù)集上的定性結(jié)果在大范圍測(cè)試中的可視化如圖3所示。附錄B中給出了更多具有挑戰(zhàn)性的場(chǎng)景的可視化結(jié)果,以獲得更多具有挑戰(zhàn)的場(chǎng)景的視覺(jué)化結(jié)果。即使在彎道、十字路口、擁堵道路和夜間場(chǎng)景中,我們的模型仍然表現(xiàn)良好。圖4可視化了MapTR*和ScalableMap的六個(gè)解碼器層中的三個(gè)。我們的策略展示了更快地關(guān)注實(shí)例特征的能力,而漸進(jìn)迭代產(chǎn)生了更精確的元素形狀。
消融實(shí)驗(yàn)
我們?cè)趎uScenes驗(yàn)證集上進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證所提出的方法和不同設(shè)計(jì)的組件的有效性。所有實(shí)驗(yàn)的設(shè)置與前面提到的保持相同。
表2給出了實(shí)驗(yàn)結(jié)果,展示了本文提出的組件的影響。HSMR在稀疏表示的遠(yuǎn)程感知中表現(xiàn)出有效的性能。SQG&DQI增強(qiáng)了地圖元素中的結(jié)構(gòu)信息,而SGFF模塊顯著提高了性能。
頂點(diǎn)數(shù)量的消融實(shí)驗(yàn)。表3中給出了形成每個(gè)元素的頂點(diǎn)數(shù)量對(duì)每個(gè)解碼器層中的大范圍感知的影響。實(shí)驗(yàn)結(jié)果表明,基于本文提出的HSMR,模型性能隨著頂點(diǎn)數(shù)量的增加而相當(dāng)穩(wěn)定。我們權(quán)衡準(zhǔn)確性和速度來(lái)選擇合適的參數(shù)。
ScalableMap的結(jié)論和未來(lái)的改進(jìn)方向
本文提出的ScalableMap是一種用于構(gòu)建長(zhǎng)距離矢量化高精地圖的全新范式。作者利用地圖元素的固有結(jié)構(gòu)來(lái)提取準(zhǔn)確的BEV特征,提出了基于可擴(kuò)展矢量化映射的HSMR概念,并相應(yīng)地設(shè)計(jì)了漸進(jìn)解碼器和監(jiān)督策略以確??焖偈諗?。通過(guò)這些設(shè)計(jì),ScalableMap可以有效地捕捉長(zhǎng)距離的信息。在nuScenes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了它的SOTA性能,特別是在更大范圍的感知場(chǎng)景中,從而肯定了它在現(xiàn)實(shí)世界環(huán)境中的實(shí)時(shí)適用性和有效性。
未來(lái)方向:ScalableMap僅依賴于實(shí)時(shí)視覺(jué)感知,因此其性能取決于場(chǎng)景的可見(jiàn)性,而在交通擁堵或極端天氣條件等情況下,場(chǎng)景的可見(jiàn)性可能會(huì)受到限制。此外方法依賴準(zhǔn)確的相機(jī)內(nèi)外參,這可能會(huì)在實(shí)際部署中造成限制。未來(lái)的研究可以通過(guò)開(kāi)發(fā)無(wú)參數(shù)方法或結(jié)合在線校準(zhǔn)方法來(lái)減少對(duì)傳感器內(nèi)外參的依賴。探索地圖元素之間的位置約束的集成或利用全局粗略地圖作為先驗(yàn)知識(shí)可以進(jìn)一步增強(qiáng)魯棒性和準(zhǔn)確性。
論文鏈接:https://arxiv.org/abs/2310.13378
原文鏈接:https://mp.weixin.qq.com/s/Ch-iktorUlVErabSouuvOg