實(shí)時(shí)局部建圖的深入思考 | MapTR繼往開(kāi)來(lái)的18篇論文剖析!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
實(shí)時(shí)局部建圖領(lǐng)域自從端到端方案MapTR(2023.1)[1]問(wèn)世后已經(jīng)又涌現(xiàn)出非常多優(yōu)秀的工作,基本是在MapTR基本框架的基礎(chǔ)上進(jìn)行一系列改進(jìn),包括原班人馬的升級(jí)作品MapTRv2(2023.8)[2].博主準(zhǔn)備從MapTRv2開(kāi)始至今(2024.5)發(fā)表的比較優(yōu)秀的論文按時(shí)間順序做一個(gè)梳理,大概18篇,因?yàn)閿?shù)量較多不具體介紹每個(gè)模塊,只按自己的理解概括最核心的創(chuàng)新點(diǎn),在文章結(jié)尾會(huì)對(duì)18篇論文做一個(gè)簡(jiǎn)要總結(jié),希望對(duì)從事相關(guān)領(lǐng)域研究的同學(xué)和業(yè)內(nèi)人士有所幫助.
[1] MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction
[2]MapTRv2: An End-to-End Framework for Online Vectorized HD Map Construction
1.BeMapNet(2023.6][3]
[3] End-to-End Vectorized HD-map Construction with Piecewise Bezier Curve
BeMapNet是在MapTR之后發(fā)表的,但沒(méi)有借鑒MapTR架構(gòu),而是在基于圖像分割+復(fù)雜后處理得到向量化地圖元素的模型,如HDMapNet[4] 的基礎(chǔ)上,首次提出使用分段的貝塞爾曲線(xiàn)來(lái)表征地圖元素,實(shí)現(xiàn)端到端的目的.關(guān)于貝塞爾曲線(xiàn)可參考這篇博客:啟思:從零開(kāi)始學(xué)圖形學(xué):10分鐘看懂貝塞爾曲線(xiàn)(https://zhuanlan.zhihu.com/p/344934774).
BeMapNet架構(gòu)
為了能更加準(zhǔn)確且高效地表示形狀復(fù)雜多變的地圖元素,論文中使用分段的貝塞爾曲線(xiàn),并且使用固定的階數(shù)和可變的分段數(shù).由Bezier Decoder輸出實(shí)例級(jí)的貝塞爾曲線(xiàn)特征,再由Piecewise Bezier Output Head輸出point級(jí)的貝塞爾曲線(xiàn)控制點(diǎn)序列.文中還使用IPM-PE Align Layer為bev feature提供IPM投影的幾何先驗(yàn)信息.
2.MapTRv2(2023.8)[2]
是MapTR的提升版,文中總結(jié)的第一個(gè)創(chuàng)新點(diǎn)是置換等價(jià)(permutation-equivalent)建模方法,也就是對(duì)gt建立多個(gè)按不同順序排列的點(diǎn)集副本,目的是消除排列順序的影響,然后用分層二分匹配(Hierarchical bipartite matching)的方式與query的預(yù)測(cè)結(jié)果做匹配,匹配的標(biāo)準(zhǔn)是與距離最近的一種排列的gt的距離,有點(diǎn)繞,因?yàn)樵谠鍹apTR已經(jīng)用到,不過(guò)多介紹.
第二個(gè)創(chuàng)新點(diǎn)是MapTRv2的核心,是對(duì)decoder的self-attention和cross-attention都做出了改進(jìn).對(duì)self-attention的改進(jìn)是使用分層query embedding的方案代替之前的全量query embedding,就是建立實(shí)例級(jí)的instance query 和關(guān)鍵點(diǎn)級(jí)的point query兩個(gè)集合,分別在集合內(nèi)部做self-attention,再用廣播相加的方式代表全量的query集合,這種共享權(quán)重的方式不僅能為每個(gè)point賦予對(duì)應(yīng)的instance信息,還能極大地減少計(jì)算量,在精度和性能上都有很大提升.對(duì)cross-attention的改進(jìn)主要是混合了BEV-based和PV-based cross-attention,充分利用BEV和PV信息.下圖可以直觀(guān)展示這種設(shè)計(jì):
MapTRv2 的Map decoder結(jié)構(gòu)
還有一個(gè)創(chuàng)新是結(jié)合了one-to-one和one-to-many匹配.one-to-one自不必說(shuō),one-to-many是另外設(shè)計(jì)了一組instance query,與復(fù)制了K次的gt進(jìn)行匹配,這樣可以增加正樣本的匹配成功概率,加快模型的收斂.
3.StreamMapNet(2023.8)[4]
[4]StreamMapNet: Streaming Mapping Network for Vectorized Online HD Map Construction
StreamMapNet主要在時(shí)序方面對(duì)MapTR進(jìn)行了提升.核心策略是近期出現(xiàn)的streaming strategy,在去年發(fā)布的VideoBEV [5],StreamPETR [6], Sparse4D v2 [7]等論文都有應(yīng)用,不同于傳統(tǒng)的單iteration迭代多幀或者stacking多幀的方式,streaming strategy單iteration只迭代一幀,在iteration之間做時(shí)序融合,可以實(shí)現(xiàn)時(shí)序模型的訓(xùn)練時(shí)長(zhǎng)與單幀模型相當(dāng),且能融合長(zhǎng)時(shí)序數(shù)據(jù),大幅提升了訓(xùn)練效率.在StreamMapNet的時(shí)序融合中,使用了稠密bev feature和稀疏query同時(shí)融合的方式,bev feature采用Gated Recurrent Unit [8] (GRU)模塊進(jìn)行融合,稀疏query采用和Sparse4D v2類(lèi)似的方式,按置信度取top k個(gè)query迭代到下一幀,與下一幀新初始化的query進(jìn)行合并,再用一個(gè)transformation loss進(jìn)行約束.
Stacking 和 Streaming 策略對(duì)比
[5]Exploring recurrent long-term temporal fusion for multi-view 3d perception
[6] Exploring object-centric temporal modeling for efficient multi-view 3d object detection
[7] Sparse4d v2: Recurrent temporal fusion with sparse model
[8] Empirical evaluation of gated recurrent neural networks on sequence modeling
文中還使用了Multi-Point Attention代替原始deformable DETR的cross-attention設(shè)計(jì),參照MapTRv2, 本質(zhì)上是只使用了instance query,沒(méi)有point query,一個(gè)instance query負(fù)責(zé)預(yù)測(cè)多個(gè)點(diǎn),生成多個(gè)reference points,而不是原始deformable DETR中一個(gè)query預(yù)測(cè)一個(gè)點(diǎn),生成一個(gè)reference points,加多個(gè)offset.這樣是為了適應(yīng)地圖元素的non-local特性.我認(rèn)為本質(zhì)上與區(qū)分instance query和point query差不多.
Multi-Point Attention
4. InsightMapper(2023.8)[9]
[9] InsightMapper: A closer look at inner-instance information for vectorized high-definition mapping
InsightMapper也是在MapTR基礎(chǔ)上做出一些改進(jìn).第一是細(xì)化了地圖元素預(yù)處理,如下圖所示,將原Polyline的復(fù)雜形狀都在交點(diǎn)切分成多個(gè)簡(jiǎn)單形狀,降低模型學(xué)習(xí)難度.
地圖元素預(yù)處理
第二是提出MapTR的分層query embedding的設(shè)計(jì)有一個(gè)問(wèn)題是instance之間共享了point query的權(quán)重,導(dǎo)致不同instance的points錯(cuò)誤地有了一定的關(guān)聯(lián)性.所以文中沒(méi)有設(shè)定共享point query權(quán)重,而是對(duì)每個(gè)instance設(shè)置不同的point query,稱(chēng)為Hybrid query, 消除這種錯(cuò)誤的關(guān)聯(lián).在做self-attention進(jìn)行instance內(nèi)部信息交互的時(shí)候設(shè)計(jì)一個(gè)attention-mask,讓屬于不同的instance的point query之間不可見(jiàn),只在instance內(nèi)部進(jìn)行交互.
Hierarchical query和Hybrid query對(duì)比
5. MapPrior(2023.8)[10]
[10] MapPrior: Bird's-Eye View Map Layout Estimation with Generative Models
MapPrior是一種結(jié)合感知和先驗(yàn)的地圖模型,先驗(yàn)用的是預(yù)訓(xùn)練生成模型,整體結(jié)構(gòu)如下:因?yàn)閷?duì)生成模型了解不是很深,就不具體介紹了.
MapPrior架構(gòu)
6.PivotNet(2023.9)[11]
[11] PivotNet: Vectorized Pivot Learning for End-to-end HD Map Construction.
PivotNet針對(duì)MapTR使用固定數(shù)量且地位一致的點(diǎn)表征復(fù)雜地圖元素會(huì)引起形狀信息損失的問(wèn)題,提出了用關(guān)鍵點(diǎn)(pivot)和共線(xiàn)點(diǎn)(collinear point)表征地圖元素的端到端框架.關(guān)鍵點(diǎn)即對(duì)元素形狀產(chǎn)生決定性影響的點(diǎn),如下圖所示.
Pivotnet架構(gòu)
首先在query的設(shè)定上并沒(méi)有采用分級(jí)的架構(gòu),而是只有point query,在Line-aware Point Decoder模塊中,由最多N個(gè)point query concate起來(lái)經(jīng)過(guò)MLP得到Line feature,再與BEV feature相乘得到一個(gè)可學(xué)習(xí)的Line-aware mask,通過(guò)與BEV 語(yǔ)義分割的真值做bce loss和dice loss進(jìn)行約束,得到query與instance的關(guān)系.
最關(guān)鍵的部分在于關(guān)鍵點(diǎn)預(yù)測(cè)和匹配模塊,不同于MapTR同樣數(shù)量的dt和gt做一對(duì)一匹配,這里先計(jì)算出一個(gè)實(shí)例的gt的T個(gè)關(guān)鍵點(diǎn),T是動(dòng)態(tài)變化的,然后在N個(gè)dt里找到最優(yōu)的T個(gè)組合,即為dt的關(guān)鍵點(diǎn),剩下即為共線(xiàn)點(diǎn),都是帶有順序的.為了提高效率,文中還使用了一些優(yōu)化措施.匹配結(jié)束后,利用對(duì)關(guān)鍵點(diǎn)和共線(xiàn)點(diǎn)不同的約束條件進(jìn)行約束.實(shí)驗(yàn)證明Pivotnet比起MapTR能夠更好地預(yù)測(cè)元素的形狀和角度.
7.MapVR(2023.10)[12]
[12] Online Map Vectorization for Autonomous Driving: A Rasterization Perspective
MapVR(Map Vectorization via Rasterization)通過(guò)一個(gè)額外的可微柵格化模塊來(lái)學(xué)習(xí)更好的向量化地圖,架構(gòu)如下:
MapVR架構(gòu)
文中提出,類(lèi)似MapTR的向量化地圖模型的問(wèn)題是使用Chamfer distance做gt和dt的匹配存在兩個(gè)缺陷,一是沒(méi)有尺度不變性,即對(duì)于大尺度和小尺度地圖元素采用一樣的標(biāo)準(zhǔn)不合理,二是這種方式忽略了形狀和幾何特性,會(huì)得出不合理的結(jié)果,圖示如下:
Chamfer Distance匹配的問(wèn)題
而如果使用柵格化地圖,就可以以mIOU為標(biāo)準(zhǔn),匹配更加準(zhǔn)確,如下圖所示:
mIOU匹配
文中首次使用近期相關(guān)研究中提出的一種無(wú)參數(shù)的可微分的柵格化[11]來(lái)作為向量化地圖和柵格化地圖的橋梁.在訓(xùn)練階段可以更準(zhǔn)確地實(shí)現(xiàn)gt和dt的匹配,使loss計(jì)算更加準(zhǔn)確,幫助模型收斂,在推理階段可以移除這個(gè)模塊,輸出更好的向量化地圖.
[13] Soft rasterizer: A differentiable renderer for image-based 3d reasoning
8.MapEX(2023.11)[14]
[14] Mind the map! Accounting for existing map information when estimating online HDMaps from sensor data
在實(shí)際工程應(yīng)用中,往往還不能完全拋棄傳統(tǒng)高精地圖,但傳統(tǒng)高精地圖有著生成周期長(zhǎng),更新慢的缺點(diǎn),MapEX就是利用已有的未更新的先驗(yàn)地圖數(shù)據(jù),結(jié)合傳感器實(shí)時(shí)感知,給出一個(gè)實(shí)時(shí)的地圖結(jié)果,是一個(gè)非常有實(shí)際工程價(jià)值的模型,比起只使用傳感器輸入有質(zhì)的提升.
MapEX架構(gòu)
如果是在工程中存在發(fā)生變化的真實(shí)地圖數(shù)據(jù),那可以直接作為輸入的EX-GT(Existing map GT),如果使用開(kāi)源數(shù)據(jù)集不存在發(fā)生變化的場(chǎng)景,文中做了一些場(chǎng)景模擬,來(lái)模擬地圖的變化,如元素缺失,元素加噪,元素徹底變化等等,隨機(jī)對(duì)GT做一些處理后作為輸入的EX-GT.
MapEX的模擬場(chǎng)景
MapEX的框架也是建立在MapTR框架的基礎(chǔ)上,將decoder原來(lái)使用的初始化query的一部分替換為從EX-GT的位置和類(lèi)別編碼而來(lái)的EX-query,編碼的方式如下圖所示:
Ex query編碼
然后在匹配過(guò)程中并不是直接使用匈牙利匹配,而是對(duì)EX-query做一個(gè)預(yù)匹配,即對(duì)與真實(shí)GT實(shí)例的所有點(diǎn)的平均距離小于1m的EX-query直接匹配為對(duì)應(yīng)的GT,剩下的query再進(jìn)行匈牙利匹配,降低模型學(xué)習(xí)的難度.這樣就可以充分利用已有地圖數(shù)據(jù)的先驗(yàn)信息,得到更加準(zhǔn)確的實(shí)時(shí)輸出.
另外MapEX還有一個(gè)地圖變化檢測(cè)模塊,即使用一個(gè)獨(dú)立的change detection query,與decoder每一層的全部query做cross-attention,融合所有query的信息,最后回歸出地圖變化的置信度.
9.GeMap(2023.12)[15]
[15] Online Vectorized HD Map Construction using Geometry
GeMap也是利用幾何先驗(yàn)對(duì)地圖元素進(jìn)行約束的模型.對(duì)比BeMapnet,PivotNet等模型,大多基于絕對(duì)坐標(biāo),不具備旋轉(zhuǎn)平移不變性,且沒(méi)有考慮到實(shí)例之間的相關(guān)性,如車(chē)道線(xiàn)之間一般平行,且距離與車(chē)道寬度有關(guān),車(chē)道線(xiàn)與路口一般垂直等.GeMap基于實(shí)例的位移矢量(displacement vectors),從它自身的形狀線(xiàn)索和不同位移矢量之間的相關(guān)性線(xiàn)索對(duì)輸出實(shí)例和點(diǎn)集進(jìn)行約束,能夠更加準(zhǔn)確地利用地圖元素的幾何特征.
GEMap框架
具體是通過(guò)Geometry-Decoupled Attention和Euclidean loss實(shí)現(xiàn)的.前者設(shè)計(jì)了兩個(gè)解耦的attention模塊,通過(guò)不同的attention-mask,一個(gè)關(guān)注于實(shí)例內(nèi)部的形狀信息,一個(gè)關(guān)注于實(shí)例之間的相關(guān)性信息.后者是分別對(duì)形狀和相關(guān)性進(jìn)行約束,公式如下(實(shí)際操作中使用了優(yōu)化效率的策略),另外也使用了segmentation, depth, dorection 和pts loss.
Euclidean Loss
10. ScalableMap(2024.1)[16]
[16] ScalableMap: Scalable Map Learning for OnlineLong-Range Vectorized HD Map Construction ScalableMap
ScalableMap使用一種類(lèi)似于縮放的方式來(lái)更好地還原出地圖元素的結(jié)構(gòu)化信息,實(shí)現(xiàn)長(zhǎng)距離場(chǎng)景的性能提升,在整個(gè)架構(gòu)上都做出了一些改進(jìn).
ScalableMap架構(gòu)
首先是BEV特征提取部分,第一步是分為兩個(gè)分支,一個(gè)通過(guò)DETR架構(gòu)得到類(lèi)似BEVFormer的position-aware的全局BEV特征, 另一個(gè)利用MLP得到的基于每個(gè)視角的instance-aware的k個(gè)BEV特征,多視角BEV特征再通過(guò)線(xiàn)性層融合成為統(tǒng)一的BEV特征.第二步是兩個(gè)BEV特征經(jīng)過(guò)Structure-Guided 特征融合模塊,并加入一個(gè)額外的分割頭,對(duì)兩個(gè)BEV特征分別進(jìn)行矯正和融合,使其同時(shí)具備準(zhǔn)確的位置和形狀信息.
其次是使用漸進(jìn)的Decoder來(lái)實(shí)現(xiàn)多尺度的地圖表示和監(jiān)督,核心是HSMR策略,即定義地圖密度為地圖元素中曲率超過(guò)閾值的頂點(diǎn)數(shù)量, 獲得漸進(jìn)的不同密度的地圖元素表示.在gt中,對(duì)頂點(diǎn)過(guò)多的元素進(jìn)行采樣,對(duì)頂點(diǎn)較少的元素進(jìn)行插值,可以獲得不同密度的gt; 在Decoder每層的query設(shè)定中,采用動(dòng)態(tài)插入的方法,即利用相鄰頂點(diǎn)之間的位置約束生成新的query,動(dòng)態(tài)地插入到原始query序列中,以此獲得不同密度的query序列.
在loss約束上也使用漸進(jìn)的loss約束,一是Vertex loss, 分別對(duì)原始頂點(diǎn)和新加入的頂點(diǎn)進(jìn)行約束,前者使用L1 loss,后者使用頂點(diǎn)到所屬邊的距離,二是Edge Loss對(duì)形狀進(jìn)行約束.
11.mapNeXt(2024.1)[17]
[17] MapNeXt: Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction
mapNeXt是從實(shí)際工程的角度對(duì)mapTR進(jìn)行優(yōu)化.首先通過(guò)分析mapTR對(duì)gt的置換等價(jià)處理,即對(duì)每個(gè)gt增加所有可能的排列再進(jìn)行匈牙利匹配,發(fā)現(xiàn)如果使用無(wú)序的Chamfer Distance作為距離代價(jià),可以忽略置換等價(jià)帶來(lái)的影響.作者通過(guò)增加decoder中query的組數(shù),采用并行的方式進(jìn)行一對(duì)一的匈牙利匹配,得到了較好的效果,且不影響推理效率.另外沒(méi)有采用隱式的位置編碼,而使用顯式的無(wú)參數(shù)的sin位置編碼提供位置先驗(yàn)可以提升效率.
在模型遷移和縮放方面,分析了各種預(yù)訓(xùn)練模型的性能,由于decoder增加了更多的query,選擇使用更強(qiáng)的VoVNetV2 backbone+FFN并做了規(guī)模擴(kuò)展的適配,而且在使用PETRv2的nuScenes BEV地圖分割任務(wù)上預(yù)訓(xùn)練,實(shí)現(xiàn)更好的模型遷移.
12.Stream Query Denoising(SQD)(2024.1)[18]
[18] Stream Query Denoising for Vectorized HD Map Construction
Stream Qurty Denoising(SQD)是在StreamMapNet[4]的基礎(chǔ)上進(jìn)一步結(jié)合了去噪的思想,幫助模型更好的收斂.去噪的思想由DN-DETR[19]等一系列論文啟發(fā),是通過(guò)對(duì)gt加噪聲構(gòu)建denoise query,直接綁定對(duì)應(yīng)的gt而不需要匈牙利匹配,使transformer減少被匈牙利匹配不穩(wěn)定的特性所影響,實(shí)現(xiàn)更快的收斂.
[19] Dn-detr: Accelerate detr training by introducing query denoising.
SQD架構(gòu)
SQD整個(gè)架構(gòu)與StreamMapNet類(lèi)似,通過(guò)stream的方式實(shí)現(xiàn)時(shí)序融合,包括bev feature的融合和top k query的融合,這里前序幀query對(duì)應(yīng)的gt,以及前序幀的bev feature都根據(jù)ego-motion進(jìn)行了轉(zhuǎn)換.
SQD核心改進(jìn)在于Denoising模塊,和DN-DETR不同的是SQD是對(duì)前序幀的gt進(jìn)行加噪.首先針對(duì)curve的特性,采取和bbox不同的加噪方式: line shifting, angular rotation, 和scale transformation,再編碼成位置嵌入,構(gòu)造noise query,和當(dāng)前幀的query以及前序幀的top k query進(jìn)行拼接,一起輸入decoder.
進(jìn)一步地,文中考慮到前一幀gt轉(zhuǎn)換到當(dāng)前幀后可能帶來(lái)的偏差,如新增,缺失,位置偏差等,設(shè)計(jì)了Adaptive Temporal Matching和Dynamic Query Noising模塊作為補(bǔ)充和增強(qiáng).前者計(jì)算了前序幀經(jīng)過(guò)時(shí)序轉(zhuǎn)換以后和當(dāng)前幀的Chamfer Distance,只把小于閾值的gt用來(lái)與當(dāng)前幀的query做匹配.后者在對(duì)前序幀加噪的過(guò)程中設(shè)計(jì)了decay rate,結(jié)合實(shí)例的變化尺度進(jìn)行有針對(duì)性的加噪.
13.ADMap(2024.1)[20]
[20] ADMap: Anti-disturbance framework for reconstructing online vectorized HD
ADMap架構(gòu)
ADMap提出由于MapTR預(yù)測(cè)的點(diǎn)會(huì)發(fā)生抖動(dòng)和移位,導(dǎo)致預(yù)測(cè)的實(shí)例會(huì)變得扭曲和鋸齒狀.為了提高模型的抗干擾能力,在MapTR的基礎(chǔ)上對(duì)網(wǎng)絡(luò)和Loss做出一些改進(jìn),主要有三個(gè)部分:Multi-Scale Perception Neck (MPN), Instance Interactive Attention (IIA) and Vector Direction Difference Loss(VDDL).
MPN類(lèi)似于FPN,將bev feature通過(guò)下采樣和上采樣得到不同尺度的bev 特征,便于decoder能得到多尺度的信息.
IIA首先在分級(jí)query(instance query 和point query)設(shè)計(jì)的基礎(chǔ)上,改變了MapTR中instance query的生成方式:通過(guò)point query的維度轉(zhuǎn)換和多層MLP學(xué)習(xí)而來(lái),先經(jīng)過(guò)Instance-self-attention進(jìn)行實(shí)例之間的信息交互,再與point query相加,經(jīng)過(guò)Points-self-attention學(xué)習(xí)實(shí)例內(nèi)部的點(diǎn)之間的信息交互.
VDDL則設(shè)計(jì)了帶權(quán)重的向量方向損失,來(lái)進(jìn)一步約束實(shí)例向量的形狀和方向.方向損失由逐點(diǎn)與gt的夾角余弦獲得,權(quán)重取決于gt的方向變化,即對(duì)方向變化劇烈的實(shí)例給予更大的權(quán)重.
14.MapQR(2024.2)[21]
MapQR致力于在MapTR的基礎(chǔ)上進(jìn)一步挖掘查詢(xún)機(jī)制(query)的潛力,只使用instance query,共享同一地圖中的內(nèi)容信息,避免使用points query發(fā)生同一地圖元素的信息不一致性,同時(shí)可以減少計(jì)算量.
MapTR和MapQR的Decoder對(duì)比
作者稱(chēng)這種實(shí)例查詢(xún)機(jī)制為Scatter-and-Gather Query,首先定義N個(gè)Instance query,經(jīng)過(guò)self-attention后通過(guò)Scatter操作每個(gè)擴(kuò)展為n個(gè)副本,根據(jù)不同的n個(gè)reference points生成不同的Positional Embedding,再concate后輸入cross-attention,最后將輸出的query通過(guò)Gather操作恢復(fù)為instance query,每個(gè)query負(fù)責(zé)預(yù)測(cè)n個(gè)點(diǎn).另外,在reference points的設(shè)計(jì)上,MapQR考慮了不同高度的影響.
15.EAN-MapNet(2024.2)[22]
[22] EAN-MapNet: Efficient Vectorized HD Map Construction with Anchor Neighborhoods
EAN-MapNet架構(gòu)
EAN-MapNet提出,建圖模型一般使用DETR decoder,這種query構(gòu)建機(jī)制缺少對(duì)地圖元素臨近的局部位置特征的關(guān)注,所以參照anchor思想,在BEV空間初始化多組anchors,每個(gè)anchor設(shè)計(jì)了查詢(xún)單元(query units)機(jī)制,由neighborhood central query和non-neighborhood central query構(gòu)成,同樣GT除了target points, 也在半徑為r的區(qū)域增加gt neighborhoods,neighborhood central query與target points相匹配,non-neighborhood central query與gt neighborhoods中的隨機(jī)點(diǎn)相匹配.
文中還設(shè)計(jì)了Grouped local self-attention(GL-SA)模塊適應(yīng)這種query機(jī)制,分為局部特征提取,組間特征交互,組內(nèi)特征交互三步,以更好地利用局部特征.損失函數(shù)方面也同時(shí)考慮了center和none-center區(qū)域的損失.
16.HIMap(2024.3)[23]
[23] HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction
HIMap架構(gòu)
HIMAP也是在query機(jī)制和decoder設(shè)計(jì)上對(duì)MapTR進(jìn)行改進(jìn),使模型能夠更好地學(xué)到實(shí)例級(jí)的特征.首先設(shè)計(jì)了混合的HIQuery,包含E個(gè)element query和E* P個(gè)point query,再把兩種query分別輸入element特征提取器(參照Masked Attention[24])和point特征提取器(參照DAB-DETR[25]),point query屬于一個(gè)實(shí)例的positional embedding的加權(quán)和作為element query的positional embedding.更新好的point query和elementquery會(huì)輸入point-element hybrider進(jìn)行信息融合,具體方式是屬于同一個(gè)實(shí)例的point query會(huì)與對(duì)應(yīng)的element query相加,然后每個(gè)element query會(huì)與對(duì)應(yīng)的所有point query的加權(quán)和相加,這樣point query 和element query都同時(shí)擁有了點(diǎn)的信息和實(shí)例信息,再作為新的HIMAP輸入下一層decoder.
[24] Masked-attention mask transformer for universal image segmentation.
[25] Dab-detr: Dynamic anchor boxes are better queries for detr.
為了保證point query和element query的一致性,作者做了一致性約束,即計(jì)算point query的加權(quán)和與對(duì)應(yīng)的element query的交叉熵加到總loss中.
17.MapTracker(2024.3)[26]
[26] MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping
MapTracker架構(gòu)
MapTracker是用跟蹤的方式更好地進(jìn)行時(shí)序增強(qiáng),從而使建圖更加準(zhǔn)確和一致性,魯棒記憶機(jī)制是核心.文中借鑒MOTR[27]的端到端目標(biāo)跟蹤思想,一共用到兩種記憶機(jī)制,一是BEV feature的記憶,會(huì)從前面10幀中選取更接近1m/5m/10m/15m的4幀,經(jīng)過(guò)ego-motion轉(zhuǎn)換后用兩層卷積層融合.二是Vector記憶,每幀由100個(gè)新初始化的vector和若干歷史幀保存的預(yù)測(cè)score超過(guò)閾值的positive vector經(jīng)過(guò)時(shí)空變換和MLP拼接而成,對(duì)應(yīng)于同一個(gè)地圖元素的歷史vector會(huì)被融合.
[27] MOTR: End-to-End Multiple-Object Tracking with Transformer
訓(xùn)練過(guò)程中同時(shí)考慮BEV loss,VEC loss和Transformation loss,同時(shí)對(duì)BEV特征,地圖元素匹配和跟蹤,時(shí)序融合的一致性進(jìn)行約束.采用增強(qiáng)每幀的幾何特性,前后兩幀之間建立匹配關(guān)聯(lián)的方式提高gt的一致性,并采用帶有一致性信息的mAP做為評(píng)測(cè)標(biāo)準(zhǔn).文中沒(méi)有具體說(shuō)推理機(jī)制,應(yīng)該與訓(xùn)練機(jī)制一致.
18.P-MapNet(2024.3)[28]
[28] P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors
P-MapNet是除MapEX[14]外另一種結(jié)合已有地圖先驗(yàn)來(lái)輔助當(dāng)前建圖的方式,與MapEX采用直接替換query不同,P-MapNet主要使用cross-attention和MAE[29] finetune的方式來(lái)融合二者信息.
[29] Masked autoencoders are scalable vision learners.
P-MapNet架構(gòu)
文中同時(shí)利用了比較粗的SDMap和比較精細(xì)的HDMap先驗(yàn)進(jìn)行信息融合.首先是SDMap融合模塊.SDMap信息可以從GPS獲取,經(jīng)過(guò)CNN網(wǎng)絡(luò)得到SDMap特征,與傳感器(包括camera/lidar)融合和視角轉(zhuǎn)換得到的BEV feature(經(jīng)過(guò)下采樣)通過(guò)cross attention進(jìn)行融合,再接一個(gè)segmentation head得到一個(gè)較粗的分割地圖.
然后是HDMap融合模塊.這里首先有一個(gè)MAE預(yù)訓(xùn)練步驟,與原生的MAE不同,這里的預(yù)訓(xùn)練是輸入帶有mask的柵格地圖原始image,再通過(guò)一個(gè)segmentation head輸出語(yǔ)義分割地圖,與原生MAE的作用相同,都是作為一個(gè)具有較強(qiáng)恢復(fù)能力的autoencoder,結(jié)構(gòu)大體是VIT+segmentation head.預(yù)訓(xùn)練結(jié)束后,將SDMap和傳感器融合的segmentaion結(jié)果輸入MAE,得到refine的segmention結(jié)果.
看到這大家可能有點(diǎn)confused, 最后對(duì)上面18個(gè)模型做個(gè)簡(jiǎn)短的總結(jié):
使用地圖元素的幾何特性進(jìn)行約束: BeMapNet, PivotNet, GeMap, ADMap
對(duì)MapTR 的query機(jī)制進(jìn)行改進(jìn): MapTRv2, StreamMapNet, InsightMapper, ADMap, MapQR, EAN-MapNet, HIMap
時(shí)序優(yōu)化: StreamMapNet, SQD(加去噪), MapTracker(跟蹤)
使用先驗(yàn)信息: MapPrior, MapEX, P-MapNet
其他: MapVR(柵格化輔助), mapNeXt(工程優(yōu)化)