優(yōu)于所有方法!HIMap:端到端矢量化HD地圖構(gòu)建
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
矢量化高清(HD)地圖構(gòu)建需要預(yù)測(cè)地圖元素的類別和點(diǎn)坐標(biāo)(例如道路邊界、車道分隔帶、人行橫道等)?,F(xiàn)有技術(shù)的方法主要基于點(diǎn)級(jí)表示學(xué)習(xí),用于回歸精確的點(diǎn)坐標(biāo)。然而,這種pipeline在獲得element-level信息和處理element-level故障方面具有局限性,例如錯(cuò)誤的element 形狀或element之間的糾纏。為了解決上述問(wèn)題,本文提出了一個(gè)簡(jiǎn)單而有效的HybrId框架,命名為HIMap,以充分學(xué)習(xí)和交互點(diǎn)級(jí)和element級(jí)信息。
具體來(lái)說(shuō),引入了一種稱為HIQuery的混合表示來(lái)表示所有地圖元素,并提出了一種點(diǎn)element交互器來(lái)交互式地提取元素的混合信息,如點(diǎn)位置和element形狀,并將其編碼到HIQuery中。此外,還提出了點(diǎn)-element一致性約束,以增強(qiáng)點(diǎn)級(jí)和element級(jí)信息之間的一致性。最后,集成HIQuery的輸出點(diǎn)元素可以直接轉(zhuǎn)換為地圖元素的類、點(diǎn)坐標(biāo)和掩碼。在nuScenes和Argoverse2數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果顯示始終優(yōu)于以前的方法。值得注意的是,在nuScenes數(shù)據(jù)集上方法實(shí)現(xiàn)了77.8mAP ,顯著優(yōu)于以前的SOTA至少8.3 mAP!
論文名稱:HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction
論文鏈接:https://arxiv.org/pdf/2403.08639.pdf
HIMap首先引入一種稱為HIQuery的混合表示來(lái)表示地圖中的所有地圖元素。它是一組可學(xué)習(xí)的參數(shù),可以通過(guò)與BEV特征交互來(lái)迭代更新和細(xì)化。然后,設(shè)計(jì)了一個(gè)多層混合解碼器,將地圖元素的混合信息(如點(diǎn)位置、元素形狀)編碼到HIQuery中,并進(jìn)行點(diǎn)元素交互,見圖2?;旌辖獯a器的每一層包括點(diǎn)元素交互器、自關(guān)注和FFN。在點(diǎn)元交互器內(nèi)部,執(zhí)行了一個(gè)相互交互機(jī)制,以實(shí)現(xiàn)點(diǎn)級(jí)和元素級(jí)信息的交換,避免單級(jí)信息的學(xué)習(xí)偏差。最終,集成HIQuery的輸出點(diǎn)元素可以直接轉(zhuǎn)換為元素的點(diǎn)坐標(biāo)、類和掩碼。此外,還提出了點(diǎn)-元素一致性約束,以加強(qiáng)點(diǎn)級(jí)和元素級(jí)信息之間的一致性。
HIMap框架一覽
HIMap的總體pipeline如圖3(a)所示。輸入 HIMap與各種機(jī)載傳感器數(shù)據(jù)兼容,例如來(lái)自多視圖相機(jī)的RGB圖像、來(lái)自激光雷達(dá)的點(diǎn)云或多模態(tài)數(shù)據(jù)。這里我們以多視圖RGB圖像為例來(lái)說(shuō)明HIMap。
BEV特征提取器:使用BEV特征提取器從多視圖RGB圖像中提取BEV特征。它包括從每個(gè)透視圖中提取多尺度2D特征的主干,將多尺度特征細(xì)化并融合為單尺度特征的FPN,以及將2D特征映射為BEV特征的2D到BEV特征轉(zhuǎn)換模塊。
HIQuery:為了充分學(xué)習(xí)地圖元素的點(diǎn)級(jí)和元素級(jí)信息,引入HIQuery來(lái)表示地圖中的所有元素!
混合解碼器:混合解碼器通過(guò)將HIQuery Qh與BEV特征X迭代交互來(lái)產(chǎn)生集成的HIQuery。
點(diǎn)元素交互器的目標(biāo)是交互式地提取地圖元素的點(diǎn)級(jí)和元素級(jí)信息并將其編碼到HIQuery中。兩個(gè)層次的信息相互作用的動(dòng)機(jī)來(lái)自于它們的互補(bǔ)性。點(diǎn)級(jí)信息包含局部位置知識(shí),而元素級(jí)信息提供整體形狀和語(yǔ)義知識(shí)。因此,該交互使得能夠?qū)Φ貓D元素的局部信息和整體信息進(jìn)行相互細(xì)化。
考慮到點(diǎn)級(jí)表示和元素級(jí)表示之間的原始差異,它們分別關(guān)注局部信息和整體信息,兩級(jí)表示的學(xué)習(xí)也可能相互干擾。這將增加信息交互的難度,降低信息交互的有效性。因此,引入了點(diǎn)元素一致性約束,以增強(qiáng)每個(gè)點(diǎn)級(jí)別和元素級(jí)別信息之間的一致性,元素的可分辨性也可以得到加強(qiáng)!
實(shí)驗(yàn)結(jié)果對(duì)比
論文在NuScenes Dataset和Argoverse2 Dataset上進(jìn)行了實(shí)驗(yàn)!
在nuScenes val-set上的SOTA模型進(jìn)行比較:
和Argoverse2 val set上的SOTA模型比較:
與nuScenes驗(yàn)證集多模態(tài)數(shù)據(jù)下SOTA模型比較:
更多消融實(shí)驗(yàn):