量產(chǎn)殺器!P-Mapnet:利用低精地圖SDMap先驗,建圖性能暴力提升近20個點!
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面
在線HD Map生成算法是當(dāng)前自動駕駛系統(tǒng)擺脫對高精地圖依賴的方法之一,現(xiàn)有的算法在遠(yuǎn)距離范圍下的感知表現(xiàn)依然較差。為此,我們提出了P-MapNet,其中的“P”強調(diào)我們專注于融合地圖先驗以提高模型性能。具體來說,我們利用了SDMap和HDMap中的先驗信息:一方面,我們從OpenStreetMap中提取了弱對齊的SDMap數(shù)據(jù),并將其編碼為單獨的條件分支輸入。盡管改輸入與實際HD Map存在弱對齊的問題,我們基于Cross-attention機制的架構(gòu)能夠自適應(yīng)地關(guān)注SDMap骨架,并帶來顯著的性能提升;另一方面,我們提出了一種用MAE來捕捉HDMap的先驗分布的refine模塊,該模塊有助于讓生成的HD Map更符合實際Map的分布,有助于減小遮擋、偽影等影響。我們在nuScenes和Argoverse2數(shù)據(jù)集上進(jìn)行了廣泛的的實驗。
圖 1
總結(jié)來說我們的貢獻(xiàn)如下:
(1)我們的SDMap先驗?zāi)軌蛱嵘诰€地圖生成性能,包含了柵格化(最多可提高18.73 mIoU)和矢量化(最多可提高8.50 mAP)兩種地圖表示。
(2)我們的HDMap先驗?zāi)軌驅(qū)⒌貓D感知指標(biāo)提升最多6.34%。
(3)P-MapNet可以切換到不同的推理模式,以在精度和效率之間進(jìn)行權(quán)衡。
(4)P-MapNet是一個遠(yuǎn)距離HD Map生成的解決方案,對于較遠(yuǎn)的感知范圍能夠帶來更大的改進(jìn)。我們的代碼和模型已公開發(fā)布在https://jike5.github.io/P-MapNet/。
相關(guān)工作回顧
(1)在線地圖生成
傳統(tǒng)的HD Map的制作主要包含SLAM建圖、自動標(biāo)注、人工標(biāo)注等步驟[1],這導(dǎo)致了HD Map的成本高、鮮度有限。因此,在線地圖生成對于自動駕駛系統(tǒng)是至關(guān)重要的。HDMapNet[2]將地圖元素通過柵格化進(jìn)行表示,使用pixel-wise的預(yù)測和啟發(fā)式后處理方法獲得矢量化的預(yù)測結(jié)果。最近的一些方法,如MapTR[4], PivotNet[3], Streammapnet[5]等則基于Transformer架構(gòu)實現(xiàn)了端到端的矢量化預(yù)測,但這些方法僅使用傳感器輸入,在遮擋、極端天氣等復(fù)雜環(huán)境下性能仍有限。
(2)遠(yuǎn)距離地圖感知
為了讓在線地圖生成的結(jié)果能夠更好的被下游模塊使用,一些研究嘗試將地圖感知范圍進(jìn)一步拓展。SuperFusion[7]通過融合激光雷達(dá)和相機,通過depth-aware BEV變換,實現(xiàn)了前向90m的遠(yuǎn)距離預(yù)測。NeuralMapPrior[8]通過維護(hù)和更新全局神經(jīng)地圖先驗來增強當(dāng)前在線觀測的質(zhì)量、拓展感知的范圍。[6]通過將衛(wèi)星圖像與車載傳感器數(shù)據(jù)進(jìn)行特征聚合來獲得BEV特征,進(jìn)一步再進(jìn)行預(yù)測。MV-Map則專注于離線、長距離的地圖生成,該方法通過聚合所有關(guān)聯(lián)幀特征,并使用神經(jīng)輻射場來對BEV特征進(jìn)行優(yōu)化。
概述P-MapNet
整體框架如圖 2所示。
圖 2
輸入: 系統(tǒng)輸入為點云: 、環(huán)視相機:,其中 為環(huán)視相機數(shù)量。通常的HDMap生成任務(wù)(例如HDMapNet)可以定義為:
其中 表示特征提取, 表示segmentation head, 則是HDMap的預(yù)測結(jié)果。
我們所提出的P-MapNet融合了SD Map和HD Map先驗,這種新任務(wù)( setting)可以表示為:
其中, 表示SDMap先驗, 表示本文所提的refinement模塊。 模塊通過預(yù)訓(xùn)練的方式學(xué)習(xí)HD Map分布先驗。類似的,當(dāng)只使用SDMap先驗時,則得到 -only setting:
輸出:對于地圖生成任務(wù),通常有兩種地圖表示形式:柵格化和矢量化。在本文的研究中,由于本文所設(shè)計的兩個先驗?zāi)K更適合柵格化輸出,因此我們主要集中在柵格化的表示上。
3.1 SDMap Prior 模塊
SDMap數(shù)據(jù)生成
本文基于nuScenes和Argoverse2數(shù)據(jù)集進(jìn)行研究,使用OpenStreetMap數(shù)據(jù)生成以上數(shù)據(jù)集對應(yīng)區(qū)域的SD Map數(shù)據(jù),并通過車輛GPS進(jìn)行坐標(biāo)系變換,以獲取對應(yīng)區(qū)域的SD Map。
BEV Query
如圖2中所示,我們首先分別對圖像數(shù)據(jù)進(jìn)行特征提取和視角轉(zhuǎn)換、對點云進(jìn)行特征提取,得到BEV特征。然后將BEV特征通過卷積網(wǎng)絡(luò)進(jìn)行下采樣后得到新的BEV特征:,將該特征圖展平得到BEV Query。
SD Map先驗融合
對于SD Map數(shù)據(jù),通過卷積網(wǎng)絡(luò)進(jìn)行特征提取后,得到的特征 與BEV Query進(jìn)行Cross-attention機制:
經(jīng)過交叉注意力機制后得到的BEV特征通過segmentation head可以獲得地圖元素的初始預(yù)測。
3.2、HDMap Prior 模塊
直接將柵格化的HD Map作為原始MAE的輸入,MAE則會通過MSE Loss進(jìn)行訓(xùn)練,從而導(dǎo)致無法作為refinement模塊。因此在本文中,我們通過將MAE的輸出替換為我們的segmentation head。為了讓預(yù)測的地圖元素具有連續(xù)性和真實性(與實際HD Map的分布更貼近),我們使用了一個預(yù)訓(xùn)練的MAE模塊來進(jìn)行refine。訓(xùn)練該模塊包含兩步:第一步上使用自監(jiān)督學(xué)習(xí)訓(xùn)練MAE模塊來學(xué)習(xí)HD Map的分布,第二步是通過使用第一步得到的權(quán)重作為初始權(quán)重,對網(wǎng)絡(luò)的所有模塊進(jìn)行微調(diào)。
第一步預(yù)訓(xùn)練時,從數(shù)據(jù)集中獲取的真實HD Map經(jīng)過隨機mask后作為網(wǎng)絡(luò)輸入 ,訓(xùn)練目標(biāo)則為補全HD Map:
第二步fine-tune時, 則使用第一步預(yù)訓(xùn)練的權(quán)重作為初始權(quán)重,完整的網(wǎng)絡(luò)為:
4、實驗
4.1 數(shù)據(jù)集和指標(biāo)
我們在兩個主流的數(shù)據(jù)集上進(jìn)行了評測:nuScenes和Argoverse2。為了證明我們所提方法在遠(yuǎn)距離上的有效性,我們設(shè)置了在三種不同的探測距離:, , 。其中, 范圍中BEV Grid的分辨率為0.15m,另外兩種范圍下分辨率為0.3m。我們使用mIOU指標(biāo)來評估柵格化預(yù)測結(jié)果,使用mAP來評估矢量化預(yù)測結(jié)果。為了評估地圖的真實性,我們還使用了LPIPS指標(biāo)作為地圖感知指標(biāo)。
4.2 結(jié)果
與SOTA結(jié)果對比:我們對所提的方法與當(dāng)前SOTA方法在短距離(60m × 30m)和長距離(90m × 30m)下的地圖生成結(jié)果進(jìn)行比較。如表II所示,我們的方法在與現(xiàn)有的僅視覺和多模態(tài)(RGB+LiDAR)方法相比表現(xiàn)出更優(yōu)越的性能。
我們在不同距離和使用不同傳感器模式下,與HDMapNet [14] 進(jìn)行了性能比較,結(jié)果總結(jié)在表I和表III中。我們的方法在240m×60m范圍的mIOU上取得了13.4%改進(jìn)。隨著感知距離超出或甚至超過傳感器檢測范圍,SDMap先驗的有效性變得更加顯著,從而驗證了SDMap先驗的功效。最后,我們利用HD地圖先驗通過將初始預(yù)測結(jié)果精細(xì)化以使其更加真實,并消除了錯誤結(jié)果,進(jìn)一步帶來了性能提升。
HDMap先驗的感知度量指標(biāo)。HDMap先驗?zāi)K將網(wǎng)絡(luò)的初始預(yù)測映射到HD地圖的分布上,使其更加真實。為了評估HDMap先驗?zāi)K輸出的真實性,我們利用了感知度量LPIPS 數(shù)值越低表示性能越好)進(jìn)行評測。如表IV所示,在 setting 中LPIPS指標(biāo)要比 -only setting 中的提升更大。
可視化: