DiffMap:首個利用LDM來增強高精地圖構建的網(wǎng)絡
本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
論文標題:
DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model
論文作者:
Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang
01 背景簡介
對自動駕駛車輛來說,高清(HD)地圖能夠幫助其提高對環(huán)境理解(感知)的準確度和導航的精度。然而,人工建圖面臨繁雜和高成本的問題。為此,當前研究將地圖構建集成到BEV(鳥瞰視角)感知任務中,在BEV空間中構建柵格化HD地圖視為一個分割任務,可以理解為獲得BEV特征后增加使用類似于FCN(全卷積網(wǎng)絡)的分割頭。例如,HDMapNet通過LSS(Lift,Splat,Shoot)編碼傳感器特征,然后采用多分支FCN進行語義分割、實例檢測和方向預測來構建地圖。
但目前此類方法(基于像素的分類方法)仍存在固有局限性,包括可能忽略特定類別屬性,這可能導致分隔帶扭曲和中斷、行人橫道模糊以及其他類型的偽影和噪聲,如圖1(a)所示。這些問題不僅影響地圖的結構精度,還可能直接影響自動駕駛系統(tǒng)的下游路徑規(guī)劃模塊。
▲圖1|HDMapNet,DiffMap和GroundTruth效果對比
因此,模型最好能考慮HD地圖的結構先驗信息,如車道線的平行和筆直特性。一些生成模型在捕捉圖像真實性和固有特性具備這樣的能力。例如,LDM(潛在擴散模型)在高保真圖像生成方面展現(xiàn)了巨大潛力,并在與分割增強相關的任務中證明了其有效性。另外,還可以通過引入控制變量,進一步指導圖像的生成以滿足特定的控制要求。因此,將生成模型應用于捕捉地圖結構先驗,有望減少分割偽影并提高地圖構建性能。
在本文中,作者提出DiffMap網(wǎng)絡。該網(wǎng)絡首次通過使用改進的LDM作為增強模塊,對現(xiàn)有的分割模型進行地圖結構化先驗建模并支持即插即用。DiffMap不僅能通過添加和刪除噪聲的過程學習地圖先驗,還可以將BEV特征集成為控制信號,以確保輸出與當前幀觀測相匹配。實驗結果表明,DiffMap能夠有效地生成更加平滑合理的地圖分割結果,同時極大地減少了偽影,提高了整體的地圖構建性能。
02 相關工作
2.1 語義地圖構建
在傳統(tǒng)的高清(HD)地圖構建中,語義地圖通常是基于激光雷達點云手動或半自動標注的。一般基于SLAM的算法來構建全局一致的地圖,并手動為地圖添加語義標注。然而,這種方法費時費力,同時在更新地圖方面也存在極大挑戰(zhàn),從而限制了其可擴展性和實時性能。
HDMapNet提出了一種使用車載傳感器動態(tài)構建局部語義地圖的方法。它將激光雷達點云和全景圖像特征編碼到鳥瞰視圖(BEV)空間,并使用三個不同的頭部進行解碼,最終產生一個矢量化的局部語義地圖。SuperFusion專注于構建遠程高精度語義地圖,利用激光雷達深度信息增強圖像深度估計,并使用圖像特征引導遠程激光雷達特征預測。然后采用類似于HDMapNet的地圖檢測頭獲得語義地圖。MachMap將任務劃分為折線檢測和多邊形實例分割,并使用后處理來細化掩碼以獲得最終結果。后續(xù)的研究聚焦在端到端在線建圖,直接獲得矢量化的高清地圖。無需手動標注的語義地圖動態(tài)構建有效地降低了構建成本。
2.2 擴散模型應用于分割和檢測
去噪擴散概率模型(DDPMs)是基于馬爾可夫鏈的一類生成模型,在圖像生成等領域展現(xiàn)出優(yōu)秀的性能,并逐步擴展到分割和檢測等各種任務。SegDiff將擴散模型應用于圖像分割任務,其中使用的UNet編碼器進一步解耦為三個模塊:E、F和G。模塊G和F分別編碼輸入圖像I和分割圖,然后在E中通過加法合并,以迭代地細化分割圖。DDPMS使用基礎分割模型產生初始預測先驗,并利用擴散模型對先驗進行細化。DiffusionDet將擴散模型擴展到目標檢測框架,將目標檢測建模為從噪聲框到目標框的去噪擴散過程。
擴散模型也應用于自動駕駛領域,如MagicDrive利用幾何約束合成街景,以及Motiondiffuser將擴散模型擴展到多智能體運動預測問題。
2.3 地圖先驗
目前有幾種方法通過利用先驗信息(包括顯式的標準地圖信息和隱式的時間信息)來增強模型魯棒性,減少車載傳感器的不確定性。MapLite2.0以標準定義(SD)先驗地圖為起點,并結合車載傳感器實時推斷局部高清地圖。MapEx和SMERF利用標準地圖數(shù)據(jù)改善車道感知和拓撲理解。SMERF采用基于Transformer的標準地圖編碼器編碼車道線和車道類型,然后計算標準地圖信息與基于傳感器的鳥瞰視圖(BEV)特征之間的交叉注意力,以集成標準地圖信息。NMP通過將過去的地圖先驗數(shù)據(jù)與當前感知數(shù)據(jù)相結合,為自動駕駛汽車提供長期記憶能力。MapPrior結合判別式和生成式模型,在預測階段將基于現(xiàn)有模型生成的初步預測編碼為先驗,注入生成模型的離散潛在空間,然后使用生成模型進行細化預測。PreSight利用先 前行程的數(shù)據(jù)優(yōu)化城市尺度的神經輻射場,生成神經先驗,增強后續(xù)導航中的在線感知。
03 方法精析
3.1 準備工作
3.2 整體架構
如圖2所示。DiffMap作為解碼器,將擴散模型納入語義地圖分割模型,該模型以周圍多視角圖像和LiDAR點云作為輸入,將其編碼為BEV空間并獲得融合的BEV特征。然后采用DiffMap作為解碼器生成分割圖。在DiffMap模塊中,將BEV特征作為條件來引導去噪過程。
▲圖2|DiffMap架構??【深藍AI】編譯
◆語義地圖構建的基線:基線主要遵循BEV編碼器-解碼器范式。編碼器部分負責從輸入數(shù)據(jù)(LiDAR和/或相機數(shù)據(jù))中提取特征,將其轉換為高維表示。同時,解碼器通常作為分割頭,將高維特征表示映射到相應的分割圖?;€在整個框架中起兩個主要作用:監(jiān)督者和控制器。作為監(jiān)督者,基線生成分割結果作為輔助監(jiān)督。同時,作為控制器,它提供中間BEV特征作為條件控制變量,以引導擴散模型的生成過程。
◆DiffMap模塊:沿襲LDM,作者在基線框架中引入DiffMap模塊作為解碼器。LDM主要由兩部分組成:一個圖像感知壓縮模塊(如VQVAE)和一個使用UNet構建的擴散模型。首先,編碼器將地圖分割ground truth 編碼為潛在空間中的,其中表示潛在空間的低維度。隨后,在低維潛在變量空間中執(zhí)行擴散和去噪,然后使用解碼器將潛在空間恢復到原始像素空間。
首先通過擴散過程添加噪聲,在每個時間步獲得噪聲潛在圖,其中。然后在去噪過程中,UNet作為噪聲預測的主干網(wǎng)絡。為了增強分割結果的監(jiān)督部分,并希望DiffMap模型在訓練期間直接為實例相關預測提供語義特征。因此,作者將UNet網(wǎng)絡結構分為兩個分支,一個分支用于預測噪聲,如傳統(tǒng)擴散模型,另一個分支用于預測潛在空間中的。
如圖3所示。獲得潛在圖預測后,將其解碼到原始像素空間,作為語義特征圖。然后就可以按照HDMapNet提出的方法從中獲得實例預測,輸出三種不同頭的預測:語義分割、實例嵌入和車道方向。這些預測隨后用于后處理步驟以矢量化地圖。
▲圖3|去噪模塊
整個過程是一個有條件的生成過程,根據(jù)當前傳感器輸入下獲得地圖分割結果。其結果的概率分布可以建模為,其中表示地圖分割結果,表示條件控制變量,即BEV特征。作者這里用了兩種方式融合控制變量。首先,由于和BEV特征在空間域上具有相同的類別和尺度,將調整為潛在空間大小,然后將它們串聯(lián)作為去噪過程的輸入,如公式5所示。
其次,將交叉注意力機制融入到UNet網(wǎng)絡的每一層,其中作為key/value,作為query。交叉注意力模塊的公式如下:
3.3 具體實現(xiàn)
◆訓練:
◆推理:
04 實驗
4.1 實驗細節(jié)
◆數(shù)據(jù)集:在nuScenes數(shù)據(jù)集上驗證DiffMap。nuScenes數(shù)據(jù)集包含1000個場景的多視角圖像和點云,其中700個場景用于訓練,150個用于驗證,150個用于測試。nuScenes數(shù)據(jù)集還包含注釋的高清地圖語義標簽。
◆架構:使用ResNet-101作為相機分支的主干網(wǎng)絡,使用PointPillars作為模型的LiDAR分支主干網(wǎng)絡?;€模型中的分割頭是基于ResNet-18的FCN網(wǎng)絡。對于自編碼器,采用VQVAE,該模型在nuScenes分割地圖數(shù)據(jù)集上進行了預訓練,以提取地圖特征并將地圖壓縮為基本潛在空間。最后使用UNet來構建擴散網(wǎng)絡。
◆訓練細節(jié):使用AdamW優(yōu)化器訓練VQVAE模型30個epoch。使用的學習率調度器是LambdaLR,它以指數(shù)衰減模式逐漸降低學習率,衰減因子為0.95。初始學習率設置為,批量大小為8。然后,使用AdamW優(yōu)化器從頭開始訓練擴散模型30個epoch,初始學習率為2e-4。采用MultiStepLR調度器,該調度器根據(jù)指定的里程碑時間點(0.7、0.9、1.0)和在不同訓練階段的縮放因子1/3來調整學習率。最后將BEV分割結果設置為0.15m的分辨率,并將LiDAR點云體素化。HDMapNet的檢測范圍為[-30m,30m]×[-15m,15m]m,因此相應的BEV地圖大小為400×200,而Superfusion使用[0m,90m]×[-15m,15m]并得到600×200的結果。由于LDM的維度約束(在VAE和UNet中下采樣8倍),需要將語義地面實況地圖的大小填充到64的倍數(shù)。
◆推理細節(jié):通過在當前BEV特征條件下對噪聲地圖執(zhí)行去噪過程20次來獲得預測結果。使用3次采樣的平均值作為最終的預測結果。
4.2 評估指標
主要針對地圖語義分割和實例檢測任務進行平評估。且主要集中在三個靜態(tài)地圖元素上:車道邊界、車道分隔線和行人橫道。
4.3 評估結果
表1顯示了語義地圖分割的 IoU 得分比較。DiffMap 在所有區(qū)間都顯示出顯著的改善,尤其在車道分隔線和行人橫道上取得了最佳結果。
▲表1|IoU得分比較
如表2所示,DiffMap方法在平均精度(AP)方面也有顯著提升,驗證了 DiffMap 的有效性。
▲表2|MAP得分比較
如表3所示,將DiffMap范式集成到HDMapNet中時,可以觀察到,無論是僅使用攝像頭還是攝像頭-激光雷達融合方法,DiffMap都能提高HDMapNet的性能。這說明DiffMap方法在各類分割任務上都很有效,包括遠距離和近距離檢測。然而對于邊界,DiffMap的表現(xiàn)并不出色,這是因為邊界的形狀結構不固定,存在許多難以預測的扭曲,從而使捕捉先驗結構特征變得困難。
▲表3|定量分析結果
4.4 消融實驗
表4顯示了VQVAE中不同下采樣因子對檢測結果的影響。通過分析DiffMap在下采樣因子為4、8、16時的行為可以看到,當下采樣因子設置為8x時,結果最佳。
▲表4|消融實驗結果
此外,作者還測量了刪除與實例相關的預測模塊對模型的影響,如表5所示。實驗表明,添加此預測進一步提高了IOU。
▲表5|消融實驗結果(是否包含預測模塊)
4.5 可視化
圖4展示了DiffMap和基線(HDMapNet-fusion)在復雜場景中的比較。很明顯,基線的分割結果忽略了元素內部的形狀屬性和一致性。相比之下,DiffMap展示了能夠糾正這些問題的能力,產生與地圖規(guī)范很好對齊的分割輸出。具體而言,在案例(a)、(b)、(d)、(e)、(h)和(l)中,DiffMap有效地糾正了不準確預測的人行橫道。在案例(c)、(d)、(h)、(i)、(j)和(l)中,DiffMap完成或刪除了不準確的邊界,使結果更接近于現(xiàn)實的邊界幾何。此外,在案例(b)、(f)、(g)、(h)、(k)和(l)中,DiffMap解決了分隔線斷裂的問題,確保了相鄰元素的平行性。
▲圖4|定性分析結果
05 總結與未來展望
在本文中,作者設計的DiffMap網(wǎng)絡是一種利用潛在擴散模型學習地圖結構先驗的新方法,從而增強了傳統(tǒng)的地圖分割模型。該方法可以作為任何地圖分割模型的輔助工具,其預測結果在遠近距離檢測場景中都有顯著改善。由于該方法具有很強的擴展性,適合研究其他類型的先驗信息,例如可以將SD地圖先驗集成到DiffMap的第二模塊中,從增強其性能表現(xiàn)。將來有望在矢量化地圖構建中繼續(xù)有所進步。