ICLR'24無圖新思路!LaneSegNet:基于車道分段感知的地圖學習
寫在前面&筆者的個人理解
地圖作為自動駕駛系統(tǒng)下游應用的關鍵信息,通常以車道或中心線表示。然而,現(xiàn)有的地圖學習文獻主要集中在檢測基于幾何的車道或感知中心線的拓撲關系。這兩種方法都忽略了車道線與中心線的內(nèi)在關系,即車道線綁定中心線。雖然在一個模型中簡單地預測兩種類型的車道在學習目標中是互斥的,但本文提出將lane segment作為一種無縫結合幾何和拓撲信息的新表示,因此提出了LaneSegNet。這是第一個生成lane segment以獲得道路結構完整表示的端到端建圖網(wǎng)絡。LaneSegNet有兩個關鍵的修改,一個是車道注意力模塊,用于捕捉長距離特征空間內(nèi)的關鍵區(qū)域細節(jié)。另一個是參考點的相同初始化策略,它增強了車道注意力的位置先驗的學習。在OpenLane-V2數(shù)據(jù)集上,LaneSegNet在三項任務上都比以前的同類產(chǎn)品有顯著的優(yōu)勢,即地圖元素檢測(+4.8 mAP)、車道中心線感知(+6.9 DETl)和新定義的lane segment感知(+5.6 mAP)。此外,它還獲得了14.7FPS的實時推理速度。
開源鏈接:https://github.com/OpenDriveLab/LaneSegNet
總結來說,本文的主要貢獻如下:
- 本文引入了全新的lane segment感知作為一種新的地圖學習公式。它包含了幾何和拓撲要素。我們希望它能給領域帶來新的見解。
- 本文提出了LaneSegNet,這是一種為lane segment感知而提出的端到端網(wǎng)絡。已經(jīng)提出了兩種新的修改,包括具有heads-to-regions機制的車道注意力模塊,用于捕獲長距離注意力,以及用于參考點的相同初始化策略,以增強車道注意力的位置先驗學習。
相關工作回顧
中心線感知:來自車載傳感器數(shù)據(jù)的中心線感知(與本文中的車道圖學習相同)最近引起了極大的關注。STSU提出了一種類似DETR的網(wǎng)絡來檢測中心線,然后是多層感知器(MLP)模塊來確定它們的連接性。在STSU的基礎上,Can等人引入了額外的最小循環(huán)查詢,以確保重疊行的正確順序。CenterLineDet將中心線視為頂點,設計了通過模仿學習訓練的圖更新模型。值得注意的是,特斯拉提出了“車道語言”的概念,將車道圖表示為一個句子。他們基于注意力的模型遞歸地預測車道標記及其連通性。除了這些分段方法外,LaneGAP還引入了一種使用額外轉(zhuǎn)換算法恢復車道圖的路徑方法。TopoNet針對完整多樣的駕駛場景圖,對網(wǎng)絡內(nèi)中心線的連通性進行了顯式建模,并將交通元素納入任務中。在這項工作中,我們采用segment方法來構建車道圖。然而,我們在建模Lane Segment而不是將中心線作為車道圖的頂點方面與以往的方法不同,這允許方便地集成段級幾何和語義信息。
地圖元素檢測:在先前的工作中,人們關注將地圖元素檢測從相機平面提升到3D空間,以克服投影誤差。隨著BEV感知的流行趨勢,最近的工作專注于使用分割和矢量化方法學習高清地圖。地圖分割預測每個純BEV網(wǎng)格的語義,如車道、人行橫道和可駕駛區(qū)域。這些工作主要在透視圖(PV)到BEV轉(zhuǎn)換模塊方面有所區(qū)別。然而,分割的地圖不能提供下游模塊所使用的直接信息。HDMapNet通過對具有復雜后處理的分割地圖進行分組和矢量化來處理該問題。
盡管密集分割提供了像素級的信息,但它仍然無法觸及重疊元素的復雜關系。VectorMapNet提出將每個地圖元素直接表示為點序列,使用粗略的關鍵點來順序解碼車道位置。MapTR探索了一種統(tǒng)一的基于排列的點序列建模方法,以消除建模歧義,提高性能和效率。PivotNet進一步在集合預測框架中使用基于樞軸的表示對地圖元素進行建模,以減少冗余并提高準確性。StreamMapNet利用多點注意力和時間信息來提高遠程地圖元素檢測的穩(wěn)定性。事實上,由于矢量化也豐富了車道的方向信息,因此基于矢量化的方法可以通過交替監(jiān)督來容易地適應中心線感知。在這項工作中,我們?yōu)榈缆飞系乃懈咔宓貓D元素提出了一種統(tǒng)一的、便于學習的表示方式——車道分段。
詳解LaneSegNet
車道分段感知任務描述
Lane Segment的實例包含道路的幾何和語義方面。至于幾何,它可以表示為由矢量化的中心線及其相應的車道邊界組成的線段:。每條線都被定義為3D空間中個點的有序集合。此外,幾何體也可以被描述為定義該車道內(nèi)的可駕駛區(qū)域的閉合多邊形。
在語義方面,它包括Lane Segment類別C(例如,Lane Segment、行人交叉)和左/右車道邊界的線型(例如,不可見、實心、虛線):{}。這些細節(jié)為自動駕駛汽車提供了關于減速要求和變道可行性的重要見解。
此外,拓撲信息在路徑規(guī)劃中起著至關重要的作用。為了表示這一信息,為Lane Segment構建了一個車道圖,表示為G=(V,E)。每個Lane Segment都是該圖中的一個節(jié)點,由集合V表示,而集合E中的邊描述了Lane Segment之間的連通性。我們使用鄰接矩陣來存儲該車道圖,其中只有當?shù)趈個Lane Segment跟隨第i個Lane Segment時,矩陣元素(i,j)才設置為1;否則,它保持為0。
LaneSegNet框架
LaneSegNet的整體框架如圖2所示。LaneSegNet將環(huán)視圖像作為輸入,以感知特定BEV范圍內(nèi)的Lane Segment。在本節(jié)中,我們首先簡要介紹用于生成BEV特征的LaneSeg編碼器。然后,我們介紹了車道分段解碼器和車道注意力。最后,我們提出了車道分段預測器以及訓練損失。
LaneSeg Encoder
編碼器將環(huán)視圖像轉(zhuǎn)換為BEV特征,用于Lane Segment提取。我們利用標準的ResNet-50主干從原始圖像中導出特征圖。隨后使用BEVFormer的PV到BEV編碼器模塊被用于視圖轉(zhuǎn)換。
LaneSeg Decoder
基于Transformer的檢測方法利用解碼器從BEV特征中收集特征,并通過多層更新解碼器查詢。每個解碼器層利用自注意力、交叉注意力機制和前饋網(wǎng)絡來更新查詢。此外,還采用了可學習的位置查詢。更新后的查詢隨后被輸出并被饋送到下一階段。
由于復雜且細長的地圖幾何形狀,收集長距離BEV特征對于在線地圖任務至關重要。先前的工作利用分層(實例點)解碼器查詢和可變形注意力來提取每個點查詢的局部特征。雖然這種方法避免了捕獲長距離信息,但由于查詢數(shù)量的增加,隨之而來的是高昂的計算成本。
Lane Segment作為構建場景圖的車道實例表示,在實例層面上具有優(yōu)越的特性。我們的目標不是使用多點查詢,而是采用單個實例查詢來表示Lane Segment。因此,核心挑戰(zhàn)在于如何使用單個實例查詢來交叉關注全局BEV特性。
Lane Attention:在目標檢測中,可變形注意力利用目標的位置先驗,只關注目標參考點附近的一小部分注意力值作為預濾波器,大大加速了收斂。在層迭代期間,參考點被放置在預測目標的中心,以細化注意力值的采樣位置,注意力值通過可學習的采樣偏移分散在參考點周圍。采樣偏移的有意初始化包含了二維目標之前的幾何體。通過這樣做,多分支機制可以很好地捕捉每個方向的特征,如圖3a所示。
在地圖學習的背景下,李等人使用樸素的可變形注意力來預測中心線。然而如圖3b所示,由于參考點的樸素放置,它可能無法獲得lone range注意力。此外,由于目標的細長形狀和復雜的視覺線索(例如,精確預測實線和虛線之間的斷點),這一過程需要為我們的任務進行額外的自適應設計??紤]到所有這些特征,網(wǎng)絡有必要擁有不僅關注長范圍上下文信息,而且準確提取局部細節(jié)的能力。因此,建議將采樣位置分布在大的區(qū)域中,以有效地感知長距離信息。另一方面,局部細節(jié)應易于區(qū)分,以識別關鍵點。值得注意的是,雖然在單個注意力頭內(nèi)的value特征之間是競爭關系,但不同頭部之間的value特征可以在Attention過程中保留。因此,明確利用這一屬性來促進對特定區(qū)域局部特征的關注是有希望的。
為此,本文提出建立一個heads-to-regions機制。我們首先在Lane Segment區(qū)域內(nèi)均勻分布多個參考點。然后圍繞局部區(qū)域中的每個參考點對采樣位置進行初始化。為了保留復雜的局部細節(jié),我們使用了多分支機制,其中每個頭都關注局部區(qū)域內(nèi)的一組特定采樣位置,如圖3c所示。
現(xiàn)在提供車道注意力模塊的數(shù)學描述。給定BEV特征,第i個Lane Segment查詢特征qi和一組參考點pi作為輸入,車道注意力計算如下:
參考點的相同初始化:參考點的位置是車道注意力模塊功能的決定因素。為了使每個實例查詢的關注區(qū)域與其實際幾何結構和位置對齊,基于前一層的Lane Segment預測來分布每個實例查詢中的參考點p,如圖3c所示。并迭代細化預測。
先前的工作認為,提供給第一層的參考點應該用從位置查詢嵌入推導出的可學習先驗來單獨初始化。然而,由于位置查詢與輸入圖像無關,因此這種初始化方法可能會反過來限制模型記憶幾何先驗和位置先驗的能力,并且錯誤生成的初始化位置也會對訓練構成障礙。
因此,對于Lane Segment解碼器的第一層,我們提出了相同的初始化策略。在第一層中,每個頭部采用由位置查詢生成的相同參考點。與傳統(tǒng)方法中的參考點分布式初始化(即為每個查詢初始化多個參考點)相比,相同的初始化將通過過濾掉復雜幾何形狀的干擾,使位置先驗的學習更加穩(wěn)定。需要注意的是,相同的初始化似乎是反直覺的,但被觀察到是有效的。
LaneSeg Predictor
我們在多個預測分支中使用MLP,從Lane Segment查詢中生成最終預測的Lane Segment,同時考慮幾何、語義和拓撲方面。
對于幾何,我們首先設計了一個中心線回歸分支來回歸中心線在三維坐標中的矢量化點位置。輸出的格式為。由于左右車道邊界的對稱性,我們引入了一個偏移分支來預測偏移,其格式為。因此,可以使用和來計算左右車道邊界坐標。
假設車道分段可以概念化為可駕駛區(qū)域,我們將實例分段分支集成到預測器中。在語義方面,三個分類分支并行預測C的分類得分,和的得分。拓撲分支將更新的查詢特征作為輸入,并使用MLP輸出車道圖G的加權相鄰矩陣。
訓練損失
LaneSegNet采用類似DETR的范式,使用匈牙利算法有效地計算預測和地面實況之間的一對一最優(yōu)分配。然后根據(jù)分配結果計算訓練損失。損失函數(shù)由四個部分組成:幾何損失、分類損失、laneline型分類損失和拓撲損失。
幾何損失監(jiān)督每個預測Lane Segment的幾何結構。根據(jù)二分匹配結果,為每個預測的矢量化Lane Segment分配一個GT Lane Segment。矢量化幾何損失定義為分配的Lane Segment對之間計算的曼哈頓距離。
實驗結果
主要實驗結構
Lane Segment感知:在表1中,我們在新引入的Lane Segment感知基準上,將LaneSegNet與幾種最先進的方法MapTR、MapTRv2和TopoNet進行了比較。用我們的Lane Segment標簽重新訓練他們的模型。LaneSegNet在mAP上的性能優(yōu)于其他方法高達9.6%,平均距離誤差相對降低了12.5%。LaneSegNet-mini也超過了以前的方法,F(xiàn)PS更高,為16.2。
定性結果如圖4所示:
地圖元素檢測:為了與地圖元素檢測方法進行更公平的比較,我們將LaneSegNet的預測Lane Segment分解為成對的車道,然后使用地圖元素檢測指標將其與最先進的方法進行比較。我們將拆下的車道線和人行橫道標簽輸入到幾種最先進的方法中進行再訓練。實驗結果如表2所示,表明LaneSegNet在地圖元素檢測任務方面始終優(yōu)于其他方法。在公平的比較下,LaneSegNet可以在額外的監(jiān)督下更好地恢復道路幾何形狀。這表明Lane Segment學習表示善于捕捉道路幾何信息。
中心線感知:我們還在表3中將LaneSegNet與最先進的中心線感知方法進行了比較。為了保持一致性,還從Lane Segment中提取中心線以進行重新訓練??梢缘贸鼋Y論,LaneSegNet在車道圖感知任務中的性能明顯高于其他方法。通過額外的地理監(jiān)控,LaneSegNet還展示了卓越的拓撲推理能力。證明了推理能力與較強的定位和檢測能力密切相關。
消融實驗
Lane Segment公式:在表4中,我們提供消融來驗證我們提出的Lane Segment學習公式的設計優(yōu)點和訓練效率。與前兩行的單獨訓練模型相比,中心線和地圖元素的聯(lián)合訓練對兩個主要指標帶來了全面的平均1.3的改進,如第4行所示,證明了多任務訓練的可行性。然而,通過添加額外的類別在單個分支中訓練中心線和地圖元素的普通方法會導致明顯的性能下降。與上述樸素單分支方法相比,我們使用Lane Segment標簽訓練的模型獲得了顯著的性能增強(對于第3行和第5行之間的比較,OLS上的+7.2和mAP上的+4.4),這驗證了我們的地圖學習公式中各種道路信息之間的正交互作用。我們的模型甚至超過了多分支方法,特別是在中心線感知方面(OLS為+4.8)。這表明幾何可以在我們的地圖學習公式中指導拓撲推理,其中多分支模型僅略微優(yōu)于僅CL模型(第1行和第4行之間+0.6 OLS)。至于的小幅下降,它來自于我們預測結果的重塑過程,是由線型分類的錯誤引起的,
車道注意力模塊:我們展示的注意力模塊消融如表5所示。為了便于進行公平的比較,我們用替代注意力設計代替了框架中的車道注意力模塊。在我們精心設計的情況下,具有車道注意力的LaneSegNet顯著優(yōu)于這些方法,顯示出顯著的改進(與第1行相比,mAP提高了3.9,TOPll提高了1.2)。此外,與分層查詢設計相比,由于查詢數(shù)量的減少,解碼器延遲可以進一步減少(從23.45ms減少到20.96ms)。
結論
本文提出了Lane Segment感知作為一種新的地圖學習公式,并提出了LaneSegNet,一種專門針對這一問題的端到端網(wǎng)絡。除了網(wǎng)絡之外,還提出了兩個創(chuàng)新的增強功能,包括車道注意力模塊,該模塊采用頭到區(qū)域機制來捕捉長距離注意力,以及參考點的相同初始化策略,以增強車道注意力的位置先驗學習。在OpenLane-V2數(shù)據(jù)集上的實驗結果證明了我們設計的有效性。
限制和未來工作。由于計算限制,我們沒有將所提出的LaneSegNet擴展到更多的額外主干。Lane Segment感知和LaneSegNet的制定可能有利于下游任務,值得未來探索。