車道線還有的卷?HeightLane:超越BEV-LaneDet等一眾SOTA!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面 & 筆者的個(gè)人理解
單目圖像的準(zhǔn)確3D車道線檢測面臨重大挑戰(zhàn),主要由于深度信息的歧義性和地面建模的不完善。以往的研究通常采用具有有限自由度的平面地面假設(shè)進(jìn)行地面建模,這在復(fù)雜道路環(huán)境中,尤其是存在不同坡度的情況下,顯得力不從心。本研究提出了一種名為HeightLane的創(chuàng)新方法,它基于多斜率假設(shè)創(chuàng)建錨點(diǎn),從單目圖像中預(yù)測出高度圖,從而提供對地面的詳細(xì)和精確表示。HeightLane結(jié)合了預(yù)測出的高度圖和基于可變形注意力機(jī)制的空間特征轉(zhuǎn)換框架,高效地將2D圖像特征轉(zhuǎn)換為3D鳥瞰視圖(BEV)特征,增強(qiáng)了空間理解力和車道結(jié)構(gòu)識(shí)別能力。此外,高度圖還被用于BEV特征的位置編碼,進(jìn)一步提升了空間精度。這種顯式視圖轉(zhuǎn)換方法有效地彌合了前視感知與空間精確的BEV表示之間的差異,顯著提高了檢測性能。為了解決原始OpenLane數(shù)據(jù)集中缺少必要的地面真實(shí)高度圖的問題,作者利用Waymo數(shù)據(jù)集的LiDAR數(shù)據(jù),為每個(gè)場景的可行駛區(qū)域生成了高度圖。使用這些真實(shí)高度圖訓(xùn)練了從單目圖像中提取高度圖的模塊。在OpenLane驗(yàn)證集上的廣泛實(shí)驗(yàn)表明,HeightLane在F-score等指標(biāo)上達(dá)到了最先進(jìn)的性能,展示了其在現(xiàn)實(shí)世界應(yīng)用中的潛力。
相關(guān)工作總結(jié)
3D車道檢測
3D車道檢測對于現(xiàn)實(shí)駕駛場景中的準(zhǔn)確定位至關(guān)重要。雖然2D車道檢測已經(jīng)得到了廣泛的研究,但關(guān)于3D車道建模的卻相對較少。傳統(tǒng)的方法通常使用逆透視變換(IPM)將2D特征轉(zhuǎn)換到3D空間,基于道路平坦的假設(shè)。然而,這種假設(shè)在遇到斜坡或下坡等不平坦地形時(shí)會(huì)失效,導(dǎo)致特征表示扭曲和可靠性降低。
SALAD通過結(jié)合前視圖圖像分割與深度估計(jì)來解決3D車道檢測問題,但它依賴于密集的深度注釋和精確的深度預(yù)測。此外,遠(yuǎn)處車道因顯得較小,每個(gè)像素覆蓋的深度范圍更廣。M2-3DLaneNet通過融合LiDAR數(shù)據(jù)增強(qiáng)單目3D檢測,將圖像特征提升至3D空間,并在鳥瞰視圖(BEV)空間中融合多模態(tài)數(shù)據(jù),但這增加了數(shù)據(jù)收集的復(fù)雜性和成本。DV-3DLane同樣使用LiDAR和相機(jī)輸入進(jìn)行3D車道檢測,但它從兩種來源生成車道查詢,而非提升圖像特征。
與此同時(shí),BEVLaneDet采用視圖關(guān)系模塊學(xué)習(xí)圖像特征與BEV特征之間的映射,要求兩者之間的關(guān)系固定。該論文引入了一種虛擬坐標(biāo),始終使用特定的外參矩陣和內(nèi)參矩陣來調(diào)整圖像。此外,它不是使用BEV特征的錨點(diǎn),而是提出一種在BEV上直接預(yù)測車道的關(guān)鍵點(diǎn)表示法。LATR和Anchor3DLane通過將地面假設(shè)為具有2個(gè)自由度(2-DoF)的平面,在3D車道檢測方面取得了最新進(jìn)展。
LATR使用地面建模作為變換器中的位置編碼,預(yù)測地面的俯仰角和高度;而Anchor3DLane則利用俯仰角和偏航角進(jìn)行2D特征提取。與此不同,作者的方法HeightLane在BEV空間中僅使用LiDAR創(chuàng)建地面真實(shí)高度圖。與M23DlaneNet不同,后者在推理過程中需要同時(shí)使用LiDAR和相機(jī)數(shù)據(jù),而HeightLane僅依賴相機(jī)數(shù)據(jù)簡化了推理過程。作者的方法不是用2-DoF對地面進(jìn)行建模,而是預(yù)測預(yù)定義BEV網(wǎng)格中每個(gè)點(diǎn)的高度,創(chuàng)建了一個(gè)密集的高度圖。通過采樣專注于地面的空間特征,作者生成了BEV特征,允許使用關(guān)鍵點(diǎn)表示法進(jìn)行準(zhǔn)確的3D車道預(yù)測,有效地橋接了2D圖像數(shù)據(jù)和3D車道幾何學(xué)。這種方法優(yōu)化了空間特征的處理,在保持高精度的同時(shí)提高了效率。
鳥瞰視圖高度建模
BEVHeight引入了一種新穎的方法,將深度估計(jì)中使用的深度分箱技術(shù)應(yīng)用到高度概念上。這種方法通過對圖像中的物體高度箱進(jìn)行分類,首次提出了一種回歸方法,用于確定3D目標(biāo)檢測中物體與地面之間的高度。然而,該方法的實(shí)驗(yàn)僅限于路邊相機(jī)數(shù)據(jù)集,限制了研究的應(yīng)用范圍。BEVHeight旨在通過利用物體的高度信息,提供更精確的3D位置信息。
另一方面,HeightFormer利用Nuscenes自動(dòng)駕駛數(shù)據(jù)集,嘗試回歸物體與地面之間的高度。HeightFormer將預(yù)測的高度信息整合到變換器的解碼器中,與基于深度的方法相比,實(shí)現(xiàn)了性能的提升。這一改進(jìn)展示了利用高度信息進(jìn)行更準(zhǔn)確3D目標(biāo)檢測的潛力。
作者提出的方法HeightLane,利用了車道始終附著在地面上的特性。通過僅預(yù)測相對于地面的高度,HeightLane顯式地將圖像特征轉(zhuǎn)換到對應(yīng)于地面的預(yù)定義BEV網(wǎng)格中。這種方法簡化了任務(wù),旨在提高3D目標(biāo)檢測中空間轉(zhuǎn)換的準(zhǔn)確性。
HeightLane方法詳解
圖 2. HeightLane方法的總體架構(gòu)圖。HeightLane接收一個(gè)2D圖像作為輸入,并通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)主干提取多尺度的前視圖特征。利用預(yù)定義的多斜率高度圖錨點(diǎn)、車輛坐標(biāo)到相機(jī)坐標(biāo)的外參矩陣T以及相機(jī)的內(nèi)參矩陣K,將2D前視圖特征采樣到鳥瞰視圖(BEV)網(wǎng)格上,以形成BEV高度特征。隨后,該BEV高度特征通過一個(gè)CNN層進(jìn)一步處理,以預(yù)測高度圖。預(yù)測出的高度圖用于空間特征的轉(zhuǎn)換,其中初始的BEV特征查詢和高度圖共同確定了查詢在前視圖特征中應(yīng)參考的像素點(diǎn)。在這個(gè)過程中,前視圖特征充當(dāng)鍵和值,而BEV特征則作為查詢。通過可變形注意力機(jī)制,這一流程最終生成了增強(qiáng)的BEV特征查詢。
高度提取模塊
高度預(yù)測
高度監(jiān)督
圖 3. 在OpenLane驗(yàn)證集中展示的“上坡和下坡”場景下,LiDAR數(shù)據(jù)累積的結(jié)果。左側(cè)的顏色條表示與道路高度相對應(yīng)的顏色值。
高度引導(dǎo)的空間變換框架
作者提出的空間變換框架利用第3.1節(jié)預(yù)測的高度圖,如圖4所示。BEV初始查詢經(jīng)過自注意力模塊處理,在自注意力過程中,BEV查詢之間進(jìn)行交互,并為每個(gè)BEV查詢添加位置編碼以提供位置信息。位置編碼是可學(xué)習(xí)的參數(shù)。與在2D FV特征上執(zhí)行注意力的研究不同,作者的方法使用BEV網(wǎng)格坐標(biāo)和每個(gè)BEV查詢的高度嵌入進(jìn)行位置編碼。
圖 4. 使用可變形注意力的高度引導(dǎo)空間變換框架結(jié)構(gòu)圖。該框架展示了BEV查詢?nèi)绾卧谧宰⒁饬﹄A段接收高度位置編碼,并在交叉注意力階段通過高度圖映射到圖像像素??勺冃巫⒁饬W(xué)習(xí)了從參考點(diǎn)到周圍區(qū)域的偏移,以生成多個(gè)參考點(diǎn)。
訓(xùn)練
實(shí)驗(yàn)結(jié)果和分析
數(shù)據(jù)集
作者的方法在OpenLane數(shù)據(jù)集上進(jìn)行了評估,該數(shù)據(jù)集覆蓋了多樣的道路條件、天氣狀況和照明環(huán)境。OpenLane建立在Waymo數(shù)據(jù)集基礎(chǔ)之上,使用了150,000張圖像用于訓(xùn)練,40,000張圖像用于測試。該數(shù)據(jù)集包含798個(gè)訓(xùn)練場景和202個(gè)驗(yàn)證場景,每個(gè)場景大約包含200張圖像。盡管OpenLane數(shù)據(jù)集本身不包含生成高度圖所需的信息,但由于其基于Waymo數(shù)據(jù)集構(gòu)建,作者能夠從中提取每個(gè)OpenLane場景所需的LiDAR數(shù)據(jù)。在提取LiDAR數(shù)據(jù)的過程中,作者注意到數(shù)據(jù)在每個(gè)場景的中部密集,而在末端幀則變得稀疏。例如,圖3展示了一個(gè)場景,其中車輛啟動(dòng)、上坡、右轉(zhuǎn),并繼續(xù)行駛在另一段坡道上。在起始點(diǎn)(綠色區(qū)域),LiDAR數(shù)據(jù)較為稀疏,因此作者采用了雙線性插值來填補(bǔ)高度圖中的空隙,以確保高度圖的一致性。作者的評估包括了多種場景,如上坡/下坡、曲線、極端天氣、夜間、交叉口以及合并/分流等條件。評估指標(biāo)包括F分?jǐn)?shù)、近端和遠(yuǎn)端的X誤差以及Z誤差。
實(shí)現(xiàn)細(xì)節(jié)
作者采用了ResNet-50作為2D特征提取的骨干網(wǎng)絡(luò),并將圖像尺寸設(shè)定為576×1024像素。為了獲得多尺度的圖像特征,作者增加了額外的CNN層,以產(chǎn)生尺寸為輸入圖像1/16和1/32的特征圖,每個(gè)特征圖具有1024個(gè)通道。高度圖和BEV特征的BEV網(wǎng)格尺寸被設(shè)置為200×48像素,分辨率為每像素0.5米。在高度提取模塊中,作者為多斜率高度圖錨點(diǎn)設(shè)置了-5°、0°和5°的斜率Θ。在5°的斜率下,高度圖能夠表示高達(dá)約8.75米的高度。在高度引導(dǎo)的空間特征轉(zhuǎn)換中,作者使用了具有2個(gè)注意力頭和4個(gè)采樣點(diǎn)的可變形注意力機(jī)制。位置編碼是通過嵌入BEV網(wǎng)格的X和Y位置以及相應(yīng)的預(yù)測高度來生成的。
在OpenLane上的評估
定性結(jié)果
圖5展示了OpenLane驗(yàn)證集上的定性評估結(jié)果。作者的方法HeightLane、現(xiàn)有的最佳性能模型LATR以及地面真實(shí)值的預(yù)測結(jié)果被可視化展示。其中,地面真實(shí)值用紅色表示,HeightLane用綠色表示,LATR用藍(lán)色表示。圖5的第一行展示了輸入圖像,第二行展示了在3D空間中HeightLane、LATR和地面真實(shí)值的可視化對比。第三和第四行分別從Y-Z平面視角展示了HeightLane與地面真實(shí)值、LATR與地面真實(shí)值的3D車道對比。
圖 5. 在OpenLane驗(yàn)證集上,與現(xiàn)有最佳性能模型LATR相比,作者的方法HeightLane的定性評估結(jié)果。第一行:輸入圖像。第二行:3D車道檢測結(jié)果 - 真實(shí)值(紅色)、HeightLane(綠色)、LATR(藍(lán)色)。第三行和第四行:從Y-Z平面視角展示的真實(shí)值與HeightLane、LATR的對比。放大可查看更多細(xì)節(jié)。
特別是,HeightLane即使在車道中斷后再次出現(xiàn)的場景中,如交叉口或減速帶上方,也能準(zhǔn)確檢測到車道。這一點(diǎn)在圖5的第1、2、4、5和6列中尤為明顯。例如,在第1列中,盡管存在車輛遮擋和部分車道標(biāo)記不完整,HeightLane仍然能夠提供精確的車道預(yù)測,證明了其在處理具有遮擋和信息不完整的復(fù)雜場景中的魯棒性。此外,借助高度圖的使用,HeightLane有效地模擬了道路坡度的變化,如圖3所示,道路從平坦過渡到有坡度的情況。在展示曲線道路和部分可見車道的第2和5列中,HeightLane展示了其在曲線上維持連續(xù)車道檢測的優(yōu)越預(yù)測精度和性能。
圖6可視化了高度提取模塊預(yù)測的高度圖,從左到右依次為輸入圖像、預(yù)測高度圖和地面真實(shí)值高度圖。場景從上到下依次為上坡、平地和下坡路段,更多可視化結(jié)果可在補(bǔ)充材料中找到。
圖 6. 高度提取模塊的可視化結(jié)果。從左至右依次為:輸入圖像、預(yù)測的高度圖和真實(shí)值高度圖。圖像展示了上坡、平地和下坡的場景。
定量結(jié)果
表1展示了HeightLane在OpenLane驗(yàn)證集上的定量評估結(jié)果。作者的模型在總體F分?jǐn)?shù)上達(dá)到了62.5%,超越了所有現(xiàn)有的最先進(jìn)模型。特別是在極端天氣、夜間和交叉口等具有挑戰(zhàn)性的場景中,HeightLane實(shí)現(xiàn)了顯著的性能提升,并在這些條件下取得了最佳成績。此外,HeightLane在曲線和合并/分流場景中也展現(xiàn)了強(qiáng)勁的性能,獲得了這些類別中的第二佳表現(xiàn)。盡管在持續(xù)上坡或下坡的場景中,HeightLane的表現(xiàn)不是最佳,因?yàn)樵谶@些情況下,2-DoF平面假設(shè)已經(jīng)足夠。然而,HeightLane在斜率變化的場景中表現(xiàn)出色,如圖5第3列所示,證明了其在處理變化坡度條件下的適應(yīng)性和預(yù)測能力。
表 1. 在OpenLane驗(yàn)證集的不同場景下,使用F分?jǐn)?shù)對不同方法進(jìn)行的定量結(jié)果比較。每個(gè)場景中最佳和次佳結(jié)果分別用粗體和下劃線標(biāo)出。
表2展示了Openlane驗(yàn)證集上的F分?jǐn)?shù)、X誤差和Z誤差的定量比較結(jié)果。HeightLane在F分?jǐn)?shù)方面取得了最佳成績,超越了其他所有模型,達(dá)到了62.5%。雖然在Z誤差方面并未達(dá)到最佳或第二佳的表現(xiàn),但仍然展示了具有競爭力的結(jié)果。在X誤差方面,HeightLane實(shí)現(xiàn)了第二佳的性能,證明了其在橫向方向上準(zhǔn)確估計(jì)車道位置的能力。
表 2. 在OpenLane驗(yàn)證集上,與其他模型的定量結(jié)果比較。評估指標(biāo)包括F分?jǐn)?shù)(越高越好)、近端和遠(yuǎn)端的X誤差與Z誤差(越低越好)。最佳和次佳結(jié)果分別用粗體和下劃線標(biāo)出。
消融實(shí)驗(yàn)
表3展示了不同高度提取方法對應(yīng)的F分?jǐn)?shù)。視圖關(guān)系模塊,最初在[18]中提出,并在[22]中作為一個(gè)MLP模塊用于轉(zhuǎn)換BEV特征。單斜率高度圖錨點(diǎn)方法將零高度平面投影到圖像上,并使用從該平面采樣的圖像特征作為BEV特征。然而,這種方法假設(shè)地面是平坦的,并且僅在該高度處采樣2D圖像特征,導(dǎo)致特征表示不完整。相比之下,作者提出的多斜率高度圖錨點(diǎn)方法在圖像上投影了具有不同斜率的多個(gè)平面,從每個(gè)平面采樣圖像特征,并將它們?nèi)诤弦孕纬葿EV特征。這種多錨點(diǎn)方法實(shí)現(xiàn)了最高的F分?jǐn)?shù)。
表 3. 根據(jù)不同的高度提取方法得到的F分?jǐn)?shù)比較。表格中標(biāo)粗的配置表示作者最終采用的方案。
表4展示了不同高度圖錨點(diǎn)設(shè)計(jì)對應(yīng)的F分?jǐn)?shù)。第一行對應(yīng)于表3中的單斜率高度圖錨點(diǎn)。當(dāng)使用0°加上±3°時(shí),性能比僅使用0°提高了4.5%。同樣,使用0°加上±5°時(shí),性能提升了6.3%。盡管0°、±3°和±5°的配置實(shí)現(xiàn)了最佳性能,但與僅使用0°和±5°相比,性能提升的邊際效應(yīng)較小。然而,增加高度圖錨點(diǎn)的數(shù)量會(huì)增加最終BEV高度特征中的通道數(shù),從而增加計(jì)算成本。為了在性能和計(jì)算效率之間取得平衡,作者最終選擇了0°和±5°高度圖錨點(diǎn)的配置作為論文中的最終方法。
表 4. 根據(jù)不同高度圖錨點(diǎn)設(shè)計(jì)得到的F分?jǐn)?shù)比較。表格中標(biāo)粗的配置表示作者最終采用的方案。
表5將作者的方法與各種多模態(tài)3D車道檢測器進(jìn)行了比較。其中,Ours (GT)表示在推理步驟中使用真實(shí)高度圖代替高度提取模塊獲得的結(jié)果。這種替代旨在觀察在假設(shè)高度提取模塊預(yù)測的高度圖非常準(zhǔn)確的情況下,空間特征變換框架的性能。通過使用從LiDAR數(shù)據(jù)獲得的真實(shí)高度圖,作者可以與使用LiDAR輸入的檢測器進(jìn)行公平的比較。結(jié)果表明,當(dāng)高度圖預(yù)測準(zhǔn)確時(shí),作者的HeightLane方法能夠?qū)崿F(xiàn)與使用LiDAR和相機(jī)輸入的模型相當(dāng)或甚至更好的性能。這證明了作者方法的潛力,能夠有效地利用精確的高度信息,突出了作者在2D圖像數(shù)據(jù)和3D車道幾何轉(zhuǎn)換中的魯棒性和能力。
表 5. 與多模態(tài)模型在OpenLane驗(yàn)證集上的比較結(jié)果。“Ours (GT)”表示在推理階段使用真實(shí)高度圖代替預(yù)測的高度圖。其中,M代表僅使用相機(jī)數(shù)據(jù),ML代表同時(shí)使用相機(jī)和LiDAR數(shù)據(jù)。
結(jié)論
作者的研究工作通過提出一種創(chuàng)新的高度圖方法,成功克服了單目圖像中3D車道檢測面臨的主要挑戰(zhàn),包括深度信息的不確定性和地面建模的不完善性。作者的主要貢獻(xiàn)包括:
- 定義了一個(gè)用于直接從圖像中預(yù)測高度信息的鳥瞰視圖(BEV)網(wǎng)格和多斜率高度錨點(diǎn)。
- 提出了一個(gè)由高度圖引導(dǎo)的空間特征轉(zhuǎn)換框架。
- 在OpenLane數(shù)據(jù)集的復(fù)雜場景中,實(shí)證展示了作者的HeightLane模型的卓越性能。
本研究所提出的方法通過高度圖增強(qiáng)了對空間結(jié)構(gòu)的理解和車道的識(shí)別能力,顯著提升了自動(dòng)駕駛車輛系統(tǒng)的技術(shù)水平。通過精確的3D變換,這些技術(shù)進(jìn)步為自動(dòng)駕駛領(lǐng)域的發(fā)展提供了強(qiáng)有力的支持。作者通過廣泛的實(shí)驗(yàn)驗(yàn)證了模型的有效性,這標(biāo)志著在將3D車道檢測技術(shù)應(yīng)用于現(xiàn)實(shí)世界場景方面邁出了重要的一步。