最新綜述!萬字長文徹底搞懂單目3D車道線檢測
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
3D車道檢測在自動駕駛中起著至關(guān)重要的作用,通過從三維空間中提取道路的結(jié)構(gòu)和交通信息,協(xié)助自動駕駛汽車進(jìn)行合理、安全和舒適的路徑規(guī)劃和運(yùn)動控制??紤]到傳感器成本和視覺數(shù)據(jù)在顏色信息方面的優(yōu)勢,在實(shí)際應(yīng)用中,基于單目視覺的3D車道檢測是自動駕駛領(lǐng)域的重要研究方向之一,引起了工業(yè)界和學(xué)術(shù)界越來越多的關(guān)注。不幸的是,最近在視覺感知方面的進(jìn)展似乎不足以開發(fā)出完全可靠的3D車道檢測算法,這也妨礙了基于視覺傳感器的完全自動駕駛汽車的發(fā)展,即實(shí)現(xiàn)L5級自動駕駛,像人類控制的汽車一樣駕駛。
這是這篇綜述論文得出的結(jié)論之一:在使用視覺傳感器的自動駕駛汽車的3D車道檢測算法中仍有很大的改進(jìn)空間,仍然需要顯著的改進(jìn)。在此基礎(chǔ)上,本綜述定義、分析和審查了3D車道檢測研究領(lǐng)域的當(dāng)前成就,目前絕大部分進(jìn)展都嚴(yán)重依賴于計(jì)算復(fù)雜的深度學(xué)習(xí)模型。此外,本綜述涵蓋了3D車道檢測流程,調(diào)查了最先進(jìn)算法的性能,分析了前沿建模選擇的時(shí)間復(fù)雜度,并突出了當(dāng)前研究工作的主要成就和局限性。該調(diào)查還包括了可用的3D車道檢測數(shù)據(jù)集的全面討論以及研究人員面臨但尚未解決的挑戰(zhàn)。最后,概述了未來的研究方向,并歡迎研究人員和從業(yè)者進(jìn)入這個(gè)激動人心的領(lǐng)域。
在人工智能的推動下,自動駕駛技術(shù)近年來取得了快速發(fā)展,逐漸重塑了人類交通運(yùn)輸?shù)姆妒?。配備了一系列傳感器,自動駕駛車輛模仿人類的視覺和聽覺等感知能力,以感知周圍環(huán)境并解釋交通場景以確保安全導(dǎo)航。其中關(guān)鍵的傳感器包括激光雷達(dá)、高分辨率相機(jī)、毫米波雷達(dá)和超聲波雷達(dá),它們促進(jìn)了特征提取和目標(biāo)分類,并結(jié)合高精度地圖制圖來識別障礙物和車輛交通景觀。視覺傳感器是自動駕駛車輛中最廣泛使用的,它們作為環(huán)境感知的主要手段,包括車道檢測、交通信號燈分析、路標(biāo)檢測和識別、車輛跟蹤、行人檢測和短期交通預(yù)測。在自動駕駛中處理和理解視覺場景,包括交通信號燈的分析、交通標(biāo)志的識別、車道檢測以及附近行人和車輛的檢測,為轉(zhuǎn)向、超車、變道或剎車等操作提供更穩(wěn)健和更安全的指令。傳感器數(shù)據(jù)和環(huán)境理解的整合無縫地過渡到自動駕駛中的場景理解領(lǐng)域,這對于推進(jìn)車輛自主性和確保道路安全至關(guān)重要。
場景理解代表了自動駕駛領(lǐng)域中最具挑戰(zhàn)性的方面之一。缺乏全面的場景理解能力,使得自動駕駛車輛在交通車道中安全導(dǎo)航就像對于人類來說眼睛被蒙住的情況下行走一樣艱難。車道檢測尤其在場景理解的領(lǐng)域中是一個(gè)至關(guān)重要且具有挑戰(zhàn)性的任務(wù)。車道是道路上最常見的交通要素,是分割道路以確保車輛安全高效通過的關(guān)鍵標(biāo)志。自動識別道路標(biāo)線的車道檢測技術(shù)是不可或缺的;缺乏此功能的自動駕駛車輛可能導(dǎo)致交通擁堵甚至嚴(yán)重碰撞,從而危及乘客安全。因此,車道檢測在自動駕駛生態(tài)系統(tǒng)中起著至關(guān)重要的作用。與典型的物體不同,車道標(biāo)線僅占道路場景的一小部分,并且分布廣泛,這使得它們在檢測方面具有獨(dú)特的挑戰(zhàn)性。此任務(wù)由于多種車道標(biāo)線、光照不足、障礙物以及來自相似紋理的干擾而變得更加復(fù)雜,這些在許多駕駛場景中都很常見,因此加劇了車道檢測所固有的挑戰(zhàn)。
基于單目視覺的車道檢測方法主要可以分為傳統(tǒng)手動特征方法和基于深度學(xué)習(xí)的方法。早期的努力主要集中在提取低級手動特征,如邊緣和顏色信息。然而,這些方法通常涉及復(fù)雜的特征提取和后處理設(shè)計(jì),并且在動態(tài)變化的場景中表現(xiàn)出有限的魯棒性?;谑謩犹卣魈崛〉膫鹘y(tǒng)車道檢測算法首先通過識別車道線的顏色、紋理、邊緣、方向和形狀等特征,構(gòu)建近似直線或高階曲線的檢測模型。然而,由于缺乏明顯特征并且對動態(tài)環(huán)境的適應(yīng)性差,基于手動特征的傳統(tǒng)方法通常不夠可靠且計(jì)算開銷較大。
隨著深度學(xué)習(xí)的迅速發(fā)展,在計(jì)算機(jī)視覺領(lǐng)域的圖像分類、目標(biāo)檢測和語義分割方面取得了重大進(jìn)展,為車道檢測的研究帶來了創(chuàng)新的視角。深度學(xué)習(xí)中根植于深度學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)(DNNs)在從圖像數(shù)據(jù)中提取特征方面具有深刻的能力,其中卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是應(yīng)用最廣泛的。CNNs代表了DNNs的一種特殊類別,其特點(diǎn)是多個(gè)卷積層和基礎(chǔ)層,使其特別適用于處理結(jié)構(gòu)化數(shù)據(jù),如視覺圖像,并為各種后續(xù)任務(wù)提供高效的特征提取。在車道檢測的上下文中,這意味著利用深度CNNs實(shí)時(shí)提取高級特征,然后由模型處理以準(zhǔn)確確定車道線的位置。
背景和相關(guān)工作
由于深度學(xué)習(xí)技術(shù)的進(jìn)步,研究人員開發(fā)了許多策略,大大簡化、加快和增強(qiáng)了車道檢測的任務(wù)。與此同時(shí),隨著深度學(xué)習(xí)的普及和新概念的不斷涌現(xiàn),車道檢測領(lǐng)域的方法也得到了進(jìn)一步的專業(yè)化和完善。在這個(gè)領(lǐng)域的主流研究軌跡上反思,基于相機(jī)的車道檢測方法可以主要分為二維(2D)和三維(3D)車道檢測范式。
2D車道檢測方法 旨在準(zhǔn)確地描繪圖像中的車道形狀和位置,主要采用四種不同的方法:基于分割、基于anchor、基于關(guān)鍵點(diǎn)和基于曲線的策略。
- 基于分割的方法將2D車道檢測看作像素級分類挑戰(zhàn),生成車道m(xù)ask。
- 基于anchor的方法以其簡單和高效而受到贊譽(yù),通常利用線性anchor來回歸相對于目標(biāo)的位置偏移。
- 基于關(guān)鍵點(diǎn)的方法提供了對車道位置更靈活和稀疏的建模,首先估計(jì)點(diǎn)位置,然后使用不同的方案關(guān)聯(lián)屬于同一車道的關(guān)鍵點(diǎn)。
- 基于曲線的方法通過各種曲線方程和特定參數(shù)來擬合車道線,通過檢測起始點(diǎn)和結(jié)束點(diǎn)以及曲線參數(shù),將2D車道檢測轉(zhuǎn)化為曲線參數(shù)回歸挑戰(zhàn)。
盡管2D車道檢測取得了一些進(jìn)展,但在2D結(jié)果與實(shí)際應(yīng)用要求之間仍存在顯著差距,尤其是對于精確的三維定位。
3D車道檢測。 由于2D車道檢測中固有的深度信息缺乏,將這些檢測投影到3D空間可能會導(dǎo)致不準(zhǔn)確和降低魯棒性。因此,許多研究人員已經(jīng)將他們的關(guān)注點(diǎn)轉(zhuǎn)向了3D領(lǐng)域內(nèi)的車道檢測?;谏疃葘W(xué)習(xí)的3D車道檢測方法主要分為基于CNN和基于Transformer的方法,最初構(gòu)建稠密的鳥瞰特征圖,然后從這些中間表示中提取3D車道信息。
基于CNN的方法主要包括D-LaneNet,它提出了一種雙路徑架構(gòu),利用逆透視映射(IPM)將特征轉(zhuǎn)置,并通過垂直anchor回歸檢測車道。3D-LaneNet+將BEV特征分割為不重疊的單元,通過相對于單元中心的橫向偏移、角度和高度變化來解決anchor方向的限制。GenLaneNet首創(chuàng)使用虛構(gòu)的俯視坐標(biāo)系來更好地對齊特征,并引入了一個(gè)兩階段框架來解耦車道分割和幾何編碼。BEVLaneDet通過虛擬相機(jī)來確保空間一致性,并通過基于關(guān)鍵點(diǎn)的3D車道表示適應(yīng)更復(fù)雜的場景。GroupLane在BEV中引入了基于行的分類方法,適應(yīng)任何方向的車道,并與實(shí)例組內(nèi)的特征信息進(jìn)行交互。
基于Transformer的方法包括CLGo,提出了一個(gè)兩階段框架,能夠從圖像中估計(jì)攝像機(jī)姿態(tài),并基于BEV特征進(jìn)行車道解碼。PersFormer使用離線相機(jī)姿態(tài)構(gòu)建稠密的BEV查詢,將2D和3D車道檢測統(tǒng)一到基于Transformer的框架下。STLanes3D使用融合的BEV特征預(yù)測3D車道,并引入了3DLane-IOU損失來耦合橫向和高度誤差。Anchor3DLane是一種基于CNN的方法,直接從圖像特征中基于3D anchor回歸3D車道,大大減少了計(jì)算開銷。CurveFormer利用稀疏查詢表示和Transformer內(nèi)的交叉注意機(jī)制,有效地回歸3D車道的多項(xiàng)式系數(shù)。LATR在CurveFormer的查詢anchor建?;A(chǔ)上構(gòu)建了車道感知查詢生成器和動態(tài)3D地面位置嵌入。CurveFormer++提出了一種單階段Transformer檢測方法,不需要圖像特征視圖轉(zhuǎn)換,并直接從透視圖像特征推斷3D車道檢測結(jié)果。
挑戰(zhàn)與動機(jī)
準(zhǔn)確估計(jì)車道標(biāo)線的三維位置需要具有魯棒的深度感知能力,特別是在光照和天氣條件多變的復(fù)雜城市環(huán)境中。此外,由于各種因素如不同的道路類型、標(biāo)線和環(huán)境條件,現(xiàn)實(shí)世界中用于三維車道檢測的數(shù)據(jù)表現(xiàn)出很高的變異性,使得在不同場景中訓(xùn)練具有良好泛化能力的模型變得艱難。處理用于車道檢測的三維數(shù)據(jù)需要大量的計(jì)算資源;這在低延遲至關(guān)重要的實(shí)時(shí)應(yīng)用中尤為關(guān)鍵。此外,車道標(biāo)線可能會被各種環(huán)境因素如遮擋、陰影、雨雪等遮擋或破壞,給在惡劣條件下可靠檢測帶來挑戰(zhàn)。此外,將三維車道檢測集成到綜合感知系統(tǒng)中,同時(shí)使用其他傳感器如相機(jī)、激光雷達(dá)和雷達(dá),并處理它們的聯(lián)合輸出,也面臨著集成挑戰(zhàn)。不幸的是,社區(qū)缺乏一個(gè)統(tǒng)一的、單一的參考點(diǎn),以確定基于相機(jī)的三維車道檢測技術(shù)在自動駕駛中的當(dāng)前成熟水平。
考慮到上述挑戰(zhàn)和基于視覺傳感器的語義分割在準(zhǔn)確場景理解和解析中的重要性,在本調(diào)查中積累了現(xiàn)有的研究成果和成果。本調(diào)查中突出顯示的主要研究問題如下:
- 現(xiàn)有數(shù)據(jù)集在復(fù)雜視覺場景中具備進(jìn)行3D車道檢測的潛力嗎?
- 當(dāng)前方法的模型大小和推斷速度如何,這些方法能夠滿足自動駕駛車輛的實(shí)時(shí)要求嗎?
- 當(dāng)前方法是否能夠有效地在包含霧和雨等不確定性的復(fù)雜視覺場景中進(jìn)行三維車道檢測?
貢獻(xiàn)
本調(diào)查向前邁出了一步,對近年來三維車道檢測技術(shù)的最新狀態(tài)進(jìn)行了批判性審查,并為社區(qū)做出了以下主要貢獻(xiàn):
- 1)全面介紹了3D車道檢測技術(shù),定義了通用流程并逐步解釋了每個(gè)步驟。這有助于該領(lǐng)域的新人們迅速掌握先前的知識和研究成果,特別是在自動駕駛的背景下。據(jù)我們所知,這是第一份關(guān)于基于相機(jī)的3D車道檢測的調(diào)查。
- 2)討論和批判性分析了近年來在三維車道檢測領(lǐng)域受到重視的最相關(guān)的論文和數(shù)據(jù)集。
- 3)對當(dāng)前最先進(jìn)的方法進(jìn)行性能研究,考慮它們的計(jì)算資源需求以及開發(fā)這些方法的平臺。
- 4)基于分析的文獻(xiàn),推導(dǎo)出未來研究的指導(dǎo)方針,確定該領(lǐng)域的開放問題和挑戰(zhàn),以及可以有效探索的研究機(jī)會,以解決這些問題。
綜述方法論
本調(diào)查中討論的研究作品是使用不同的關(guān)鍵詞檢索而來的,例如自動駕駛中的3D車道檢測、基于視覺的3D車道檢測和基于學(xué)習(xí)的3D車道檢測。大多數(shù)檢索到的論文與研究主題直接相關(guān),但也有一些例外,例如多模態(tài)方法和基于點(diǎn)云的方法,與本調(diào)查的主題關(guān)系較小。此外,上述關(guān)鍵詞在多個(gè)庫中進(jìn)行了搜索,包括Web of Science和Google Scholar,以確保檢索到相關(guān)內(nèi)容。包含標(biāo)準(zhǔn)確保了一篇論文被自動駕駛專家所認(rèn)可,基于諸如引用次數(shù)或先前工作的影響等因素。值得一提的是,在查閱文獻(xiàn)時(shí),并沒有找到基于傳統(tǒng)方法的單目3D車道檢測工作。這可能是因?yàn)?,與單目相機(jī)的二維車道檢測不同,后者僅需要在二維圖像中識別屬于車道的像素,單目3D車道檢測需要使用二維圖像確定車道在三維空間中的三維位置信息。如果沒有像LiDAR這樣的距離測量傳感器的幫助,或者沒有通過深度學(xué)習(xí)進(jìn)行預(yù)測,這是很難實(shí)現(xiàn)的。
自動駕駛中的單目3D車道檢測
隨著深度學(xué)習(xí)和自動駕駛技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的單目車道檢測引起了工業(yè)界和學(xué)術(shù)界的越來越多的關(guān)注。在單目車道檢測領(lǐng)域,早期工作主要集中在二維車道檢測上。隨著自動駕駛技術(shù)的成熟,對車道檢測提出了更高的要求,即從單張圖像中預(yù)測車道線的三維信息。因此,從2018年開始,陸續(xù)出現(xiàn)了關(guān)于單目3D車道檢測的工作。如圖1所示,該圖提供了單目3D車道檢測算法的時(shí)間線概述。可以看到,隨著時(shí)間的推移,越來越多的研究工作涌現(xiàn)出來,表明這一領(lǐng)域越來越受到關(guān)注。在該圖中,綠色箭頭代表基于CNN的方法,橙色箭頭代表基于Transformer的方法。
在這些方法中,3D-LaneNet是單目3D車道檢測領(lǐng)域的開創(chuàng)性工作。3D-LaneNet引入了一個(gè)網(wǎng)絡(luò),可以從單目圖像中直接預(yù)測道路場景中的三維車道信息。該工作首次使用車載單目視覺傳感器解決了三維車道檢測任務(wù)。3D-LaneNet引入了兩個(gè)新概念:網(wǎng)絡(luò)內(nèi)部特征圖逆透視映射(IPM)和基于anchor的車道表示。網(wǎng)絡(luò)內(nèi)部IPM投影在前視圖和鳥瞰圖中促進(jìn)了雙重表示信息流。基于anchor的車道輸出表示支持端到端的訓(xùn)練方法,這與將檢測三維車道線的問題等同于目標(biāo)檢測問題的常見啟發(fā)式方法不同。3D-LaneNet的概述如圖2所示。
受到FCOS和CenterNet等工作的啟發(fā),3D LaneNet+是一種無anchor的三維車道檢測算法,可以檢測任意拓?fù)浣Y(jié)構(gòu)的三維車道線。3D LaneNet+的作者遵循了3D LaneNet的雙流網(wǎng)絡(luò),分別處理圖像視圖和鳥瞰圖,并將其擴(kuò)展到支持檢測具有更多拓?fù)浣Y(jié)構(gòu)的三維車道線。3D LaneNet+不是將整個(gè)車道預(yù)測為整體,而是檢測位于單元內(nèi)的小車道段及其屬性(位置、方向、高度)。此外,該方法學(xué)習(xí)了每個(gè)單元的全局嵌入,將小車道段聚類為完整的三維車道信息。姜等設(shè)計(jì)了一個(gè)兩階段的三維車道檢測網(wǎng)絡(luò),其中每個(gè)階段分別訓(xùn)練。第一個(gè)子網(wǎng)絡(luò)專注于車道圖像分割,而第二個(gè)子網(wǎng)絡(luò)專注于根據(jù)第一個(gè)子網(wǎng)絡(luò)的分割輸出預(yù)測三維車道結(jié)構(gòu)。在每個(gè)階段分別引入了高效通道注意(ECA)注意機(jī)制和卷積塊注意模塊(CBAM)注意機(jī)制,分別提高了分割性能和三維車道檢測的準(zhǔn)確性。
郭等提出了GenLaneNet,這是一種通用且可擴(kuò)展的三維車道檢測方法,用于從單張圖像中檢測三維車道線,如圖3所示。作者引入了一種新穎的幾何引導(dǎo)車道anchor表示,并對網(wǎng)絡(luò)輸出直接進(jìn)行了特定的幾何變換,以計(jì)算真實(shí)的三維車道點(diǎn)。該anchor設(shè)計(jì)是對3D-LaneNet中anchor設(shè)計(jì)的直觀擴(kuò)展。該方法將anchor坐標(biāo)與底層鳥瞰圖特征對齊,使其更能處理不熟悉的場景。此外,該論文提出了一個(gè)可擴(kuò)展的兩階段框架,允許獨(dú)立學(xué)習(xí)圖像分割子網(wǎng)絡(luò)和幾何編碼子網(wǎng)絡(luò),從而顯著減少了訓(xùn)練所需的三維標(biāo)簽數(shù)量。此外,該論文還介紹了一個(gè)高度真實(shí)的合成圖像數(shù)據(jù)集,其中包含豐富的視覺變化,用于開發(fā)和評估三維車道檢測方法。
劉等人提出了CLGo,這是一個(gè)用于從單張圖像預(yù)測三維車道和相機(jī)姿態(tài)的兩階段框架。第一階段專注于相機(jī)姿態(tài)估計(jì),并引入了輔助的三維車道任務(wù)和幾何約束進(jìn)行多任務(wù)學(xué)習(xí)。第二階段針對三維車道任務(wù),并使用先前估計(jì)的姿態(tài)生成鳥瞰圖像,以準(zhǔn)確預(yù)測三維車道。PersFormer引入了第一個(gè)基于Transformer的三維車道檢測方法,并提出了一種稱為Perspective Transformer的新型架構(gòu),如圖4所示。這種基于Transformer的架構(gòu)能夠進(jìn)行空間特征轉(zhuǎn)換,從而實(shí)現(xiàn)對三維車道線的準(zhǔn)確檢測。此外,該提出的框架具有同時(shí)處理2D和3D車道檢測任務(wù)的獨(dú)特能力,提供了一個(gè)統(tǒng)一的解決方案。此外,該論文還提出了OpenLane,這是一個(gè)基于具有影響力的Waymo Open數(shù)據(jù)集建立的大規(guī)模三維車道檢測數(shù)據(jù)集。OpenLane是第一個(gè)提供高質(zhì)量標(biāo)注和多樣化實(shí)際場景的數(shù)據(jù)集,為推動該領(lǐng)域的研究提供了寶貴資源。
在[108]中,研究人員介紹了最大的真實(shí)世界三維車道檢測數(shù)據(jù)集,ONCE-3DLanes數(shù)據(jù)集,并提供了更全面的評估指標(biāo),以重新激發(fā)人們對這一任務(wù)在真實(shí)場景中的興趣。此外,該論文提出了一種名為SALAD的方法,該方法可以直接從前視圖圖像生成三維車道布局,無需將特征映射轉(zhuǎn)換為鳥瞰圖(BEV),SALAD的網(wǎng)絡(luò)架構(gòu)如圖5所示。
文章[45]提出了一種新穎的損失函數(shù),利用了三維空間車道的幾何結(jié)構(gòu)先驗(yàn),實(shí)現(xiàn)了從局部到全局的穩(wěn)定重建,并提供了明確的監(jiān)督。它引入了一個(gè)2D車道特征提取模塊,利用了來自頂視圖的直接監(jiān)督,確保車道結(jié)構(gòu)信息的最大保留,特別是在遠(yuǎn)處區(qū)域,整體流程如圖7所示。此外,該論文還提出了一種針對三維車道檢測的任務(wù)特定數(shù)據(jù)增強(qiáng)方法,以解決地面坡度和攝像機(jī)姿態(tài)的數(shù)據(jù)分布不平衡問題,增強(qiáng)了在罕見情況下的泛化性能。
Bai等人提出了CurveFormer,這是一種基于Transformer的三維車道檢測算法。在這篇論文中,研究人員將解碼器層中的查詢形式化為一個(gè)動態(tài)的anchor集,并利用曲線交叉注意力模塊計(jì)算查詢與圖像特征之間的相似度。此外,他們還引入了一個(gè)上下文采樣單元,通過組合參考特征和查詢來預(yù)測偏移量,引導(dǎo)采樣偏移的學(xué)習(xí)過程。Ai等人提出了WS-3D-Lane,這是首次提出了一種弱監(jiān)督的三維車道檢測方法,只使用2D車道標(biāo)簽,并在評估中勝過了之前的3D-LaneNet 方法。此外,作者提出了一種攝像機(jī)俯仰自校準(zhǔn)方法,可以實(shí)時(shí)在線計(jì)算攝像機(jī)的俯仰角,從而減少由不平整的路面引起的攝像機(jī)和地平面之間的俯仰角變化導(dǎo)致的誤差。在BEV-LaneDet 中,作者提出了虛擬攝像機(jī),這是一個(gè)新穎的數(shù)據(jù)預(yù)測處理模塊,用于統(tǒng)一攝像機(jī)的外部參數(shù)和數(shù)據(jù)分布的一致性,作者提出了關(guān)鍵點(diǎn)表示,一種簡單而有效的三維車道結(jié)構(gòu)表示。此外,還提出了基于MLP的空間轉(zhuǎn)換金字塔,這是一種輕量級結(jié)構(gòu),實(shí)現(xiàn)了從多角度視覺特征到BEV特征的轉(zhuǎn)換。黃等人提出了Anchor3DLane框架,直接定義了三維空間中的anchor,并且直接從前視圖中回歸出三維車道,如圖6所示。作者還提出了Anchor3DLane的多幀擴(kuò)展,以利用良好對齊的時(shí)間信息并進(jìn)一步提高性能。此外,還開發(fā)了一種全局優(yōu)化方法,通過利用車道等寬屬性對車道進(jìn)行微調(diào)。
Li等人提出了一種方法[45],可以直接從前視圖圖像中提取頂視圖車道信息,減少了2D車道表示中的結(jié)構(gòu)損失。該方法的整體流程如圖7所示。作者將3D車道檢測視為從2D圖像到3D空間的重建問題。他們提出,在訓(xùn)練過程中明確地施加3D車道的幾何先驗(yàn)是充分利用車道間和車道內(nèi)部關(guān)系的結(jié)構(gòu)約束,以及從2D車道表示中提取3D車道高度信息的關(guān)鍵。作者分析了3D車道與其2D表示之間的幾何關(guān)系,并提出了一種基于幾何結(jié)構(gòu)先驗(yàn)的輔助損失函數(shù)。他們還證明了顯式幾何監(jiān)督可以增強(qiáng)對3D車道的噪聲消除、異常值拒絕和結(jié)構(gòu)保留。
Bai等人提出了CurveFormer 和CurveFormer++ ,這是基于Transformer的單階段方法,可以直接計(jì)算3D車道的參數(shù),并且可以繞過具有挑戰(zhàn)性的視圖轉(zhuǎn)換步驟。具體來說,他們使用曲線查詢將3D車道檢測形式化為曲線傳播問題。3D車道查詢由動態(tài)和有序的anchor集表示。通過在Transformer解碼器中使用具有曲線表示的查詢,對3D車道檢測結(jié)果進(jìn)行迭代細(xì)化。此外,他們引入了曲線交叉注意力模塊來計(jì)算曲線查詢與圖像特征之間的相似性。此外,提供了一個(gè)上下文采樣模塊,以捕獲更相關(guān)的曲線查詢圖像特征,進(jìn)一步提高了3D車道檢測的性能。
與[66]類似,Li等人提出了GroupLane,這是一種基于按行分類的3D車道檢測方法。GroupLane的設(shè)計(jì)由兩組卷積頭組成,每組對應(yīng)一個(gè)車道預(yù)測。這種分組將不同車道之間的信息交互分離開來,降低了優(yōu)化的難度。在訓(xùn)練過程中,使用單贏一對一匹配(SOM)策略將預(yù)測與車道標(biāo)簽匹配,該策略將預(yù)測分配給最適合的標(biāo)簽進(jìn)行損失計(jì)算。為了解決單目圖像中不可避免的深度模糊所引起的在車道檢測過程中構(gòu)建的替代特征圖與原始圖像之間的不對齊問題,Luo等人提出了一種新穎的LATR模型 。這是一個(gè)端到端的3D車道檢測器,它使用不需要轉(zhuǎn)換視圖表示的3D感知前視圖特征。具體來說,LATR通過基于車道感知的查詢生成器和動態(tài)3D地面位置嵌入構(gòu)造的查詢和鍵值對之間的交叉注意力來檢測3D車道。一方面,每個(gè)查詢基于2D車道感知特征生成,并采用混合嵌入以增強(qiáng)車道信息。另一方面,3D空間信息作為位置嵌入從一個(gè)迭代更新的3D地面平面注入。
為了解決在將圖像視圖特征轉(zhuǎn)換為鳥瞰圖時(shí)由于忽略道路高度變化而引起的視圖轉(zhuǎn)換不準(zhǔn)確的問題,Chen等人提出了一種高效的用于3D車道檢測的Transformer 。與傳統(tǒng)的Transformer不同,該模型包括一個(gè)分解的交叉注意力機(jī)制,可以同時(shí)學(xué)習(xí)車道和鳥瞰圖表示。這種方法與基于IPM的方法相比,允許更準(zhǔn)確的視圖轉(zhuǎn)換,并且更高效。以前的研究假設(shè)所有車道都在一個(gè)平坦的地面上。然而,Kim等人認(rèn)為,基于這種假設(shè)的算法在檢測實(shí)際駕駛環(huán)境中的各種車道時(shí)存在困難,并提出了一種新的算法,D-3DLD。與以前的方法不同,此方法通過利用深度感知體素映射將圖像域中的豐富上下文特征擴(kuò)展到3D空間。此外,該方法基于體素化特征確定3D車道。作者設(shè)計(jì)了一種新的車道表示,結(jié)合不確定性,并使用拉普拉斯損失預(yù)測了3D車道點(diǎn)的置信區(qū)間。
Li等人提出了一種輕量級方法 [46],該方法使用MobileNet作為骨干網(wǎng)絡(luò),以減少對計(jì)算資源的需求。所提出的方法包括以下三個(gè)階段。首先,使用MobileNet模型從單個(gè)RGB圖像生成多尺度的前視圖特征。然后,透視transformer從前視圖特征計(jì)算鳥瞰圖(BEV)特征。最后,使用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)預(yù)測2D和3D坐標(biāo)及其各自的車道類型。在論文[26]中,Han等人認(rèn)為,基于曲線的車道表示可能不適用于現(xiàn)實(shí)場景中許多不規(guī)則車道線,這可能會導(dǎo)致與間接表示(例如基于分割或基于點(diǎn)的方法)相比的性能差距。文中作者提出了一種新的車道檢測方法,該方法可以分解為兩部分:曲線建模和地面高度回歸。具體來說,使用參數(shù)化曲線來表示鳥瞰圖空間中的車道,以反映車道的原始分布。對于第二部分,由于地面高度由路況等自然因素決定,因此地面高度與曲線建模分開回歸。此外,作者設(shè)計(jì)了一個(gè)新的框架和一系列損失函數(shù),以統(tǒng)一2D和3D車道檢測任務(wù),引導(dǎo)具有或不具有3D車道標(biāo)簽的模型的優(yōu)化。
這些方法的直觀總結(jié)如表II所示,包括方法描述、使用的數(shù)據(jù)集、開源狀態(tài)以及網(wǎng)絡(luò)架構(gòu)。
3D車道檢測性能評估
本節(jié)將討論單目3D車道檢測模型的性能評估。在此,我們解釋評估指標(biāo)、不同類型的目標(biāo)函數(shù)、分析計(jì)算復(fù)雜度,并最終提供各種模型的定量比較。所使用變量的命名方式見表I。首先,呈現(xiàn)了3D車道線檢測的可視化結(jié)果。由于一些算法未公開源代碼,我們只在ApolloSim數(shù)據(jù)集上對一些開源算法進(jìn)行了可視化測試。這些算法已在ApolloSim數(shù)據(jù)集上進(jìn)行了訓(xùn)練,可視化結(jié)果如圖8所示,其中紅色線表示預(yù)測的車道線,藍(lán)色線表示真值車道線。接下來,將介紹評估指標(biāo)、用于訓(xùn)練算法的損失函數(shù)以及在公共數(shù)據(jù)集上進(jìn)行的3D車道線檢測的定量測試結(jié)果。
3D車道檢測的評估指標(biāo)
僅建立預(yù)測的單目3D車道檢測模型并不明智也不可信,除非在未見數(shù)據(jù)上進(jìn)行測試。大多數(shù)模型在用于訓(xùn)練的相同數(shù)據(jù)集的不相交集上評估其性能,即測試數(shù)據(jù)對訓(xùn)練模型來說是新的。用于單目3D車道檢測任務(wù)的深度學(xué)習(xí)模型使用一些通用指標(biāo)來評估基于真實(shí)值的最佳結(jié)果。對于單目3D車道檢測任務(wù),有不同類型的評估指標(biāo)可供選擇,將在接下來的內(nèi)容中進(jìn)行回顧:
3D車道檢測的損失函數(shù)
在單目3D車道檢測任務(wù)中,常見的基本損失函數(shù)包括以下幾種:
MSE損失:這是最常用的損失函數(shù)之一,它計(jì)算模型預(yù)測值與真實(shí)值之間的平方差,然后取平均值。其數(shù)學(xué)表達(dá)式為:
MAE損失:這是另一種常用的損失函數(shù),它計(jì)算模型預(yù)測值與真實(shí)值之間的絕對差值,然后取平均值。其數(shù)學(xué)表達(dá)式為:
Huber損失:Huber損失結(jié)合了MSE和MAE的優(yōu)點(diǎn),使其對異常值更加穩(wěn)健。其數(shù)學(xué)表達(dá)式為:
交叉熵?fù)p失:交叉熵通常用于分類任務(wù),但也可應(yīng)用于回歸任務(wù)。在車道檢測中,通過確定像素是否屬于車道來將問題轉(zhuǎn)化為分類任務(wù)。其數(shù)學(xué)表達(dá)式為:
二元交叉熵?fù)p失:二元交叉熵?fù)p失常用于訓(xùn)練二元分類任務(wù),旨在最小化損失函數(shù)以提高模型對二元分類樣本的預(yù)測準(zhǔn)確性。它廣泛應(yīng)用于深度學(xué)習(xí)任務(wù),如圖像分類、文本分類和分割。其數(shù)學(xué)表達(dá)式為:
Focal Loss:Focal Loss是一種設(shè)計(jì)用于解決類別不平衡問題的損失函數(shù),這種不平衡經(jīng)常出現(xiàn)在目標(biāo)檢測或語義分割等任務(wù)中,其中一個(gè)類別的示例數(shù)量遠(yuǎn)遠(yuǎn)超過另一個(gè)類別。這種類別不平衡可能導(dǎo)致模型偏向于多數(shù)類,尤其是在少數(shù)類上表現(xiàn)不佳。
IoU損失:IoU損失基于交并比(IoU),用于衡量模型預(yù)測區(qū)域與真值區(qū)域之間的重疊程度。
不同的方法使用特定的損失函數(shù)的方式各不相同,但基本上大多數(shù)都是基于上述基本損失函數(shù)的變體或組合。此外,通常使用匈牙利算法來將預(yù)測車道與真值車道匹配。
單目3D車道檢測模型的定量分析
本節(jié)詳細(xì)闡述了本文調(diào)查的單目3D車道檢測方法的定量實(shí)證分析,這有助于實(shí)現(xiàn)自動駕駛。對于定量評估,利用四個(gè)評估指標(biāo)來檢查每種單目3D車道檢測方法在ApolloSim數(shù)據(jù)集上的性能:AP、F-Score、x誤差和z誤差,并在表IV中報(bào)告結(jié)果。在Openlane數(shù)據(jù)集上,評估了每個(gè)模型的F-Score,如表V所示。在ONCE3DLane數(shù)據(jù)集上,我們評估了四個(gè)指標(biāo),即:F-Score、Precision、Recall和CD誤差,結(jié)果報(bào)告在表VI中。此外,還考慮了計(jì)算效率,通過報(bào)告每種方法在推理過程中可達(dá)到的每秒幀數(shù)(FPS)。這些模型的總運(yùn)行時(shí)間在表IV、V和VI中報(bào)告。在一些論文中,報(bào)告了算法的推理時(shí)間及其相應(yīng)的硬件平臺,直接使用。然而,在其他一些論文中,未顯示算法的推理時(shí)間,因此我們在我們的實(shí)驗(yàn)平臺上進(jìn)行了自己的實(shí)驗(yàn)來測試推理時(shí)間。我們的實(shí)驗(yàn)平臺的CPU配置包括運(yùn)行Ubuntu 20.04操作系統(tǒng)的Intel(R) Core i9-12900K CPU處理器,而實(shí)驗(yàn)中使用的GPU是一塊具有12GB顯存的NVIDIA GeForce RTX 3080Ti GPU。在上述表格中,我們指定了每種方法推理所使用的硬件。
數(shù)據(jù)集
在基于深度學(xué)習(xí)的視覺任務(wù)中,同樣重要的組成部分是數(shù)據(jù)集。在本節(jié)中,將介紹當(dāng)前用于單目3D車道線檢測任務(wù)的數(shù)據(jù)集。其中一些數(shù)據(jù)集是開放源代碼且受到社區(qū)廣泛使用的,而另一些僅在論文中描述,未公開。無論是開源還是專有數(shù)據(jù)集,為了更直觀地了解這些數(shù)據(jù)集,我們編制了一張?jiān)敿?xì)的表格,展示了所有現(xiàn)有的單目3D車道線檢測數(shù)據(jù)集,如表III所示。
Apollo 3D Lane合成數(shù)據(jù)集
Apollo 3D Lane合成數(shù)據(jù)集是一個(gè)穩(wěn)健的合成數(shù)據(jù)集,包括10,500幀高分辨率的1080 × 1920單目RGB圖像,使用Unity 3D引擎構(gòu)建。每個(gè)幀都附帶相應(yīng)的3D車道標(biāo)簽和攝像機(jī)俯仰數(shù)據(jù)。它基于美國硅谷,涵蓋了各種環(huán)境,包括高速公路、城市區(qū)域、住宅區(qū)和市區(qū)設(shè)置。該數(shù)據(jù)集的圖像囊括了廣泛的日間和天氣條件、各種交通/障礙情況以及不同的道路表面質(zhì)量,從而使數(shù)據(jù)集具有高度的多樣性和逼真度。數(shù)據(jù)集分為三種不同的場景類別:平衡場景、罕見觀察到的場景和具有視覺變化的場景。
平衡場景用于作為全面和無偏見的數(shù)據(jù)集,用于基準(zhǔn)標(biāo)準(zhǔn)駕駛場景。罕見觀察到的場景用于測試算法對于復(fù)雜城市地圖中罕見遇到的情況的適應(yīng)能力,其中包括急劇的高程變化和急轉(zhuǎn)彎。具有視覺變化的場景旨在評估算法在不同照明條件下的表現(xiàn),通過在訓(xùn)練期間排除特定白天時(shí)段并在測試期間專注于它們。數(shù)據(jù)集中攝像機(jī)的固定內(nèi)參參數(shù),攝像機(jī)高度范圍在1.4到1.8米之間,俯仰角范圍從0到10度。
OpenLane
OpenLane是第一個(gè)大規(guī)模、真實(shí)世界的3D車道檢測數(shù)據(jù)集,擁有超過200,000幀和880,000個(gè)精心標(biāo)注的車道。OpenLane建立在具有影響力的Waymo Open數(shù)據(jù)集的基礎(chǔ)上,采用相同的數(shù)據(jù)格式、評估管道和10Hz的采樣率,由64束LiDAR在20秒內(nèi)進(jìn)行。該數(shù)據(jù)集為每個(gè)幀提供了詳盡的細(xì)節(jié),包括攝像機(jī)內(nèi)參和外參,以及車道類別,其中包括14種不同類型,如白色虛線和路邊。幾乎90%的車道由雙黃色實(shí)線和單白色實(shí)線和虛線組成。OpenLane數(shù)據(jù)集典型地展示了現(xiàn)實(shí)世界的情景,充分凸顯了長尾分布問題。OpenLane包含幀中的所有車道,甚至包括相反方向的車道,前提是沒有隔離路邊。由于復(fù)雜的車道拓?fù)浣Y(jié)構(gòu),如交叉口和環(huán)形交叉口,一個(gè)幀可以容納多達(dá)24條車道。約25%的幀中包含超過六條車道,超過了大多數(shù)當(dāng)前車道數(shù)據(jù)集的最大值。除此之外,該數(shù)據(jù)集還提供了場景標(biāo)簽的注釋,例如天氣和位置,以及最接近路徑的目標(biāo)(CIPO)-定義為與自車相關(guān)的最相關(guān)目標(biāo)。這些輔助數(shù)據(jù)對于規(guī)劃和控制中的后續(xù)模塊至關(guān)重要,而不僅僅是感知。OpenLane的3D地面真值是使用LiDAR合成的,因此具有高精度和準(zhǔn)確性。數(shù)據(jù)集分為包含157,000張圖像的訓(xùn)練集和包含39,000張圖像的驗(yàn)證集。
ONCE-3DLanes
ONCE-3DLanes數(shù)據(jù)集是另一個(gè)實(shí)用的3D車道檢測數(shù)據(jù)集,精心從ONCE自動駕駛存儲庫中提取而來。該數(shù)據(jù)集包括由前置相機(jī)捕獲的211,000個(gè)圖像,以及相應(yīng)的匹配LiDAR點(diǎn)云數(shù)據(jù)。展示了一系列不同時(shí)間和天氣條件下的場景,如陽光明媚、陰天和雨天等,數(shù)據(jù)集涵蓋了城市中心、住宅區(qū)、高速公路、橋梁和隧道等多種地形。這種多樣性使數(shù)據(jù)集成為在各種真實(shí)世界場景下開發(fā)和驗(yàn)證強(qiáng)大的3D車道檢測模型的關(guān)鍵資源。該數(shù)據(jù)集分為三個(gè)部分:用于驗(yàn)證的3,000個(gè)場景,用于測試的8,000個(gè)場景,以及剩余的5,000個(gè)場景用于訓(xùn)練。訓(xùn)練組件還額外補(bǔ)充了200,000個(gè)未標(biāo)注的場景,以充分利用原始數(shù)據(jù)。雖然數(shù)據(jù)集提供了的攝像機(jī)內(nèi)參,但省略了攝像機(jī)外參。
其他數(shù)據(jù)集
論文“3D-LaneNet: End-to-End 3D Multiple Lane Detection”介紹了兩個(gè)不同的數(shù)據(jù)集:Synthetic3D-Lanes數(shù)據(jù)集和3D-Lanes數(shù)據(jù)集。通過開源圖形引擎Blender創(chuàng)建的Synthetic3D-Lanes數(shù)據(jù)集包括300K個(gè)訓(xùn)練示例和5K個(gè)測試示例,每個(gè)示例都包含一個(gè)360×480像素的圖像以及與之關(guān)聯(lián)的真值參數(shù),如3D車道、攝像機(jī)高度和俯仰。這個(gè)數(shù)據(jù)集在車道拓?fù)?、目?biāo)位置和場景渲染方面具有重大的多樣性,為方法開發(fā)和消融研究提供了寶貴的資源。此外,3D-Lanes數(shù)據(jù)集是一個(gè)真實(shí)世界的真值標(biāo)注數(shù)據(jù)集,通過利用多傳感器設(shè)置-前向相機(jī)、Velodine HDL32激光雷達(dá)掃描儀和高精度IMU來編制。該數(shù)據(jù)集由六個(gè)獨(dú)立的行駛記錄組成,每個(gè)記錄在不同的路段上錄制,總計(jì)近兩個(gè)小時(shí)的行駛時(shí)間。借助激光雷達(dá)和IMU數(shù)據(jù),生成了聚合的激光雷達(dá)俯視圖像,并與半手動注釋工具一起使用,建立了真值??偣矘?biāo)注了85,000張圖像,其中1,000張來自一個(gè)單獨(dú)的駕駛記錄,被指定為測試集,其余作為訓(xùn)練集。3D-Lanes數(shù)據(jù)集在驗(yàn)證所提出的方法對真實(shí)世界數(shù)據(jù)的可轉(zhuǎn)移性以及進(jìn)行定性分析方面發(fā)揮了重要作用。盡管Synthetic-3D-Lanes數(shù)據(jù)集已經(jīng)向研究界開放,但真實(shí)世界的3D-Lanes數(shù)據(jù)集仍然是專有的,無法公開獲取。值得注意的是,盡管Synthetic-3D-Lanes數(shù)據(jù)集是可用的,但在后續(xù)領(lǐng)域研究中并沒有得到廣泛采用作為基準(zhǔn)進(jìn)行評估。
自動駕駛中的3D車道檢測:挑戰(zhàn)與方向
上述介紹的數(shù)據(jù)集涵蓋了各種公開可用的道路場景。當(dāng)前主流研究主要集中在適合進(jìn)行三維車道檢測的有利白天場景上,這些場景具有充足的照明和有利的天氣條件。然而,許多汽車公司和原始設(shè)備制造商擁有大量數(shù)據(jù),但由于涉及知識產(chǎn)權(quán)、產(chǎn)業(yè)競爭和《通用數(shù)據(jù)保護(hù)條例》(GDPR)等問題,他們不愿意公開分享這些數(shù)據(jù)。因此,在自動駕駛研究中,缺乏足夠的帶標(biāo)注數(shù)據(jù)來準(zhǔn)確理解動態(tài)天氣條件,如夜間、霧霾天氣和邊緣情況,仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。
這個(gè)研究領(lǐng)域是社區(qū)尚未充分解決的挑戰(zhàn)之一。在本節(jié)中,對當(dāng)前自動駕駛中三維車道檢測的現(xiàn)狀提出了關(guān)鍵觀點(diǎn),總結(jié)了一系列挑戰(zhàn),并提出了研究方向建議,以幫助社區(qū)進(jìn)一步取得進(jìn)展,有效地克服這些挑戰(zhàn)。
開放性挑戰(zhàn)
雖然研究人員在自動駕駛領(lǐng)域進(jìn)行了大量研究,自動駕駛行業(yè)也在蓬勃發(fā)展,但仍然存在一些需要研究人員關(guān)注的開放性挑戰(zhàn),以實(shí)現(xiàn)完全智能的自動駕駛。這些挑戰(zhàn)已經(jīng)在相關(guān)文獻(xiàn)的支持下進(jìn)行了單獨(dú)討論:
粗結(jié)構(gòu)化信息: 大多數(shù)文獻(xiàn)中介紹的用于自動駕駛中3D車道檢測的數(shù)據(jù)集記錄在先進(jìn)城市的正常和良好結(jié)構(gòu)化基礎(chǔ)設(shè)施中。當(dāng)前開發(fā)的深度學(xué)習(xí)模型可能在結(jié)構(gòu)化數(shù)據(jù)集上取得最佳結(jié)果,但它們在許多非結(jié)構(gòu)化環(huán)境中的泛化能力較差。自動駕駛中的這個(gè)問題需要在數(shù)據(jù)收集方面進(jìn)一步關(guān)注,同時(shí)在深度學(xué)習(xí)模型中引入新的有效表示機(jī)制。
不確定性感知決策: 車道檢測和自動駕駛決策中一個(gè)被大部分忽視的方面是模型對輸入數(shù)據(jù)進(jìn)行預(yù)測的置信度。然而,模型輸出的置信度在確保自動駕駛安全性方面起著至關(guān)重要的作用。車輛周圍固有的不確定性本質(zhì)似乎沒有說服社區(qū)深入研究這個(gè)問題,因?yàn)槟壳暗姆椒ㄕ撢厔輧H關(guān)注預(yù)測分?jǐn)?shù)。幸運(yùn)的是,置信度估計(jì)最近在社區(qū)中引起了關(guān)注。然而,來自證據(jù)深度學(xué)習(xí)的元素、深度神經(jīng)網(wǎng)絡(luò)的貝葉斯公式、近似神經(jīng)網(wǎng)絡(luò)輸出置信度的簡單機(jī)制(如蒙特卡洛丟失或集成)以及其他各種不確定性量化方法,應(yīng)逐步作為決策的一個(gè)額外但至關(guān)重要的標(biāo)準(zhǔn)進(jìn)行融合。在處理復(fù)雜環(huán)境時(shí),由于缺乏能夠完全代表所有可能場景的數(shù)據(jù),模型會輸出大量的認(rèn)識不確定性。如果不將置信度作為AD的一個(gè)附加因素,或者當(dāng)前研究僅關(guān)注預(yù)測和/或計(jì)算效率方面,那么科學(xué)界新興的3D車道檢測模型是否會實(shí)際上有用并且可轉(zhuǎn)移至工業(yè)領(lǐng)域就無法保證。
弱監(jiān)督學(xué)習(xí)策略: 在當(dāng)前基于深度學(xué)習(xí)的模型中,大多數(shù)依賴于完全監(jiān)督的學(xué)習(xí)策略,這對標(biāo)注數(shù)據(jù)有很高的要求。在3D車道檢測領(lǐng)域,特別具有挑戰(zhàn)性,因?yàn)橐话愕囊曈X傳感器數(shù)據(jù)缺乏深度信息。僅憑圖像本身很難將3D信息簡單地分配給車道,需要使用LiDAR等替代傳感器獲取3D車道信息。這導(dǎo)致了標(biāo)注3D車道數(shù)據(jù)的成本高昂和勞動密集性。幸運(yùn)的是,學(xué)術(shù)界和工業(yè)界已經(jīng)意識到了這個(gè)問題,并且在深度學(xué)習(xí)領(lǐng)域?qū)θ醣O(jiān)督學(xué)習(xí)策略進(jìn)行了廣泛的研究和關(guān)注。然而,在3D車道檢測的特定分支中,目前針對弱監(jiān)督學(xué)習(xí)策略的研究仍然有限。如果我們能夠有效地利用自監(jiān)督/弱監(jiān)督學(xué)習(xí)策略,將極大地降低數(shù)據(jù)收集成本,并允許更多的訓(xùn)練數(shù)據(jù)來增強(qiáng)3D車道檢測算法的性能,從而進(jìn)一步推動自動駕駛行業(yè)的發(fā)展。
未來方向
基于視頻的自動駕駛3D車道檢測: 借鑒基于視頻目標(biāo)檢測、語義分割和2D車道檢測的進(jìn)展,可以明顯看出,將基于視頻的技術(shù)納入其中顯著提高了3D車道檢測系統(tǒng)的精度和可靠性?;谝曨l的方法的核心優(yōu)勢在于它們能夠利用時(shí)間數(shù)據(jù),提供靜態(tài)圖像所缺乏的動態(tài)視角。這種動態(tài)視角在理解和預(yù)測三維空間中復(fù)雜的駕駛情況中尤其重要,其中車道位置和車輛相互作用的復(fù)雜性增加。像遞歸視頻車道檢測(RVLD)這樣的方法展示了視頻捕捉持續(xù)車道變化的能力,隨時(shí)間的推移變化,這一特征對于3D建模的準(zhǔn)確性極其有益。此外,將視頻數(shù)據(jù)納入這些系統(tǒng)還增強(qiáng)了我們對駕駛環(huán)境中空間動態(tài)的理解,這對于3D車道檢測至關(guān)重要。通過將基于視頻的目標(biāo)檢測和語義分割中使用的復(fù)雜深度學(xué)習(xí)技術(shù)納入3D車道檢測系統(tǒng)的未來版本,可以實(shí)現(xiàn)先進(jìn)的空間意識,顯著提高自動駕駛車輛的導(dǎo)航能力和安全性。
混合方法和多模態(tài): 多模態(tài)3D車道檢測技術(shù)的進(jìn)展大大加快了各種傳感器輸入(如相機(jī)、LiDAR和雷達(dá))的整合。這種整合標(biāo)志著克服現(xiàn)有依賴相機(jī)的系統(tǒng)所面臨挑戰(zhàn)的一個(gè)有希望的途徑。這種方法,強(qiáng)調(diào)了在多模態(tài)3D目標(biāo)檢測和語義分割中的成功,利用了每種傳感器類型的互補(bǔ)優(yōu)勢,以提高檢測精度和可靠性,特別是在具有挑戰(zhàn)性的環(huán)境和復(fù)雜駕駛場景中。回顧了“深度多傳感器車道檢測”和“M2-3DLaneNet”等開創(chuàng)性模型,這些模型已經(jīng)有效地利用了多傳感器輸入來優(yōu)化車道邊界估計(jì),并在遮擋和光照條件變化方面表現(xiàn)出色,明顯的發(fā)展?jié)摿Α_@一領(lǐng)域未來的發(fā)展軌跡應(yīng)強(qiáng)調(diào)對先進(jìn)數(shù)據(jù)融合方法、細(xì)致的傳感器校準(zhǔn)和同步技術(shù)的探索,以及利用新興技術(shù)如邊緣計(jì)算進(jìn)行實(shí)時(shí)多模態(tài)數(shù)據(jù)處理。
主動學(xué)習(xí)和增量學(xué)習(xí): 機(jī)器學(xué)習(xí)中的主動學(xué)習(xí)指的是模型在測試階段和部署后隨時(shí)間和遇到新數(shù)據(jù)而適應(yīng)和學(xué)習(xí)的能力。在現(xiàn)實(shí)世界的環(huán)境中,車輛可能會遇到隨機(jī)出現(xiàn)的陌生場景和車道拓?fù)洌@可能需要AI模型為進(jìn)一步的操作做出決策,如剎車或加速以實(shí)現(xiàn)合理的駕駛操作。因此,車道檢測技術(shù)應(yīng)允許交互式方法來處理各種類型的場景和車道拓?fù)洌婕叭祟悩?biāo)注者來標(biāo)注未標(biāo)注的數(shù)據(jù)實(shí)例,以及人類參與訓(xùn)練過程。有不同類型的主動學(xué)習(xí)技術(shù),如成員查詢綜合,其中生成合成數(shù)據(jù),并且根據(jù)數(shù)據(jù)的結(jié)構(gòu)調(diào)整合成數(shù)據(jù)的參數(shù),這源于數(shù)據(jù)的基礎(chǔ)物種。另一方面,3D車道檢測模型能夠增量地更新其對新數(shù)據(jù)的捕獲知識,對于其可持續(xù)性和持續(xù)改進(jìn)至關(guān)重要。我們預(yù)計(jì),在未來的研究中,3D車道檢測模型在道路理解方面的這兩個(gè)能力將變得越來越重要。
惡劣天氣條件: 對于自動駕駛的基于相機(jī)的3D車道檢測系統(tǒng)的發(fā)展受到惡劣天氣條件的明顯阻礙,這些條件嚴(yán)重影響了能見度。如大雨、霧、雪和沙塵暴等事件會嚴(yán)重影響這些系統(tǒng)的功能。這主要問題源于視覺數(shù)據(jù)質(zhì)量的損害,這些數(shù)據(jù)對于車道標(biāo)線的精確檢測和分割是必要的,導(dǎo)致可靠性下降,假陰性或假陽性的可能性增加。這種系統(tǒng)效能的降低不僅提高了安全隱患,而且限制了自動駕駛車輛的操作范圍。然而,最近在目標(biāo)檢測和語義分割方面的突破,如“ACDC:適應(yīng)不良條件的數(shù)據(jù)集及其對語義駕駛場景理解的對應(yīng)關(guān)系”和“使用深度學(xué)習(xí)框架在惡劣天氣下的車輛檢測和跟蹤”,展示了在挑戰(zhàn)性天氣條件下增強(qiáng)3D車道檢測的途徑。這些研究提出了利用深度學(xué)習(xí)算法在包括各種惡劣天氣實(shí)例的數(shù)據(jù)集上訓(xùn)練,展示了有效的數(shù)據(jù)增強(qiáng)、針對特定條件的領(lǐng)域適應(yīng)和使用語義分割技術(shù)的重要性。通過采用這些方法,基于相機(jī)的檢測系統(tǒng)的能力可以得到大幅提升,以準(zhǔn)確解釋車道標(biāo)線,并確保在能見度差的情況下安全導(dǎo)航,為自動駕駛技術(shù)領(lǐng)域的持續(xù)研究和發(fā)展奠定了樂觀的路徑。
大型語言模型(LLM)在3D車道檢測中的應(yīng)用: 大型語言模型(LLM)的出現(xiàn),如ChatGPT,已經(jīng)改變了人工通用智能(AGI)領(lǐng)域,展示了它們在使用定制用戶提示或語言指令處理各種自然語言處理(NLP)任務(wù)方面remarkable zero-shot能力。計(jì)算機(jī)視覺涵蓋了一系列與NLP中的挑戰(zhàn)和概念迥然不同的挑戰(zhàn)。視覺基礎(chǔ)模型通常遵循預(yù)訓(xùn)練和后續(xù)微調(diào)的過程,雖然有效,但對于適應(yīng)一系列下游應(yīng)用而言,這意味著顯著的額外成本。技術(shù),如多任務(wù)統(tǒng)一化,旨在賦予系統(tǒng)一系列廣泛的功能,但它們往往無法突破預(yù)先確定的任務(wù)的約束,與LLM相比,在開放式任務(wù)中留下明顯的能力缺口。視覺提示調(diào)整的出現(xiàn)提供了一種通過視覺mask來劃分特定視覺任務(wù)(如目標(biāo)檢測、實(shí)例分割和姿態(tài)估計(jì))的新方法。然而,目前還沒有將LLM與3D車道線檢測相結(jié)合的工作。隨著大型語言模型越來越普遍,其能力繼續(xù)提升,LLM基于車道線檢測的研究為未來的探索提供了有趣和有前途的途徑。
實(shí)現(xiàn)更準(zhǔn)確高效的自動駕駛3D車道檢測方法: 當(dāng)前3D車道檢測技術(shù)的定性性能如表IV所示??梢杂^察到只有少數(shù)方法能夠在模型準(zhǔn)確性和推理延遲之間取得平衡。這些方法的實(shí)驗(yàn)結(jié)果表明,需要進(jìn)一步改進(jìn)以減輕計(jì)算負(fù)擔(dān),同時(shí)保持其無與倫比的性能。此外,從3D車道檢測數(shù)據(jù)集中選擇了一些具有挑戰(zhàn)性的數(shù)據(jù),并測試了3D車道線檢測算法在這些挑戰(zhàn)性數(shù)據(jù)樣本上的性能。然而,算法在極端天氣條件下的檢測性能也不令人滿意,如圖9所示。改善算法在極端天氣條件下的檢測性能也是至關(guān)重要的。此外,表IV、V和VI中報(bào)告的時(shí)間復(fù)雜性表明,一些方法在部署在GPU設(shè)備上時(shí)可以實(shí)現(xiàn)實(shí)時(shí)執(zhí)行。然而,考慮到當(dāng)今自動駕駛系統(tǒng)中受限的計(jì)算資源,3D車道檢測方法的重點(diǎn)也應(yīng)轉(zhuǎn)向計(jì)算復(fù)雜性。
基于事件相機(jī)的3D車道檢測: RGB相機(jī)受其成像原理的限制,在高速或低光場景下會產(chǎn)生圖像質(zhì)量差的問題。幸運(yùn)的是,事件相機(jī)可以克服這一限制。事件相機(jī)是具有高時(shí)間分辨率、高動態(tài)范圍、低延遲和低能耗的視覺傳感器。與傳統(tǒng)相機(jī)根據(jù)光的強(qiáng)度和顏色捕獲圖像不同,事件相機(jī)是基于光強(qiáng)度變化捕獲圖像的。因此,只要光強(qiáng)度發(fā)生變化,事件相機(jī)就可以在低光場景下捕獲圖像。目前,關(guān)于基于事件相機(jī)的3D車道檢測的研究還很有限。我們認(rèn)為,在使用事件相機(jī)進(jìn)行3D車道檢測領(lǐng)域存在重大且廣泛的研究潛力,包括開發(fā)專門用于使用事件相機(jī)進(jìn)行3D車道檢測的數(shù)據(jù)集,以及設(shè)計(jì)適用于僅使用事件相機(jī)或與RGB相機(jī)結(jié)合進(jìn)行3D車道檢測的算法。
考慮不確定性的3D車道檢測: 在過去幾年中,深度神經(jīng)網(wǎng)絡(luò)(DNNs)在眾多計(jì)算機(jī)視覺任務(wù)中取得了顯著的成功,鞏固了它們作為高效自動感知的不可或缺的工具的地位。盡管在不同的基準(zhǔn)測試和任務(wù)中始終提供出色的結(jié)果,但在廣泛實(shí)施之前,仍然有一些重要的障礙需要克服。關(guān)于DNNs最常見和最著名的批評之一是在面對數(shù)據(jù)分布水平變化時(shí),它們?nèi)菀壮霈F(xiàn)性能不穩(wěn)定的問題,突顯了迫切需要解決這一限制的問題。
目前,大多數(shù)深度學(xué)習(xí)模型提供確定性輸出,即給出一個(gè)結(jié)果。然而,在真實(shí)世界的駕駛場景中,希望模型能夠?yàn)槠漕A(yù)測提供不確定性估計(jì)。下游決策模塊可以利用這些不確定性信息做出更合理和更安全的駕駛指令。例如,在3D車道檢測的情況下,如果模型輸出的車道位置具有較高的不確定性,應(yīng)該對模型的檢測結(jié)果持懷疑態(tài)度,并采取保守的駕駛風(fēng)格。相反,如果模型的輸出具有較低的不確定性,我們可以對算法的預(yù)測感到有信心,并做出更自信的駕駛決策。
結(jié)論
視覺傳感器是自動駕駛車輛的關(guān)鍵組成部分,在決策過程中起著關(guān)鍵作用。作為近年來增長最快的領(lǐng)域之一,計(jì)算機(jī)視覺技術(shù)被用于分析視覺傳感器捕獲的數(shù)據(jù),以獲取諸如交通燈檢測、交通標(biāo)志識別、可駕駛區(qū)域檢測和三維障礙物感知等有用信息。隨著傳感器技術(shù)、算法能力和計(jì)算能力的進(jìn)步,視覺傳感器數(shù)據(jù)在自動駕駛車輛感知中的應(yīng)用越來越受到關(guān)注。例如,基于單目圖像的3D車道檢測利用單個(gè)相機(jī)圖像獲取三維物理世界中車道線的位置,融合深度信息。了解車道線的深度信息對于自動駕駛車輛的安全和舒適的決策制定和規(guī)劃至關(guān)重要。雖然可以使用其他傳感器(如激光雷達(dá))獲取三維車道信息,但由于其成本效益和豐富的結(jié)構(gòu)化彩色信息,視覺傳感器在自動駕駛領(lǐng)域中發(fā)揮著至關(guān)重要的作用。
基于單目圖像的3D車道檢測在自動駕駛領(lǐng)域已經(jīng)發(fā)展了多年。然而,現(xiàn)有文獻(xiàn)中缺乏全面的、總結(jié)性的分析。本調(diào)查回顧了現(xiàn)有的車道檢測方法,介紹了現(xiàn)有的3D車道檢測數(shù)據(jù)集,并討論了現(xiàn)有車道檢測方法在公共數(shù)據(jù)集上的性能比較。還分析了當(dāng)前3D車道檢測面臨的挑戰(zhàn)和局限性。主要結(jié)論是,基于單目圖像的3D車道檢測領(lǐng)域的研究尚未達(dá)到完美,當(dāng)前的方法存在許多限制,在調(diào)查中進(jìn)行了詳細(xì)討論,并提供了相關(guān)建議和展望。涵蓋了處理深度學(xué)習(xí)模型的基線工作,它們在3D車道檢測任務(wù)中的層次結(jié)構(gòu),以及與每個(gè)模型類別相關(guān)的挑戰(zhàn)。此外,深入探討了自動駕駛領(lǐng)域中用于3D車道檢測模型的性能評估策略、損失函數(shù)和廣泛使用的數(shù)據(jù)集。通過提出開放挑戰(zhàn)和未來研究方向來總結(jié)這項(xiàng)工作,并列舉了最近文獻(xiàn)中的基線參考。
最后,不可否認(rèn)的是,智能交通系統(tǒng)社區(qū)的專家們不斷努力改進(jìn)3D車道檢測策略,以有效利用視覺傳感器的數(shù)據(jù)。主流研究致力于通過神經(jīng)網(wǎng)絡(luò)的能力提高模型的準(zhǔn)確性,或者探索新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu)。然而,解決其他挑戰(zhàn)是實(shí)現(xiàn)可靠、值得信賴和安全自動駕駛的必要條件。從3D車道檢測的角度來看,這些挑戰(zhàn)需要更強(qiáng)大的模型,具備預(yù)測車道遮擋、處理粗略結(jié)構(gòu)信息和提供風(fēng)險(xiǎn)警報(bào)的能力。此外,當(dāng)前的3D車道檢測模型主要依賴于監(jiān)督學(xué)習(xí),這需要高質(zhì)量的標(biāo)注數(shù)據(jù)。然而,標(biāo)注3D 車道數(shù)據(jù)是一項(xiàng)耗時(shí)且費(fèi)力的任務(wù)。探索有價(jià)值且具有挑戰(zhàn)性的方法,如自監(jiān)督或弱監(jiān)督學(xué)習(xí),以實(shí)現(xiàn)3D車道檢測是這一領(lǐng)域進(jìn)一步發(fā)展的開放機(jī)會。如果能及時(shí)充分利用這些機(jī)會,將推動智能交通系統(tǒng)的研究,并將3D車道檢測提升到一個(gè)新的水平。這將使無人駕駛車輛能夠更有效地在現(xiàn)實(shí)環(huán)境中部署,并支持更安全、更可靠和更舒適的出行和物流服務(wù)。