自動(dòng)駕駛雨天也能平穩(wěn)規(guī)劃,北理港中文騰訊提出端到端學(xué)習(xí)道路幾何圖形
用幾何圖形來(lái)實(shí)時(shí)構(gòu)建高精地圖,真香!
就是雨天也不在話下~
我們都知道,實(shí)時(shí)高精地圖,能為自動(dòng)駕駛汽車提供及時(shí)、緊湊且語(yǔ)義豐富的環(huán)境信息。但如何提高它的穩(wěn)健性、有效應(yīng)對(duì)各種復(fù)雜場(chǎng)景,成為一大挑戰(zhàn)。
來(lái)自北理、港中文、騰訊AI Lab團(tuán)隊(duì)引入一種新表征學(xué)習(xí)方法——GeMap,端到端學(xué)習(xí)地圖實(shí)例中的幾何形狀和關(guān)系。
結(jié)果在各種遮擋、路口轉(zhuǎn)彎的場(chǎng)景也能表現(xiàn)平穩(wěn),并實(shí)現(xiàn)SOTA。該論文被ECCV 2024收錄。
來(lái)看看這到底是如何做到的?
高精地圖的幾何表示
在線矢量化高清 (HD) 地圖的構(gòu)建對(duì)于下游預(yù)測(cè)和規(guī)劃至關(guān)重要。
然而,城市道路系統(tǒng)中實(shí)例的形狀和關(guān)系仍未得到充分探索,例如矩形、平行、垂直或特定車道寬度。
此外,當(dāng)車輛前進(jìn)或轉(zhuǎn)彎時(shí),這些形狀和關(guān)系屬性將保持不變。以前的方法基于絕對(duì)坐標(biāo)來(lái)格式化實(shí)例,在這種情況下,絕對(duì)坐標(biāo)對(duì)平移和旋轉(zhuǎn)很敏感。
團(tuán)隊(duì)提出了GeMap(幾何地圖),它以端到端的方式學(xué)習(xí)地圖實(shí)例的歐幾里得形狀和關(guān)系,超越了基本感知。
來(lái)看看具體框架。
首先,透視圖 (PV) 圖像被轉(zhuǎn)換為鳥瞰圖 (BEV) 特征,然后幾何解耦解碼器輸出矢量化高清地圖。
在解碼器的每個(gè)塊中,查詢首先通過(guò)歐幾里得形狀和關(guān)系注意力進(jìn)行處理,重點(diǎn)關(guān)注幾何相關(guān)性。
最后,通過(guò)形狀和關(guān)系約束在 G-Representations 中增強(qiáng)預(yù)測(cè)。
幾何表示。
團(tuán)隊(duì)引入了捕捉單個(gè)地圖實(shí)例的形狀(歐幾里得形狀線索)和不同實(shí)例之間的關(guān)系(歐幾里得關(guān)系線索)的幾何表示。
歐幾里得形狀線索。位移向量的長(zhǎng)度和相鄰向量之間的角度構(gòu)成形狀線索,用于計(jì)算形狀損失。例如,矩形與 90 度角和兩個(gè)相等的邊相關(guān)。
歐幾里得關(guān)系線索。 點(diǎn)對(duì)之間的距離和位移矢量對(duì)之間的角度表示關(guān)系線索。關(guān)系線索與歐幾里得關(guān)系幾何有更表面的聯(lián)系,例如平行或垂直。
幾何解耦注意力。
一種被MapTR,PivotNet等采用的架構(gòu)將地圖元素上的每一個(gè)點(diǎn)對(duì)應(yīng)到Transformer的一個(gè)查詢。這一架構(gòu)的問(wèn)題在于:對(duì)兩大類的幾何性質(zhì)(關(guān)系和形狀)不加區(qū)分。
在自注意力中,所有查詢(也就是“點(diǎn)”)之間都平等地相互作用。然而,地圖元素的形狀對(duì)應(yīng)著一組一組的查詢。這些組之間的交互,在感知元素形狀時(shí)就成為了累贅。反之在感知元素之間關(guān)聯(lián)的時(shí)候,形狀亦成為了冗余因素。這意味著將形狀、關(guān)聯(lián)的感知解耦,可能帶來(lái)更好的結(jié)果。
他們提出了幾何解耦注意力(GDA)。GDA 將 vanilla 自注意力模塊解耦為歐幾里得形狀注意力(捕獲實(shí)例內(nèi)幾何)和歐幾里得關(guān)系注意力(捕獲實(shí)例間幾何)。
實(shí)驗(yàn)結(jié)果
他們?cè)趎uScenes和Argoverse 2兩個(gè)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。
兩者都是常用的大規(guī)模自動(dòng)駕駛數(shù)據(jù)集,且提供了地圖標(biāo)注。
主要結(jié)果。
在nuScenes上,他們進(jìn)行了三組實(shí)驗(yàn)。
我們首先使用了一種比較純粹的目標(biāo)函數(shù)組合,只包括幾何損失和其它必要的損失(如點(diǎn)到點(diǎn)距離、邊的方向、分類),這一組合是為了體現(xiàn)我們提出的幾何性質(zhì)的重要價(jià)值,而不過(guò)多追求SOTA的結(jié)果。
可以看到,在這種情況下,相比于MapTR,我們的方法能在mAP提升了4%。為了探索GeMap的極限,團(tuán)隊(duì)還加上了一些輔助目標(biāo),包括分割和深度估計(jì),在這種情況下實(shí)現(xiàn)了SOTA(mAP提升0.7%)。
值得注意的是,取得這樣的提升并不需要犧牲太多的推理速度。
最后,我們還嘗試了引入額外的LiDAR模態(tài)輸入,在額外模態(tài)輸入的加持下,GeMap的性能也能取得進(jìn)一步提升。
同樣,在Argoverse 2數(shù)據(jù)集上也取得了非常突出的效果。
消融實(shí)驗(yàn)。
在nuScenes上進(jìn)一步進(jìn)行的消融實(shí)驗(yàn)證明了幾何損失和幾何解耦注意力的價(jià)值。
有趣的是,正如團(tuán)隊(duì)所預(yù)料的,直接使用幾何損失反而會(huì)帶來(lái)模型表現(xiàn)的下降。他們認(rèn)為這是因?yàn)榻Y(jié)構(gòu)上的對(duì)形狀和關(guān)聯(lián)處理的耦合,導(dǎo)致模型很難優(yōu)化幾何表示;而在與幾何解耦注意力結(jié)合之后,幾何損失就發(fā)揮了應(yīng)有的作用。
更多結(jié)果。
此外,我們還在nuScenes上進(jìn)行了可視化分析??梢暬慕Y(jié)果表明,GeMap除了具有對(duì)旋轉(zhuǎn)和平移的魯棒性,在處理遮擋問(wèn)題上也表現(xiàn)出了一定優(yōu)勢(shì),如下圖。圖中有挑戰(zhàn)性的地圖元素使用橘色方框標(biāo)出。
對(duì)于對(duì)遮擋的魯棒性,在雨天的實(shí)驗(yàn)結(jié)果中也得到了定量驗(yàn)證。
(因?yàn)橛晁畬?duì)相機(jī)有天然的遮擋)
這可以解釋為模型學(xué)到了幾何性質(zhì),因此即使有遮擋,也能更好地猜出地圖元素。
例如,模型理解了車道線的形狀,那么只需要”看到“一部分,就能夠估計(jì)剩下的部分;模型理解了車道線之間的平行關(guān)系,或者車道的寬度特點(diǎn),因此哪怕其中一條被遮擋,也能根據(jù)平行、寬度因素猜測(cè)被遮擋的部分。
在自動(dòng)駕駛系統(tǒng)中,幾何性質(zhì)實(shí)際上廣泛存在。
例如,在3D目標(biāo)檢測(cè)中,車輛的朝向在同車道上通常具有一致性;在運(yùn)動(dòng)預(yù)測(cè)中,軌跡本身具有形狀上的先驗(yàn);在3D車道線檢測(cè)中具有車道寬度先驗(yàn)。
GeMap的建模幾何性質(zhì)的思路可以恰當(dāng)?shù)財(cái)U(kuò)展到上述更多的自動(dòng)駕駛?cè)蝿?wù)中,從幾何角度增強(qiáng)整個(gè)自動(dòng)駕駛系統(tǒng)的性能。
不過(guò),GeMap本身的感知距離相對(duì)有限,可以對(duì)此進(jìn)行針對(duì)性的改進(jìn)以增強(qiáng)長(zhǎng)距離的感知。
比較常見(jiàn)的思路包括增加時(shí)序融合模塊;將相機(jī)、激光雷達(dá)、毫米波雷達(dá)等多種傳感器輸入有機(jī)地融合,實(shí)現(xiàn)感知距離上的優(yōu)勢(shì)互補(bǔ)。
論文鏈接:https://arxiv.org/abs/2312.03341
項(xiàng)目主頁(yè):https://invictus717.github.io/GeMap/
GitHub源代碼:https://github.com/cnzzx/GeMap