CVPR 2024自動駕駛挑戰(zhàn)賽Mapless Driving無圖智駕賽道論文解讀
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
比賽介紹
CVPR 2024 Autonomous Grand Challenge Track Mapless Driving無圖智駕賽道的任務是檢測車道線和交通元素(紅綠燈、道路標牌等),并且推理車道之間、車道與交通要素之間的拓撲關(guān)系。在線建立局部高精度地圖,從而擺脫自動駕駛對高精地圖(HD)的依賴。比賽基于OpenLaneV2數(shù)據(jù)集進行。
無圖自動駕駛和擴城,是2023年各大廠商主要卷的方向。在CVPR 2023自動駕駛挑戰(zhàn)賽中,無圖自動駕駛包含兩個賽道:OpenLane Topology和Online HD Map Construction。今年的比賽相比去年的比賽相比,數(shù)據(jù)增加了標清地圖(SD Map)。因此,今年的方案相比去年方案主要的改進就是將SD Map信息輸入模型。
今年比賽的前三名被中國的隊伍包攬。
CVPR 2024 Autonomous Grand Challenge Track Mapless Driving Leaderboard
論文解讀
#1 LGmap: Local-to-Global Mapping Network for Online Long-Range Vectorized HD Map Construction
今年的冠軍LGmap提出三個創(chuàng)新點:首先,提出了對稱視圖變換(symmetric view transformation, SVT)??朔饲跋蛳∈杼卣鞅硎镜木窒扌?,利用深度感知和SD Map先驗信息的。其次,提出了層級時序融合(hierarchical temporal fusion, HTF)。它利用局部和全局的時序信息,有利于為構(gòu)建具有高穩(wěn)定性的遠距離的HD Map。最后,提出了一種新的人行橫道重采樣方法。簡化的人行道表示方法加快模型收斂性能。
Diagram
論文的框架圖如下圖:
LGmap流程圖
Encoder
輸入圖片首先經(jīng)過Image Backbone,提取特征,得到PV(perspective view)特征。經(jīng)過論文提出的SVT,轉(zhuǎn)為BEV特征。所謂SVT,就是同時使用前向投影方法Lift-Splat-Shoot(LSS)和反向投影方法BEVFormer進行特征轉(zhuǎn)換。LSS部分,使用激光雷達點云提供的深度作為監(jiān)督。在BEVFormer部分,在SD map的polyline采樣固定數(shù)量的點,編碼成sinusoidal embedding,與圖像特征進行cross attention,應該是跟SMERF方法一致。LSS和BEVFormer得到的BEV特征用channel attention模塊進行融合。
Decoder
有兩個并行的decoder,分別是instance-wise detection decoder和segmentation decoder。instance-wise detection decoder負責輸出待檢測的目標。segmentation decoder起輔助作用,加快收斂。
Temporal fusion
論文考慮時序信息,提升遠距離建圖的準確性。提出HTF,實際是將streaming和stacking結(jié)合的方式。所謂streaming是指RNN的范式,將信息通過memory進行傳遞;而stacking就是直接將信息拼接。作者提出了streaming-streaming和streaming-stacking兩種方式供選擇。
Streaming和stacking組合的hierarchical temporal fusion模塊
Loss
總共考慮了4個loss。第一,跟隨MapTR,point2point loss和edge direction loss;第二,跟隨MapTRv2,segmentation loss和depth prediction loss;第三,BEV instance segmentation loss;第四,跟隨GeMap,geometric 3D loss。
Area
針對人行橫道,MapTR是是采用20個點均勻間隔采樣。本文則是受到Machmap的啟發(fā),首先用采樣4個頂點,然后再用每條邊都為6個點的均勻采樣。這樣本文比MapTR的采樣點簡單很多,以20個點為例,MapTR有40種等效排列,而本文只有8中等效排列。這樣可以加速收斂速度。
MapTR, MachMap和本文LGmap的人行橫道建模方式對比
Traffic elements
采用YOLOv8和YOLOv9,檢測交通元素,在OpenLaneV2,就包括紅綠燈和道路標牌。
Lane-Lane topology
跟隨TopoMLP,將已經(jīng)輸出的centerline坐標經(jīng)過MLP再變成embedding,與經(jīng)過訓練的refined query結(jié)合,再經(jīng)過MLP,輸出車道線之間連接關(guān)系的二分類結(jié)果。
Lane-Traffic topology
本文的這部分是和檢測模型分離的。Lane-Traffic topology模型是用lane segments的和traffic elements的真值訓的。lane segments和traffic elements過embedding層得到特征,再經(jīng)過self attention,得到加強特征,再過MLP進行二分類。
Ablation Study
Encoder部分,增加LSS僅提高了0.5%,作用不大。BEVFormer是主力。
時序融合模塊,使用Streaming-Stacking模塊,比Streaming高0.5%。Streaming比baseline高3%,主力是Streaming。
用新的人行橫道編碼方式,可有提高約1%。
#2 Leveraging SD Map to Assist the OpenLane Topology
本文設計了一種緊湊的transformer-based結(jié)構(gòu),用于SD map encoding and integration,充分利用SD map已經(jīng)包含的基礎道路拓撲結(jié)構(gòu)。此外,提出一種動態(tài)位置編碼(dynamic positional embedding)機制,提升decoding performance。
Model Architecture
論文沒有給出總體框架圖。總體框架屬于常規(guī)的套路。
首先,經(jīng)過圖像backbone得到PV feature,再經(jīng)過BEVFormer得到BEV feature。其次,基于BEV feature,建立一個SD map encoder來提取SD map的特征。接下來,過lane decoder以及,得到lane的檢測結(jié)果。最后,接上 topology模型,topology模型是decoupled的。
SD Map Encoder
SD map Encoder和Lane Decoder的示意圖
首先對SD map進行編碼,方法跟LGmap基本上一致。針對SD map里面的M條polylines,每條polyline均勻取N個點。對這些點進行sinusoidal embeddings:
其中p(,)表示polyline上采樣點坐標,j表示維度的索引, d表示編碼維度,T表示temperature scale。此外,一個one-hot向量 K用于編碼polyline類型。最后,所有的采樣點的positional embedding(就是上面公式的sinusoidal embeddings)和polyline的類別embedding拼接起來,得到N * d+K維度的SD map polyline編碼。先接一個linear layer,將維度轉(zhuǎn)為,再輸入transformer。
在SDMap Encoder里,先做一次self attention,再做一次cross attention,k, v是BEV features。這里選擇用LaneSegNet提出的Lane Attention操作。
Lane Decoder
Content embedding和positional embedding作為query輸入Lane Decoder,先進行一個self attention,再接一個Lane Attention與BEV features進行交互,再接一個cross attention跟SD map embedding進行交互。
論文提出給Lane Attention動態(tài)位置編碼。方法是在上一個decoder結(jié)束后,得到N個lane points坐標,將其進行sinusoidal編碼,得到N * d維度的向量,再過linear layer變換成維的向量。作為位置編碼加到query里。
Lane Decoder中動態(tài)位置編碼示意圖
Topology Prediction
與LGmap類似,論文也將topology prediction和detection任務分離了。論文說的原因是因為樣本不平衡,positive(associated elements)和negative(non-associated elements)極度不平衡。
將detection模型輸出的結(jié)果,輸入MLP,進行二分類預測。在lane-lane topology中,考慮lane的起點和終點的距離。在lane-traffic topology,用traffic element的bbox和front view攝像機外參進行編碼。
#3 UniHDMap: Unified Lane Elements Detection for Topology HD Map Construction
第三名是去年的冠軍團隊,也就是TopoMLP的作者團隊。今年提出了一套unified detection framework,檢測車道線,人行橫道和道路邊界,其中融入了SD map信息。和去年一樣,traffic elements還是用YOLOv8檢測,topology prediction還是用MLP。
Diagram
UniHDMap流程圖
BEV Feature Extraction
跟第二名的方案基本一樣,都是SMERF的特征提取框架,把SD map的信息融入。
SMERF算法流程圖
Lane and Area Detection
直接采用了LaneSegNet的detection部分。
LaneSegNet算法流程圖
Traffic Detection和Topology Prediction都跟去年的TopoMLP方法一樣。之后會專門寫一篇TopoMLP的解讀文章。
#6 MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report
論文引入了SD map encoder的pre-training,提高模型的幾何編碼能力。利用YOLOX來提高traffic element detection。另外,對area detection,引入LDTR和輔助任務,提高精度。
Diagram
MapVision算法流程圖
SD Map Encoding
Encoder的框架跟隨SMERF。為了增強SD Map Encoder幾何結(jié)構(gòu)的編碼能力,論文提出了對其進行預訓練。使用AutoEncoder進行預訓練,將feature sinusoidal embedding作為ground truth。在encoder后加一個輕量化的decoder,進行預測。用L2 loss進行監(jiān)督。漲點大概在2%左右。
Area Detection
跟隨MapTR得方式進行檢測。但是,論文認為MapTR采用keypoint的方式進行編碼,降低了instance的整體性。因此,受到LDTR得啟發(fā),采用anchor-chain的編碼方式。
Traffic Detection和Topology Prediction跟前面的論文基本一致。
總結(jié)
CVPR 2024無圖智駕賽道榜單前幾名的模型框架基本一致。相比去年,也沒有顛覆性的創(chuàng)新,主要改進在于以下幾點:
- 引入了SD Map作為信息輸入,采用SMERF提出的框架將其融入到transformer encoding里;
- 引入時序信息,預測提高遠處的建圖精度,提出采用streaming-stacking的方式;
- 對Area Detection的編碼方式,提出了一些改進,更好地適應Area這個instance的特性;