自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024自動駕駛挑戰(zhàn)賽Mapless Driving無圖智駕賽道論文解讀

人工智能 智能汽車
無圖自動駕駛和擴城,是2023年各大廠商主要卷的方向。在CVPR 2023自動駕駛挑戰(zhàn)賽中,無圖自動駕駛包含兩個賽道:OpenLane Topology和Online HD Map Construction。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

比賽介紹

CVPR 2024 Autonomous Grand Challenge Track Mapless Driving無圖智駕賽道的任務是檢測車道線和交通元素(紅綠燈、道路標牌等),并且推理車道之間、車道與交通要素之間的拓撲關(guān)系。在線建立局部高精度地圖,從而擺脫自動駕駛對高精地圖(HD)的依賴。比賽基于OpenLaneV2數(shù)據(jù)集進行。

無圖自動駕駛和擴城,是2023年各大廠商主要卷的方向。在CVPR 2023自動駕駛挑戰(zhàn)賽中,無圖自動駕駛包含兩個賽道:OpenLane Topology和Online HD Map Construction。今年的比賽相比去年的比賽相比,數(shù)據(jù)增加了標清地圖(SD Map)。因此,今年的方案相比去年方案主要的改進就是將SD Map信息輸入模型。

今年比賽的前三名被中國的隊伍包攬。

圖片

CVPR 2024 Autonomous Grand Challenge Track Mapless Driving Leaderboard

論文解讀

#1 LGmap: Local-to-Global Mapping Network for Online Long-Range Vectorized HD Map Construction

今年的冠軍LGmap提出三個創(chuàng)新點:首先,提出了對稱視圖變換(symmetric view transformation, SVT)??朔饲跋蛳∈杼卣鞅硎镜木窒扌?,利用深度感知和SD Map先驗信息的。其次,提出了層級時序融合(hierarchical temporal fusion, HTF)。它利用局部和全局的時序信息,有利于為構(gòu)建具有高穩(wěn)定性的遠距離的HD Map。最后,提出了一種新的人行橫道重采樣方法。簡化的人行道表示方法加快模型收斂性能。

Diagram

論文的框架圖如下圖:

圖片

LGmap流程圖

Encoder

輸入圖片首先經(jīng)過Image Backbone,提取特征,得到PV(perspective view)特征。經(jīng)過論文提出的SVT,轉(zhuǎn)為BEV特征。所謂SVT,就是同時使用前向投影方法Lift-Splat-Shoot(LSS)和反向投影方法BEVFormer進行特征轉(zhuǎn)換。LSS部分,使用激光雷達點云提供的深度作為監(jiān)督。在BEVFormer部分,在SD map的polyline采樣固定數(shù)量的點,編碼成sinusoidal embedding,與圖像特征進行cross attention,應該是跟SMERF方法一致。LSS和BEVFormer得到的BEV特征用channel attention模塊進行融合。

Decoder

有兩個并行的decoder,分別是instance-wise detection decoder和segmentation decoder。instance-wise detection decoder負責輸出待檢測的目標。segmentation decoder起輔助作用,加快收斂。

Temporal fusion

論文考慮時序信息,提升遠距離建圖的準確性。提出HTF,實際是將streaming和stacking結(jié)合的方式。所謂streaming是指RNN的范式,將信息通過memory進行傳遞;而stacking就是直接將信息拼接。作者提出了streaming-streaming和streaming-stacking兩種方式供選擇。

圖片

Streaming和stacking組合的hierarchical temporal fusion模塊

Loss

總共考慮了4個loss。第一,跟隨MapTR,point2point loss和edge direction loss;第二,跟隨MapTRv2,segmentation loss和depth prediction loss;第三,BEV instance segmentation loss;第四,跟隨GeMap,geometric 3D loss。

Area

針對人行橫道,MapTR是是采用20個點均勻間隔采樣。本文則是受到Machmap的啟發(fā),首先用采樣4個頂點,然后再用每條邊都為6個點的均勻采樣。這樣本文比MapTR的采樣點簡單很多,以20個點為例,MapTR有40種等效排列,而本文只有8中等效排列。這樣可以加速收斂速度。

圖片MapTR, MachMap和本文LGmap的人行橫道建模方式對比

Traffic elements

采用YOLOv8和YOLOv9,檢測交通元素,在OpenLaneV2,就包括紅綠燈和道路標牌。

Lane-Lane topology

跟隨TopoMLP,將已經(jīng)輸出的centerline坐標經(jīng)過MLP再變成embedding,與經(jīng)過訓練的refined query結(jié)合,再經(jīng)過MLP,輸出車道線之間連接關(guān)系的二分類結(jié)果。

Lane-Traffic topology

本文的這部分是和檢測模型分離的。Lane-Traffic topology模型是用lane segments的和traffic elements的真值訓的。lane segments和traffic elements過embedding層得到特征,再經(jīng)過self attention,得到加強特征,再過MLP進行二分類。

Ablation Study

Encoder部分,增加LSS僅提高了0.5%,作用不大。BEVFormer是主力。

圖片

時序融合模塊,使用Streaming-Stacking模塊,比Streaming高0.5%。Streaming比baseline高3%,主力是Streaming。

圖片

用新的人行橫道編碼方式,可有提高約1%。

圖片

#2 Leveraging SD Map to Assist the OpenLane Topology

本文設計了一種緊湊的transformer-based結(jié)構(gòu),用于SD map encoding and integration,充分利用SD map已經(jīng)包含的基礎道路拓撲結(jié)構(gòu)。此外,提出一種動態(tài)位置編碼(dynamic positional embedding)機制,提升decoding performance。

Model Architecture

論文沒有給出總體框架圖。總體框架屬于常規(guī)的套路。

首先,經(jīng)過圖像backbone得到PV feature,再經(jīng)過BEVFormer得到BEV feature。其次,基于BEV feature,建立一個SD map encoder來提取SD map的特征。接下來,過lane decoder以及,得到lane的檢測結(jié)果。最后,接上 topology模型,topology模型是decoupled的。

SD Map Encoder

圖片

SD map Encoder和Lane Decoder的示意圖

首先對SD map進行編碼,方法跟LGmap基本上一致。針對SD map里面的M條polylines,每條polyline均勻取N個點。對這些點進行sinusoidal embeddings:

圖片

其中p(,)表示polyline上采樣點坐標,j表示維度的索引, d表示編碼維度,T表示temperature scale。此外,一個one-hot向量 K用于編碼polyline類型。最后,所有的采樣點的positional embedding(就是上面公式的sinusoidal embeddings)和polyline的類別embedding拼接起來,得到N * d+K維度的SD map polyline編碼。先接一個linear layer,將維度轉(zhuǎn)為,再輸入transformer。

在SDMap Encoder里,先做一次self attention,再做一次cross attention,k, v是BEV features。這里選擇用LaneSegNet提出的Lane Attention操作。

Lane Decoder

Content embedding和positional embedding作為query輸入Lane Decoder,先進行一個self attention,再接一個Lane Attention與BEV features進行交互,再接一個cross attention跟SD map embedding進行交互。

論文提出給Lane Attention動態(tài)位置編碼。方法是在上一個decoder結(jié)束后,得到N個lane points坐標,將其進行sinusoidal編碼,得到N * d維度的向量,再過linear layer變換成維的向量。作為位置編碼加到query里。

圖片

Lane Decoder中動態(tài)位置編碼示意圖

Topology Prediction

與LGmap類似,論文也將topology prediction和detection任務分離了。論文說的原因是因為樣本不平衡,positive(associated elements)和negative(non-associated elements)極度不平衡。

將detection模型輸出的結(jié)果,輸入MLP,進行二分類預測。在lane-lane topology中,考慮lane的起點和終點的距離。在lane-traffic topology,用traffic element的bbox和front view攝像機外參進行編碼。

#3 UniHDMap: Unified Lane Elements Detection for Topology HD Map Construction

第三名是去年的冠軍團隊,也就是TopoMLP的作者團隊。今年提出了一套unified detection framework,檢測車道線,人行橫道和道路邊界,其中融入了SD map信息。和去年一樣,traffic elements還是用YOLOv8檢測,topology prediction還是用MLP。

Diagram

圖片

UniHDMap流程圖

BEV Feature Extraction

跟第二名的方案基本一樣,都是SMERF的特征提取框架,把SD map的信息融入。

圖片

SMERF算法流程圖

Lane and Area Detection

直接采用了LaneSegNet的detection部分。

圖片

LaneSegNet算法流程圖

Traffic DetectionTopology Prediction都跟去年的TopoMLP方法一樣。之后會專門寫一篇TopoMLP的解讀文章。

#6 MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report

論文引入了SD map encoder的pre-training,提高模型的幾何編碼能力。利用YOLOX來提高traffic element detection。另外,對area detection,引入LDTR和輔助任務,提高精度。

Diagram

圖片

MapVision算法流程圖

SD Map Encoding

Encoder的框架跟隨SMERF。為了增強SD Map Encoder幾何結(jié)構(gòu)的編碼能力,論文提出了對其進行預訓練。使用AutoEncoder進行預訓練,將feature sinusoidal embedding作為ground truth。在encoder后加一個輕量化的decoder,進行預測。用L2 loss進行監(jiān)督。漲點大概在2%左右。

圖片

Area Detection

跟隨MapTR得方式進行檢測。但是,論文認為MapTR采用keypoint的方式進行編碼,降低了instance的整體性。因此,受到LDTR得啟發(fā),采用anchor-chain的編碼方式。

Traffic DetectionTopology Prediction跟前面的論文基本一致。

總結(jié)

CVPR 2024無圖智駕賽道榜單前幾名的模型框架基本一致。相比去年,也沒有顛覆性的創(chuàng)新,主要改進在于以下幾點:

  1. 引入了SD Map作為信息輸入,采用SMERF提出的框架將其融入到transformer encoding里;
  2. 引入時序信息,預測提高遠處的建圖精度,提出采用streaming-stacking的方式;
  3. 對Area Detection的編碼方式,提出了一些改進,更好地適應Area這個instance的特性;
責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-06-19 19:30:08

自動駕駛方案

2024-06-24 09:28:27

自動駕駛論文

2021-03-01 14:07:25

自動駕駛環(huán)衛(wèi)工人交通

2021-12-01 10:21:27

自動駕駛技術(shù)人工智能

2023-11-03 13:50:03

智駕方案

2023-02-13 12:15:41

自動駕駛算法

2021-11-24 10:56:04

特斯拉自動駕駛技術(shù)

2020-11-06 10:36:39

自動駕駛

2024-01-10 11:01:13

自動駕駛和軟件

2022-06-30 09:53:38

火山引擎圖像壓縮

2023-12-08 10:10:56

模型論文調(diào)研

2017-05-02 11:26:36

開發(fā)者、Java、PH

2024-01-09 09:24:18

自動駕駛人才

2021-07-07 17:49:08

自動駕駛無人駕駛人工智能

2022-10-27 10:18:25

自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2023-05-09 10:28:27

點贊
收藏

51CTO技術(shù)棧公眾號