端到端的自動駕駛會取代Apollo、autoware這類框架嗎?
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes
- 作者單位:百度
- 作者:共一 Jiang-Tian Zhai, Ze Feng,百度王井東組
- 發(fā)表:arXiv
- 論文鏈接:https://arxiv.org/abs/2305.10430
- 代碼鏈接:https://github.com/E2E-AD/AD-MLP
關(guān)鍵詞:端到端自動駕駛,nuScenes 開環(huán)評估
1. 摘要
現(xiàn)有的自動駕駛系統(tǒng)通常被分為三個主任務:感知、預測和規(guī)劃;規(guī)劃任務涉及到基于內(nèi)部意圖和外部環(huán)境來預測自車的運動軌跡,并操縱車輛。大部分現(xiàn)有方案在 nuScenes 數(shù)據(jù)集上評估他們的方法,評價指標為 L2 error 和碰撞率(collision rate)
本文重新對現(xiàn)有的評價指標做了評估,探索他們是否能夠準確地度量不同方法的優(yōu)越性。本文還設計了一個 MLP-based 方法,將原始 sensor 數(shù)據(jù)(歷史軌跡、速度等)作為輸入,直接輸出自車的未來軌跡,不使用任何感知和預測信息,例如 camera 圖像或者 LiDAR。令人驚訝的是:這樣一個簡單的方法在 nuScenes 數(shù)據(jù)集上達到了 SOTA 的 planning 性能,減少了 30% 的 L2 error。我們進一步深入分析,對于 nuScenes 數(shù)據(jù)集上的規(guī)劃任務很重要的因子提供了一些新的見解。我們的觀察還表明,我們需要重新思考 nuScenes 中端到端自動駕駛的開環(huán)評測方案。
2. 論文的目的、貢獻及結(jié)論
本文希望對 nuScenes 上端到端自動駕駛的開環(huán)評測方案做評估;不使用視覺和 Lidar 的情況下,只使用自車狀態(tài)和高級命令(一共 21 維的向量)作為輸入就可以在 nuScenes 上達到 Planning 的 SOTA。作者由此指出了 nuScenes 上開環(huán)評測的不可靠性,給出了兩個分析:nuScenes 數(shù)據(jù)集上自車軌跡傾向于直行或者曲率非常小的曲線;碰撞率的檢測和網(wǎng)格密度相關(guān),并且數(shù)據(jù)集的碰撞標注也有噪聲,當前評估碰撞率的方法不夠魯棒和準確;
3. 論文的方法
3.1 簡介及相關(guān)工作簡述
現(xiàn)存的自動駕駛模型涉及到多個獨立任務,例如感知、預測和規(guī)劃。這種設計簡化了跨團隊寫作的難度,但也會由于各個任務的優(yōu)化和訓練的獨立性,導致整個系統(tǒng)的信息丟失和誤差累積。端到端的方法被提出,這類方法從自車和周圍環(huán)境的時空特征學習中受益。
相關(guān)工作:ST-P3[1] 提出一種可解釋的基于視覺的端到端系統(tǒng),將感知、預測和規(guī)劃的特征學習進行統(tǒng)一。UniAD[2] 對 Planning 任務進行系統(tǒng)化設計,采用基于 query 的設計連接中間多個任務,可以對多個任務的關(guān)系進行建模和編碼;VAD[3] 以完全向量化的方式對場景進行建模,不需要稠密的特征表示,在計算上更為高效。
本文希望探索現(xiàn)有的評估指標是否能準確地度量不同方法的優(yōu)劣。本文僅使用了自車在行駛中的的物理狀態(tài)(現(xiàn)有方法所使用信息的子集)來開展實驗,而不是使用相機和激光雷達提供的感知和預測信息。總之,本文的模型沒有用視覺或者點云特征的編碼器,直接將自車的物理信息編碼為一維向量,在 concat 之后送到 MLP 中。訓練使用 GT 軌跡進行監(jiān)督,模型直接預測自車未來一定時間內(nèi)的軌跡點。follow 之前的工作,在 nuScenes 數(shù)據(jù)集上使用 L2 Error 和碰撞率(collision rate.)進行評估
雖然模型設計簡單,但獲得了最好的 Planning 結(jié)果,本文將此歸因于當前評估指標的不足。事實上,通過使用過去的自車軌跡、速度、加速度和時間連續(xù)性,就可以在一定程度上反映出自車在未來的運動
3.2 模型結(jié)構(gòu)
模型結(jié)構(gòu)總覽
模型輸入包括兩部分:自車狀態(tài)以及代表未來短期運動趨勢的高級命令。
自車狀態(tài):搜集了自車過去 =4幀的運動軌跡、瞬時速度和加速度
高級命令:由于我們的模型不使用高精地圖,所以需要高級命令進行導航。按照常見的作法,定義了三種類型的命令:左轉(zhuǎn)、直行和右轉(zhuǎn)。具體來講,當自車在未來 3s 中將向左或向右位移大于 2m 時,將相應的命令設置為左轉(zhuǎn)或者右轉(zhuǎn),否則則是直行。使用維度為 1x3 的 one-hot 編碼來表示高級命令
網(wǎng)絡結(jié)構(gòu):網(wǎng)絡就是簡單的三層 MLP(輸入到輸出的維度分別為 21-512-512-18),最終輸出的幀數(shù)=6,每一幀輸出自車的軌跡位置(x,y 坐標)以及航向角(heading 角)
損失函數(shù)
損失函數(shù):使用 L1 損失函數(shù)進行懲罰
4. 論文的實驗
4.1 實驗設置
數(shù)據(jù)集:在 nuScenes 數(shù)據(jù)集上做實驗,nuScenes 數(shù)據(jù)集包括 1K 場景和大約 40K 關(guān)鍵幀,主要收集在波士頓和新加坡,使用配備 LiDAR 和周視攝像頭的車輛。為每一幀收集的數(shù)據(jù)包括多視角 Camear 圖像、LiDAR、速度、加速度等。
評測指標:使用 ST-P3 論文的評測代碼(https://github.com/OpenPerceptionX/ST-P3/blob/main/stp3/metrics.py)。評估1s、2s和3s時間范圍的輸出軌跡。為了評估預測的自車軌跡的質(zhì)量,計算了兩個常用的指標:
L2 Error :以米為單位,分別在下一個 1s、2s 和 3s 時間范圍內(nèi)自車的預測軌跡和真實軌跡之間計算平均 L2 誤差;
碰撞率(collision rate):以百分比為單位。為了確定自車與其他物體碰撞的頻率,通過在預測軌跡上的每個航路點放置一個表示自車的 box ,然后檢測與當前場景中車輛和行人的邊界框的是否發(fā)生了碰撞,以計算碰撞率。
超參數(shù)設置及硬件:PaddlePaddle 和 PyTorch 框架,AdamW 優(yōu)化器(4e-6 lr 及 1e-2 weight decay),cosine scheduler,訓了 6 個 epoch,batch size 為 4,用了一張 V100
4.2 實驗結(jié)果
表1 和現(xiàn)有的基于感知的方法進行比較
在表 1 中進行了一些消融實驗。以分析速度、加速度、軌跡和 High-level Command 對本文模型性能的影響。令人驚訝的是,僅使用軌跡作為輸入,沒有感知信息,本文的 Baseline 模型已經(jīng)實現(xiàn)了比所有現(xiàn)有方法更低的平均 L2 誤差。
當我們逐漸向輸入添加加速度、速度和 High-level Command 時,平均 L2 誤差和碰撞率從 0.35m 降低到 0.23m,將 0.33% 降低到 0.12%。同時將 Ego State 和 High-level Command 作為輸入的模型實現(xiàn)了最低的 L2 誤差和碰撞率,超過了所有先前最先進的基于感知的方法,如最后一行所示。
4.3 實驗分析
文章從兩個角度分析了自我車輛狀態(tài)在nuScenes訓練集上的分布:未來3s的軌跡點;航向角(heading / yaw角)和曲率角(curvature angles)
nuScenes 訓練集的分布分析。
在圖 2 (a) 中繪制了訓練集中的所有未來 3s 軌跡點。從圖中可以看出,軌跡主要集中在中間部分(直),軌跡主要是直線,或曲率非常小的曲線。
航向角表示相對于當前時間的未來行駛方向,而曲率角反映了車輛的轉(zhuǎn)彎速度。如圖 2 (b) 和 (c) 所示,近 70% 的航向角和曲率角分別位于 -0.2 到 0.2 和 -0.02 到 0.02 弧度的范圍內(nèi)。這一發(fā)現(xiàn)與從軌跡點分布中得出的結(jié)論是一致的。
基于上述對軌跡點、航向角和曲率角分布的分析,本文認為在 nuScenes 訓練集中,自車傾向于沿直線前進,在短時間范圍內(nèi)行駛時以小角度前進。
Occupancy map 的不同網(wǎng)格大小引起 GT 軌跡會發(fā)生碰撞
在計算碰撞率時,現(xiàn)有方法的常見做法是將車輛和行人等對象投影到鳥瞰圖 (BEV) 空間中,然后將它們轉(zhuǎn)換為圖中的占用區(qū)域。而這就是精度損失之處,我們發(fā)現(xiàn)一小部分 GT 軌跡樣本(約2%)也與占用網(wǎng)格中的障礙物重疊,但自車在收集數(shù)據(jù)時實際上不會與其他任何對象發(fā)生碰撞,這導致碰撞被錯誤檢測。當 ego 車輛接近某些對象時會導致錯誤的碰撞,例如小于單個 Occupancy map 像素的尺寸。
圖三展示了這種現(xiàn)象的示例,以及兩種不同網(wǎng)格大小的地面實況軌跡的碰撞檢測結(jié)果。橙色是可能被誤檢為碰撞的車輛,在右下角所示的較小網(wǎng)格尺寸(0.1m)下,評估系統(tǒng)正確地將 GT 軌跡識別為不碰撞,但在右下角較大的網(wǎng)格尺寸(0.5m)下,會出現(xiàn)錯誤的碰撞檢測。
在觀察占用網(wǎng)格大小對軌跡碰撞檢測的影響后,我們測試了網(wǎng)格大小為0.6m。nuScenes 訓練集有 4.8% 的碰撞樣本,而驗證集有 3.0%。值得一提的是,當我們之前使用 0.5m 的網(wǎng)格大小時,驗證集中只有 2.0% 的樣本被錯誤分類為碰撞。這再次證明了當前評估碰撞率的方法不夠魯棒和準確的。
作者總結(jié):本文的主要目的是提出我們的觀察結(jié)果,而不是提出一個新的模型。盡管我們的模型在 nuScenes 數(shù)據(jù)集上表現(xiàn)良好,但我們承認它只是一個不切實際的玩具,無法在現(xiàn)實世界中發(fā)揮作用。在沒有自車狀態(tài)的情況下駕駛是一項難以克服的挑戰(zhàn)。盡管如此,我們希望我們的見解將促進該領(lǐng)域的進一步研究,對端到端自動駕駛的進步能夠重新評估。
5. 文章評價
這篇文章是對近期端到端自動駕駛在 nuScenes 數(shù)據(jù)集上評測的一次正本清源。不論是隱式端到端直接出 Planning 信號,還是顯式端到端有中間環(huán)節(jié)的輸出,很多都是在 nuScenes 數(shù)據(jù)集上評測的 Planning 指標,而 Baidu 這篇文章指出這種評測并不靠譜。這種文章其實還蠻有意思,發(fā)出來其實是打了很多同行的臉,但是也是在積極地推動行業(yè)往前走,或許端到端不用做到 Planning(感知預測端到端即可),或許大家在評估性能的時候多做一些閉環(huán)測試(CARLA 模擬器等),能夠更好地推動自動駕駛社區(qū)的進步,能夠把論文落到實車上。自動駕駛這條路,還是任重而道遠~
參考
- ^ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning
- ^Planning-oriented Autonomous Driving
- ^VAD: Vectorized Scene Representation for Efficient Autonomous Driving
原文鏈接:https://mp.weixin.qq.com/s/skNDMk4B1rtvJ_o2CM9f8w