入行端到端自動駕駛,今年必讀的十篇最前沿論文
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
End to End methods for Autonomous Driving
近幾年,自動駕駛技術(shù)的發(fā)展可謂是日新月異。從2021年的BEV+Transformer范式到2022年的Occupancy網(wǎng)絡(luò),再到2023年以來,“端到端”思路被炒得火熱,如今各大廠商幾乎都推出了自己的做端到端系統(tǒng):2023年8月特斯拉發(fā)布FSD V12;2024年4月商湯絕影發(fā)布面向量產(chǎn)的端到端自動駕駛解決方法UniAD;2024年5月,百度發(fā)布Apollo ADFM作為支持L4級別自動駕駛的大模型;2024年5月,小鵬汽車也發(fā)布自己的端到端大模型包含感知大模型XNet+規(guī)控大模型XPlanner+大語言模型XBrain三個部分……
不論是主機廠還是智駕解決方案供應(yīng)商,每一家都有自己的端到端算法,但是到底什么是端到端?業(yè)內(nèi)一直在討論,沒有一個明確的定義。但是筆者認為,來自大佬王乃巖的知乎回答,可能可以給讀者們提供一些思考。簡單總結(jié)就是:輸入各種傳感器的數(shù)據(jù),可以直接輸出控制信號的或者行駛軌跡的,可以稱之為狹義端到端;而廣義端到端可以認為是提供了一種對于感知信息(也許是隱式)的全面表示,能夠自動地無損地作用于PnC的模型。
對于我們自動駕駛從業(yè)人員來說,follow新的技術(shù),一直是我們的工作之一。今天筆者就帶來一份詳細的端到端自動駕駛論文的總結(jié),供大家學習入門。
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning
論文鏈接:https://arxiv.org/pdf/2207.07601
論文時間:2022.7
論文作者:Shengchao Hu, Li Chen, Penghao Wu, et al.
所屬團隊:上海交通大學人工智能實驗室,上海市人工智能實驗室,加利福尼亞州圣地亞哥分校,et al.
這篇論文提出了一個名為ST-P3的端到端視覺基礎(chǔ)自動駕駛系統(tǒng),旨在通過空間-時間特征學習來提升自動駕駛?cè)蝿?wù)中的感知、預測和規(guī)劃性能?,F(xiàn)有的自動駕駛范式通常采用多階段分散的流水線任務(wù),但這種方法的缺點在于各個階段間可能存在信息損失和不一致性。為了克服這些問題,ST-P3采用了一種一體化的方法,直接從原始傳感器數(shù)據(jù)生成規(guī)劃路徑或控制信號,從而在整個網(wǎng)絡(luò)中同時優(yōu)化特征表示。ST-P3系統(tǒng)的核心在于其空間-時間特征學習方案,該方案通過三個主要的技術(shù)改進來增強特征學習:自我中心對齊累積技術(shù)(Ego-centric Aligned Accumulation):在感知階段,該技術(shù)通過預測深度信息將多視角相機輸入的特征轉(zhuǎn)換到3D空間,并在變換到鳥瞰圖(BEV)之前,將過去和當前的3D特征進行累積,以保留幾何信息。雙通道建模(Dual Pathway Modelling):在預測階段,ST-P3不僅考慮當前狀態(tài)的不確定性,還結(jié)合了過去的運動變化,通過兩個通道來增強對未來場景的預測能力。先驗知識精細化單元(Prior-Knowledge Refinement):在規(guī)劃階段,ST-P3利用從早期網(wǎng)絡(luò)階段獲得的中間表示來規(guī)劃安全舒適的軌跡,并引入一個精細化模塊來進一步優(yōu)化軌跡,考慮如交通信號燈等視覺元素。
Planning-oriented Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2212.10156
論文時間:2023.3
論文作者:Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, et al.
所屬團隊:OpenDriveLab, OpenGVLab,上海人工智能實驗室, 武漢大學, 商湯科技研究院
在傳統(tǒng)的自動駕駛系統(tǒng)中,感知、預測和規(guī)劃任務(wù)通常由獨立的模型分別處理,這種模塊化的方法雖然簡化了研發(fā)流程,卻存在著信息在模塊間傳遞時丟失、誤差累積以及特征對齊問題。UniAD通過一個統(tǒng)一的網(wǎng)絡(luò)將這些任務(wù)整合在一起,優(yōu)化了任務(wù)間的信息流通和協(xié)調(diào),從而顯著提升了整個系統(tǒng)的性能和可靠性。UniAD的核心是其端到端的設(shè)計,它將多個關(guān)鍵任務(wù)——包括目標檢測、多目標跟蹤、在線地圖構(gòu)建、運動預測、占用預測和規(guī)劃——封裝在一個網(wǎng)絡(luò)中。這種設(shè)計允許系統(tǒng)從全局視角捕獲駕駛場景的語義和幾何信息,并通過統(tǒng)一的查詢接口實現(xiàn)不同任務(wù)間的有效通信。例如,感知模塊的輸出可以直接用于預測模塊,而預測結(jié)果又可以指導規(guī)劃器制定安全有效的行駛策略。從實現(xiàn)的角度說,UniAD采用了Transformer解碼器結(jié)構(gòu),利用自注意力機制來處理感知和預測任務(wù)中的序列化數(shù)據(jù)。它通過TrackFormer進行目標的檢測和跟蹤,通過MapFormer實現(xiàn)在線地圖構(gòu)建,通過MotionFormer預測其他車輛和行人的未來運動軌跡,通過OccFormer預測未來場景的占用網(wǎng)格圖。最終,規(guī)劃器結(jié)合這些信息,使用非線性優(yōu)化策略生成最終的行駛軌跡,確保自動駕駛車輛能夠安全地導航。
ReasonNet: End-to-End Driving with Temporal and Global Reasoning
論文鏈接:https://arxiv.org/pdf/2305.10507
論文時間:2023.5
論文作者:Hao Shao, Letian Wang, Ruobing Chen, et al.
所屬團隊:商湯科技研究院, 多倫多大學, 香港中文大學 MMLab, 上海人工智能實驗室
ReasonNet是為解決自動駕駛車輛在城市密集交通場景中部署的挑戰(zhàn)而設(shè)計的端到端駕駛框架。該框架特別關(guān)注于預測場景的未來演變和對象的未來行為,以及處理罕見的不利事件,如遮擋對象的突然顯現(xiàn)。這些能力對于確保自動駕駛車輛能夠安全、可靠地運行至關(guān)重要。框架的核心在于其兩個創(chuàng)新的推理模塊:時序推理和全局推理。時序推理模塊通過分析和融合不同幀之間的特征,有效地處理了對象隨時間的運動和相互作用,同時維護了一個記憶庫來存儲和利用歷史特征,這有助于對遮擋對象進行追蹤和預測。全局推理模塊則進一步增強了框架的能力,通過模擬對象與環(huán)境之間的交互和關(guān)系,來識別和處理不利事件,尤其是那些可能被遮擋的對象,從而提高了整體的感知性能。為了全面評估框架的性能,研究者開發(fā)了DriveOcclusionSim,這是一個包含多種遮擋事件的駕駛模擬基準測試。ReasonNet的成功不僅體現(xiàn)在理論上,更在于其在實際模擬環(huán)境中的卓越表現(xiàn)。該框架通過多任務(wù)學習,聯(lián)合目標包括對象檢測、占用預測、交通標志預測和路徑點預測,提高了對復雜交通場景的全面理解。此外,框架中的感知模塊能夠處理和融合來自多個傳感器的數(shù)據(jù),生成對導航至關(guān)重要的鳥瞰圖特征??刂撇呗詣t利用預測的路徑點和交通標志來指導自動駕駛車輛的行駛。
FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2308.01006
論文時間:2023.8
論文作者:Tengju Ye2, Wei Jing3, Chunyong Hu, et al.
所屬團隊:西湖大學,Udeer.ai,菜鳥網(wǎng)絡(luò),阿里巴巴集團
這篇論文提出了一個名為FusionAD的新型自動駕駛多模態(tài)融合神經(jīng)網(wǎng)絡(luò)框架,首次探索了如何將相機和激光雷達的信息融合,以端到端的方式優(yōu)化預測和規(guī)劃任務(wù)。具體來說,研究者首先構(gòu)建了一個基于Transformer的多模態(tài)融合網(wǎng)絡(luò),有效地產(chǎn)生基于融合的特征。與基于相機的端到端方法UniAD相比,F(xiàn)usionAD進一步建立了一個融合輔助的模態(tài)感知預測和狀態(tài)感知規(guī)劃模塊(FMSPnP),該模塊利用多模態(tài)特征進行優(yōu)化。在nuScenes數(shù)據(jù)集上進行的廣泛實驗表明,F(xiàn)usionAD在感知任務(wù)(如檢測和跟蹤)上平均提高了15%,在占用預測精度上提高了10%,在平均位移誤差(ADE)分數(shù)上從0.708降低到0.389,并減少了碰撞率從0.31%到0.12%。這些結(jié)果表明,F(xiàn)usionAD在預測和規(guī)劃任務(wù)上達到了當時最先進的性能,同時在中間感知任務(wù)上也保持了競爭力。FusionAD的核心貢獻在于提出了一種基于BEV(鳥瞰圖)融合的多傳感器、多任務(wù)端到端學習方法,與僅基于相機的BEV方法相比,大大改進了結(jié)果。研究者提出的FMSPnP模塊結(jié)合了模態(tài)自注意力和細化網(wǎng)絡(luò),用于預測任務(wù),以及放松的碰撞損失和與矢量化自我信息的融合,用于規(guī)劃任務(wù)。實驗研究表明,F(xiàn)MSPnP提高了預測和規(guī)劃結(jié)果。
VAD: Vectorized Scene Representation for Efficient Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2303.12077
論文時間:2023.8
論文作者:Bo Jiang, Shaoyu Chen, Qing Xu, et al.
所屬團隊:華中科技大學,地平線
VAD通過將駕駛場景建模為完全矢量化的表示來實現(xiàn)高效和安全的軌跡規(guī)劃。與依賴于密集光柵化場景表示(例如語義地圖、占用地圖等)的傳統(tǒng)方法相比,VAD利用矢量化的智能體運動和地圖元素作為明確的實例級規(guī)劃約束,不僅提高了規(guī)劃的安全性,還顯著提升了計算效率。在nuScenes數(shù)據(jù)集上的實驗表明,VAD在減少規(guī)劃誤差和碰撞率方面取得了突破性進展,同時大幅提高了推理速度,這對于自動駕駛系統(tǒng)的實際部署至關(guān)重要。VAD的核心優(yōu)勢在于其創(chuàng)新的矢量化規(guī)劃約束,這些約束包括自車的碰撞約束、自我邊界越界約束和自我車道方向約束,它們共同作用于規(guī)劃軌跡,確保了自動駕駛車輛在復雜交通環(huán)境中的安全性和合理性。此外,VAD采用了BEV(鳥瞰圖)查詢和agent查詢,通過注意力機制隱式學習場景特征,并利用這些特征指導規(guī)劃決策。VAD的端到端學習框架允許模型直接從傳感器數(shù)據(jù)中學習,無需依賴預先構(gòu)建的地圖或復雜的后處理步驟,這一點在提高規(guī)劃速度和減少計算資源消耗方面發(fā)揮了關(guān)鍵作用。
VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning
論文鏈接:https://arxiv.org/pdf/2402.13243
論文時間:2024.2
論文作者:Shaoyu Chen, Bo Jiang, Hao Gao, Bencheng Liao, et al.
所屬團隊:華中科技大學,地平線
VADv2是一篇探索概率規(guī)劃在端到端自動駕駛中的應(yīng)用的研究論文。這項工作的核心是解決傳統(tǒng)確定性規(guī)劃方法在處理規(guī)劃不確定性時的不足,特別是在面對非凸可行解空間時的挑戰(zhàn)。本文提出的模型采用概率規(guī)劃范式,將規(guī)劃策略視為環(huán)境條件化的非平穩(wěn)隨機過程,通過從大規(guī)模駕駛演示中學習,來擬合連續(xù)規(guī)劃動作空間的概率分布。輸入是多視圖圖像序列,這些圖像以流式傳輸?shù)姆绞奖晦D(zhuǎn)換成環(huán)境token嵌入,模型輸出動作的概率分布,并從中采樣一個動作來控制車輛。這樣的概率規(guī)劃方法具有兩個顯著優(yōu)勢。首先,概率規(guī)劃能夠?qū)γ總€動作與環(huán)境之間的相關(guān)性進行建模,與只能為目標規(guī)劃動作提供稀疏監(jiān)督的確定性建模不同,概率規(guī)劃可以為規(guī)劃詞匯表中的所有候選動作提供監(jiān)督,從而帶來更豐富的監(jiān)督信息。其次,概率規(guī)劃在推理階段非常靈活,能夠輸出多模態(tài)規(guī)劃結(jié)果,并且易于與基于規(guī)則和基于優(yōu)化的規(guī)劃方法相結(jié)合。此外,我們可以靈活地將其他候選規(guī)劃動作添加到規(guī)劃詞匯表中,并評估它們,因為我們對整個動作空間進行了分布建模。VADv2的框架包括場景編碼器、概率規(guī)劃模塊和訓練過程。場景編碼器將傳感器數(shù)據(jù)轉(zhuǎn)換為實例級token嵌入,包括地圖token、智能體token、交通元素token和圖像token。概率規(guī)劃模塊則利用大規(guī)模駕駛演示和場景約束來監(jiān)督預測的分布。訓練過程中,VADv2采用分布損失、沖突損失和場景token損失三種監(jiān)督信號,以學習從駕駛演示中得到的概率分布。
SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
論文鏈接:https://arxiv.org/pdf/2405.19620
論文時間:2024.5
論文作者:Wenchao Sun, Xuewu Lin, Yining Shi, et al.
所屬團隊:清華大學,地平線
這篇論文提出了SparseDrive,一種端到端的自動駕駛系統(tǒng),旨在解決現(xiàn)有自動駕駛模型在規(guī)劃安全性和效率方面的不足。傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化設(shè)計,將感知、預測和規(guī)劃等任務(wù)解耦為獨立的模塊,這導致了信息丟失和誤差累積。而端到端的方法雖然在優(yōu)化時能夠全面考慮,但其性能和效率通常不盡人意,特別是在規(guī)劃安全方面。SparseDrive通過探索稀疏場景表示和重新審視端到端自動駕駛的任務(wù)設(shè)計,提出了一種新穎的范式。具體來說,SparseDrive由一個對稱的稀疏感知模塊和一個并行運動規(guī)劃器組成。稀疏感知模塊通過對稱的模型架構(gòu)統(tǒng)一了檢測、跟蹤和在線地圖構(gòu)建任務(wù),學習駕駛場景的完全稀疏表示。并行運動規(guī)劃器則利用從稀疏感知中獲得的語義和幾何信息,同時進行運動預測和規(guī)劃,產(chǎn)生多模態(tài)軌跡,并采用分層規(guī)劃選擇策略,包括碰撞感知重分模塊,以選擇合理且安全的軌跡作為最終規(guī)劃輸出。SparseDrive的設(shè)計有效提高了端到端自動駕駛的性能和效率。在nuScenes數(shù)據(jù)集上的實驗結(jié)果表明,SparseDrive在所有任務(wù)的性能上都大幅超越了先前的最先進方法。此外,SparseDrive的碰撞感知重分模塊和多模態(tài)規(guī)劃方法,使得規(guī)劃器能夠基于運動預測結(jié)果評估規(guī)劃軌跡的碰撞風險,并據(jù)此調(diào)整軌跡的得分,從而確保了規(guī)劃的安全性。SparseDrive的這些設(shè)計選擇通過廣泛的消融實驗得到了驗證,證明了其在提高規(guī)劃性能方面的有效性。
Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation
論文鏈接:https://arxiv.org/pdf/2406.06978
論文時間:2024.6
論文作者:Zhenxin Li, Kailin Li, Shihao Wang, et al.
所屬團隊:英偉達,復旦大學,華東師范大學,北京理工大學,南京大學,南開大學
Hydra-MDP是一篇探討端到端自動駕駛多模態(tài)規(guī)劃的論文,提出了一種新穎的多教師模型范式,通過從人類和基于規(guī)則的教師那里進行知識蒸餾來訓練學生模型。通過一個多頭解碼器來實現(xiàn)多模態(tài)規(guī)劃,該解碼器學習針對不同評估指標量身定制的多樣化軌跡候選。與傳統(tǒng)的端到端方法不同,Hydra-MDP不依賴于不可微的后處理過程,而是利用基于規(guī)則的教師的知識,以端到端的方式學習環(huán)境如何影響規(guī)劃。Hydra-MDP的解決方案包括感知網(wǎng)絡(luò)和軌跡解碼器兩個主要部分。感知網(wǎng)絡(luò)基于官方挑戰(zhàn)基線Transfuser構(gòu)建,利用圖像和激光雷達數(shù)據(jù)提取環(huán)境token,這些tokens編碼了豐富的語義信息。軌跡解碼器則采用固定規(guī)劃詞匯表來離散化連續(xù)動作空間,并通過多層變換器編碼器和解碼器結(jié)合環(huán)境線索。論文的關(guān)鍵創(chuàng)新之一是多目標Hydra蒸餾策略,通過兩步過程擴展學習目標:首先,對整個訓練數(shù)據(jù)集的規(guī)劃詞匯進行離線模擬;其次,在訓練過程中引入模擬得分的監(jiān)督。這種策略將規(guī)則基礎(chǔ)的駕駛知識蒸餾到端到端規(guī)劃器中,提升了閉環(huán)性能。
End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation
論文鏈接:https://arxiv.org/pdf/2406.17680
論文時間:2024.6
論文作者:Mingzhe Guo, Zhipeng Zhang, et al.
所屬團隊:北京交通大學,卡爾動力KARGOBOT
這篇論文提出了一種名為UAD(Unsupervised pretext task for end-to-end Autonomous Driving)的新方法,旨在解決當前端到端自動駕駛(E2EAD)模型在環(huán)境感知和預測任務(wù)中對昂貴的模塊化和手動3D標注的依賴問題。UAD的核心創(chuàng)新在于引入了一個無監(jiān)督的前置任務(wù),通過預測駕駛場景中的角空間對象性和時序動態(tài)來模擬環(huán)境,從而消除了對手動標注的需求。此外,UAD采用了自監(jiān)督的訓練策略,通過學習在不同增強視圖下預測軌跡的一致性,增強了在轉(zhuǎn)向場景中的規(guī)劃魯棒性。UAD方法的提出基于對現(xiàn)有E2EAD模型的觀察,這些模型通常模仿傳統(tǒng)駕駛棧中的模塊化架構(gòu),需要大量高質(zhì)量的3D標注數(shù)據(jù)來監(jiān)督感知和預測子任務(wù)。這種設(shè)計雖然取得了突破性進展,但存在明顯的缺陷:一是對大規(guī)模訓練數(shù)據(jù)的擴展構(gòu)成了重大障礙;二是每個子模塊在訓練和推理中都需要大量的計算開銷。為了解決這些問題,UAD框架采用了一個新穎的角度感知預文本設(shè)計,通過預測BEV空間中每個扇區(qū)區(qū)域的對象性來獲取空間知識,并通過自回歸機制預測未來狀態(tài)來捕獲時序信息。在實驗中,UAD在nuScenes數(shù)據(jù)集上取得了最佳的開放環(huán)路評估性能,并在CARLA模擬器中展示了穩(wěn)健的閉環(huán)路駕駛質(zhì)量。
DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba
論文鏈接:https://arxiv.org/pdf/2408.03601
論文時間:2024.8
論文作者:Chengran Yuan, Zhanqi Zhang, Jiawei Sun, et al.
所屬團隊:新加坡國立,Moovita
這篇論文介紹了一種叫作DRAMA的新型端到端運動規(guī)劃器,它基于Mamba模型,旨在解決自動駕駛領(lǐng)域中的運動規(guī)劃問題。運動規(guī)劃是自動駕駛車輛的核心能力之一,它負責生成在復雜和高度動態(tài)環(huán)境中既安全又可行的軌跡。然而,由于其他道路使用者的意圖預測、交通標志和信號的理解、道路拓撲結(jié)構(gòu)的復雜性等因素,實現(xiàn)可靠和高效的軌跡規(guī)劃是一個挑戰(zhàn)。DRAMA通過融合相機、激光雷達鳥瞰圖(BEV)圖像以及自車狀態(tài)信息,生成一系列未來自車軌跡。與傳統(tǒng)基于Transformer的方法相比,這些方法由于注意力機制的二次復雜度而在序列長度上計算量大,DRAMA通過減少計算密集度的注意力復雜度,展現(xiàn)出處理日益復雜場景的潛力。利用Mamba融合模塊,DRAMA高效且有效地融合了相機和激光雷達模態(tài)的特征。此外,論文還引入了Mamba-Transformer解碼器,增強了整體規(guī)劃性能,這一模塊普遍適用于任何基于Transformer的模型,尤其是對于長序列輸入的任務(wù)。論文還引入了一種新穎的特征狀態(tài)丟棄(Feature State Dropout, FSD)機制,該機制通過在訓練和推理時不增加時間的情況下,通過減少有缺陷的傳感器輸入和丟失的自車狀態(tài)的不利影響,提高了規(guī)劃器的魯棒性。具體來說,DRAMA采用了一個編碼器-解碼器架構(gòu),其中編碼器利用多尺度卷積和Mamba融合模塊有效地從相機和激光雷達BEV圖像中提取特征,并通過FSD模塊增強模型的魯棒性。解碼器則采用了Mamba-Transformer解碼層來生成自車的未來軌跡。這種架構(gòu)不僅提高了模型的效率和性能,而且通過減少模型大小和訓練成本,提高了模型的可擴展性和實用性。論文的實驗部分展示了DRAMA在多種場景下的規(guī)劃結(jié)果,包括在沒有明確交通信號控制的情況下準確執(zhí)行停車讓行行人的命令,以及在低速場景中熟練地進行停車操作。