關(guān)于自動駕駛,尤其是端到端自動駕駛:到底有哪些可能的量產(chǎn)技術(shù)路線?
0.1 什么是端到端?
首先定義端到端,當(dāng)然有很多說法。我覺得,起碼說相對于分階段而言,規(guī)劃不只是根據(jù)感知和預(yù)測的結(jié)果,而是其隱特征。進一步說,在前傳和反傳,planning可以直接觸及輸入信息。
0.2 為什么做端到端?
① 優(yōu)勢一:應(yīng)對場景更多樣;
② 優(yōu)勢二:上游出錯的結(jié)果,不一定影響下游的planning;比如,如果看tesla的有些視頻,就是這樣,明顯感知出錯了,不影響planning;
③ 優(yōu)勢三,性能天花板夠高,模型設(shè)計空間大:比如可以和大模型結(jié)合;比如,可以和無監(jiān)督訓(xùn)練結(jié)合。因為,無監(jiān)督,說明特征無傾向;數(shù)據(jù)量夠大,說明特征泛化好。那分階段的,一般是有監(jiān)督訓(xùn)練,當(dāng)然也可以無監(jiān)督做個backbone,但還是需要有監(jiān)督再調(diào);
1、端到端技術(shù)路線劃分及代表工作
① 直接端到端:就是說,不需要中間感知預(yù)測模塊,比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer;可能需要監(jiān)督,也可能不需要監(jiān)督,但是,都沒有中間模塊了;
② 模塊化端到端:以UniAD為代表,F(xiàn)usionAD,VAD,GenAD,都是;
③ 大語言模型路線:drive like a human, driveGPT4, LMDrive, EMMA,Senna;我認為是,這條路線在NLP和多模態(tài)的成功,具有啟發(fā)意義;
④ 基于world model的路線:world models,dreamer-V1\V2, sem2,mile,driveworld, 這些的狀態(tài)轉(zhuǎn)移,其實就是world model。但是現(xiàn)在所說的world model,比如gaia-1, drivewm, 其實可以和端到端模型結(jié)合,比如drivewm做了一個比較粗糙的結(jié)合。我認為是趨勢,是未來。
⑤ 基于Diffusion的路線:以DiffusionDrive為例;
按照學(xué)習(xí)范式,又可分為模仿學(xué)習(xí)和強化學(xué)習(xí),這兩個并不沖突,可以一起用。
以上,僅為梳理方便而人為劃分,僅供參考。角度不同,劃分也不同。我認為,每個研究領(lǐng)域都有其自己的生命力,不可硬性分為幾個set的。
2、路線分析
2.1 直接端到端和模塊化端到端的對比
直接端到端,由傳感器信息直接映射到action或者軌跡。由于action或軌跡都太稀疏,訓(xùn)練較為困難,因此,這條路線一般輔以感知的監(jiān)督訓(xùn)練,如bevseg、occ、車道線、紅綠燈等。比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer.
直接端到端(以mile舉例)
模塊化端到端,傳感器信息,經(jīng)過若干感知模塊,映射為action或軌跡。不同模塊間可傳梯度,共同訓(xùn)練。其類似于傳統(tǒng)的分階段自動駕駛,不過是把不同階段通過transformer中的query機制連接. 以UniAD為代表,F(xiàn)usionAD,VAD,GenAD,都是;
模塊化端到端(以UniAD舉例)
BevPlanner里面的對比圖(上面是模塊化端到端,下面是直接端到端)
對比可知,由于現(xiàn)有直接端到端也會輔以感知的監(jiān)督,直接端到端和模塊化端到端的共同點是都需要感知監(jiān)督。不同的是,直接端到端是并聯(lián)形式,也就是基于共同的表征feature map,來學(xué)習(xí)感知和規(guī)劃;模塊化端到端的主線是串聯(lián)形式,還是依賴于感知結(jié)果的。
因此,我認為是直接端到端的天花板更高,而模塊化端到端更好訓(xùn)練一些。因為模塊化端到端的中間模塊,就是通過對應(yīng)的感知,釋加顯示的約束,減小求解空間,那這帶來的好處就是好訓(xùn)練,不好就是可能把更有效的規(guī)劃結(jié)果給約束掉了。雖然直接端到端也輔以感知,但畢竟是隱式的,也就是感知是為了學(xué)習(xí)feature map, 規(guī)劃還是直接基于feature map的。
ICLR2025在投論文 DriveTransformer,感知、預(yù)測、規(guī)劃并聯(lián)輸出
我認為這兩條路線,沒有本質(zhì)區(qū)別,只是技術(shù)發(fā)展的一個順序:模塊化更好訓(xùn),但最終收斂到直接端到端。但達到更好效果,還有不少工作要做。
2.2 基于VLM或LLM的端到端方案
比如drive like a human, driveGPT4, LMDrive, EMMA,Senna。
首先,我覺得VLM或LLM是有用的。
因為LLM或VLM,復(fù)雜場景理解、推理能力,這是很強的。另外一方面,在自動駕駛里,對于軌跡解釋、VQA等,可能只能用VLM這樣的技術(shù)來做。
但是,具體怎么用?是直接替代模塊化端到端,還是和他們結(jié)合?我認為是后者。
VLM擅長場景理解和推理。所以在復(fù)雜場景,模塊化端到端可能就傻眼了;VLM呢,泛化能力強,還能有個基本的場景理解。所以這些場景,VLM出決策建議,或者粗軌跡給模塊化的端到端,或者直接給下游,應(yīng)該是很有用的。
(1)雙流架構(gòu)的模型:
也就是一個運行快的模型,和一個運行慢的模型,并行運行;至于二者怎么分工和交互,每個工作各有所長,這個細節(jié)可以在討論。相關(guān)工作,比如 DriveVLM、LeapAD、AsyncDriver。On the road雖然沒做,但在future work中提到了感知部分需要融合傳統(tǒng)方案和VLM方案的雙流構(gòu)思。Senna是做端到端規(guī)劃,其邏輯和思想,與On the road一致。On the road和Senna都認為,VLM適合粗粒度的場景理解和推理,應(yīng)結(jié)合具體任務(wù)的模型,實現(xiàn)專家模型泛化能力的增強。我個人非常贊同這個觀點。
2024.03, DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
2024.05, Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving (LeapAD)
2024.06, Asynchronous Large Language Model Enhanced Planner for Autonomous Driving,和DriveVLM不同的是:這里的兩個系統(tǒng)是做自適應(yīng)融合,而DriveVLM是做switch.
2023.11, On the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent的conclusion部分, 總結(jié)的特別好:VLM適合粗粒度的場景理解和推理,可和具體任務(wù)模型(專家模型)結(jié)合,發(fā)揮二者優(yōu)勢。
2024.10,Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving
(2)3D信息:
有幾篇工作,支撐需要3D信息的觀點。至于這個3D,是顯式的監(jiān)督信息帶來的,還是2D自監(jiān)督帶來的(如dinov2),是可以討論的。比如"Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? "、”Language-Image Models with 3D Understanding(Cube-LLM)“、”O(jiān)n the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent“。前兩篇,是正向支撐,證明了加了3D比較好;第三篇是反向支撐,證明沒有3D的定位和空間推理能力弱。
2024.05, "Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?
2024.05, Language-Image Models with 3D Understanding(Cube-LLM)
(3)總結(jié):
總的來說,這條路線的發(fā)展趨勢可能是:①和非大語言模型的方案形成雙流架構(gòu);② 補充3D信息。
此外,On the Road with GPT-4V 和 Image Textualization這兩篇論文都提到,現(xiàn)在VLM對環(huán)境的感知,屬于粒度比較粗的場景理解。
當(dāng)然,如 Image Textualization這樣的方法,正在彌補VLM在細粒度問題上的不足。這條路線值得一直關(guān)注。
2.3 基于world model的端到端路線
World Model分為兩類:端到端自動駕駛模型中的world model,數(shù)據(jù)生成中的world model。
world model的定義:
2018, World Models
World Model要具備三個屬性:預(yù)測、表征、可控。
(1)端到端自動駕駛模型中的world model
用于開車:探討世界模型的集成如何使自動駕駛汽車能夠預(yù)測并制定行動策略?
比如早期的world models,dreamr-V1, dream-V2, sem2, Fiery,mile, 近期的DriveWorld,以Mile為代表:
https://wayve.ai/thinking/learning-a-world-model-and-a-driving-policy/
但是這條路線,好像是用到機器人的偏多,,,用到智駕有一個明顯問題:累計誤差。
目前,智駕領(lǐng)域的World Model,一般指基于action條件的駕駛場景數(shù)據(jù)生成。
(2)數(shù)據(jù)生成中的world model
用于數(shù)據(jù)生成和駕駛行為理解:corner case的數(shù)據(jù)生成,模型或人類駕駛行為的理解
以GAIA-1為代表:
https://wayve.ai/thinking/scaling-gaia-1/
2023.09,GAIA-1
(3)二者的統(tǒng)一:Foundation Model
2024.05, DriveWorld, 把Occ預(yù)測和action規(guī)劃合二為一
Mile, 其實也是生成和規(guī)劃合二為一的
將生成和規(guī)劃合二為一的,基本都可以作為foundation model。這類工作有個共性,就是生成的對象是有語義信息和幾何信息的。按道理,也只有這樣才能做規(guī)劃。比如,Driveworld是生成Occ; Mile是生成BevSeg圖。
值得說明,Mile本身不是Foundation model,但其范式非常具備自動駕駛Foundation Model的潛力。Mile是一篇非常好的學(xué)術(shù)工作,指的不是性能好,而是啟發(fā)性強。后期很多端到端的工作,都有Mile的影子。DriveWorld里的MSSM和Mile也類似。
(4)總結(jié)world model的用處:
第一個是:端到端出planning或action
第二個是:數(shù)據(jù)生成,可控數(shù)據(jù)生成,corner case數(shù)據(jù)生成;給訓(xùn)練感知或端到端自動駕駛模型用;
第三個是:真實場景的閉環(huán)仿真系統(tǒng),采集數(shù)據(jù)、評估模型、駕駛行為理解;
第四個是:Foundation Model。也就是基于這個模型,做一系列下游任務(wù)。這種范式的工作并不多,代表性的是DriveWorld。個人猜測特斯拉是基于worldmodel,,,因為tesla這么大的算力,我想不是訓(xùn)練模塊化端到端,也不是訓(xùn)練VLM,,只有world model匹配如此大算力。僅為個人猜測。
個人認為:雖然這兩年是模塊化端到端和VLM端到端熱鬧,過兩年可能就是world model了;world model是非常具備潛力的方向,端到端可以看做是world model的子集。
2.4 基于Diffusion的端到端路線
這方面看的不多,以DiffusionDrive舉例
Motivation:擴散模型已被證明是機器人領(lǐng)域一種強大的生成決策策略;而擴散本身是連續(xù)空間的問題,和軌跡規(guī)劃更契合,但Diffusion用于規(guī)劃,不能實時;
- 直接把Transfuser里的planning decoder換成diffusion,有兩個問題:模式坍塌、時間太長;
- 因此提出,Truncated Diffusion:
① 添加anchor的概念,基于anchor做擴散;
② 前向擴散,只添加小部分高斯噪聲,不要到全部是高斯噪聲;
③ 其他細節(jié):前向diffusion steps=50,反向denoising steps=2。
個人認為有兩個地方疑惑:
- 消融實驗,無從驗證diffusion真正起到的作用;
- 為什么要用diffusion做規(guī)劃?沒有論述。個人認為,軌跡規(guī)劃,本身可以看出是分布的問題,用Diffusion合情合理;但總感覺,殺雞用牛刀,diffusion更適合分布復(fù)雜的情況,如圖像生成、語音生成,而對于軌跡規(guī)劃,可能不能凸顯出diffusion的優(yōu)勢。
補充:基于Diffusion的方法,和前面所說的直接端到端、模塊化端到端,甚至基于world model的端到端,不沖突,是結(jié)合使用的。簡單說,就是把一步回歸改為多步回歸。
3、總結(jié)
整體來說,這幾條路線,統(tǒng)一大于對立。