自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于自動駕駛,尤其是端到端自動駕駛:到底有哪些可能的量產(chǎn)技術(shù)路線?

人工智能 新聞
我認為是直接端到端的天花板更高,而模塊化端到端更好訓(xùn)練一些。因為模塊化端到端的中間模塊,就是通過對應(yīng)的感知,釋加顯示的約束,減小求解空間,那這帶來的好處就是好訓(xùn)練,不好就是可能把更有效的規(guī)劃結(jié)果給約束掉了。

0.1 什么是端到端?

首先定義端到端,當(dāng)然有很多說法。我覺得,起碼說相對于分階段而言,規(guī)劃不只是根據(jù)感知和預(yù)測的結(jié)果,而是其隱特征。進一步說,在前傳和反傳,planning可以直接觸及輸入信息。

0.2 為什么做端到端?

① 優(yōu)勢一:應(yīng)對場景更多樣;

② 優(yōu)勢二:上游出錯的結(jié)果,不一定影響下游的planning;比如,如果看tesla的有些視頻,就是這樣,明顯感知出錯了,不影響planning;

③ 優(yōu)勢三,性能天花板夠高,模型設(shè)計空間大:比如可以和大模型結(jié)合;比如,可以和無監(jiān)督訓(xùn)練結(jié)合。因為,無監(jiān)督,說明特征無傾向;數(shù)據(jù)量夠大,說明特征泛化好。那分階段的,一般是有監(jiān)督訓(xùn)練,當(dāng)然也可以無監(jiān)督做個backbone,但還是需要有監(jiān)督再調(diào);

1、端到端技術(shù)路線劃分及代表工作

① 直接端到端:就是說,不需要中間感知預(yù)測模塊,比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer;可能需要監(jiān)督,也可能不需要監(jiān)督,但是,都沒有中間模塊了;

② 模塊化端到端:以UniAD為代表,F(xiàn)usionAD,VAD,GenAD,都是;

③ 大語言模型路線:drive like a human, driveGPT4, LMDrive, EMMA,Senna;我認為是,這條路線在NLP和多模態(tài)的成功,具有啟發(fā)意義;

④ 基于world model的路線:world models,dreamer-V1\V2, sem2,mile,driveworld, 這些的狀態(tài)轉(zhuǎn)移,其實就是world model。但是現(xiàn)在所說的world model,比如gaia-1, drivewm, 其實可以和端到端模型結(jié)合,比如drivewm做了一個比較粗糙的結(jié)合。我認為是趨勢,是未來。

⑤ 基于Diffusion的路線:以DiffusionDrive為例;

按照學(xué)習(xí)范式,又可分為模仿學(xué)習(xí)和強化學(xué)習(xí),這兩個并不沖突,可以一起用。

以上,僅為梳理方便而人為劃分,僅供參考。角度不同,劃分也不同。我認為,每個研究領(lǐng)域都有其自己的生命力,不可硬性分為幾個set的。

2、路線分析

2.1 直接端到端和模塊化端到端的對比

直接端到端,由傳感器信息直接映射到action或者軌跡。由于action或軌跡都太稀疏,訓(xùn)練較為困難,因此,這條路線一般輔以感知的監(jiān)督訓(xùn)練,如bevseg、occ、車道線、紅綠燈等。比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer.

直接端到端(以mile舉例)

直接端到端(以mile舉例)

模塊化端到端,傳感器信息,經(jīng)過若干感知模塊,映射為action或軌跡。不同模塊間可傳梯度,共同訓(xùn)練。其類似于傳統(tǒng)的分階段自動駕駛,不過是把不同階段通過transformer中的query機制連接. 以UniAD為代表,F(xiàn)usionAD,VAD,GenAD,都是;

模塊化端到端(以UniAD舉例)

模塊化端到端(以UniAD舉例)BevPlanner里面的對比圖(上面是模塊化端到端,下面是直接端到端)

BevPlanner里面的對比圖(上面是模塊化端到端,下面是直接端到端)

對比可知,由于現(xiàn)有直接端到端也會輔以感知的監(jiān)督,直接端到端和模塊化端到端的共同點是都需要感知監(jiān)督。不同的是,直接端到端是并聯(lián)形式,也就是基于共同的表征feature map,來學(xué)習(xí)感知和規(guī)劃;模塊化端到端的主線是串聯(lián)形式,還是依賴于感知結(jié)果的。

因此,我認為是直接端到端的天花板更高,而模塊化端到端更好訓(xùn)練一些。因為模塊化端到端的中間模塊,就是通過對應(yīng)的感知,釋加顯示的約束,減小求解空間,那這帶來的好處就是好訓(xùn)練,不好就是可能把更有效的規(guī)劃結(jié)果給約束掉了。雖然直接端到端也輔以感知,但畢竟是隱式的,也就是感知是為了學(xué)習(xí)feature map, 規(guī)劃還是直接基于feature map的。

ICLR2025在投論文 DriveTransformer,感知、預(yù)測、規(guī)劃并聯(lián)輸出

ICLR2025在投論文 DriveTransformer,感知、預(yù)測、規(guī)劃并聯(lián)輸出

我認為這兩條路線,沒有本質(zhì)區(qū)別,只是技術(shù)發(fā)展的一個順序:模塊化更好訓(xùn),但最終收斂到直接端到端。但達到更好效果,還有不少工作要做。

2.2 基于VLM或LLM的端到端方案

比如drive like a human, driveGPT4, LMDrive, EMMA,Senna。

首先,我覺得VLM或LLM是有用的。

因為LLM或VLM,復(fù)雜場景理解、推理能力,這是很強的。另外一方面,在自動駕駛里,對于軌跡解釋、VQA等,可能只能用VLM這樣的技術(shù)來做。

但是,具體怎么用?是直接替代模塊化端到端,還是和他們結(jié)合?我認為是后者。

VLM擅長場景理解和推理。所以在復(fù)雜場景,模塊化端到端可能就傻眼了;VLM呢,泛化能力強,還能有個基本的場景理解。所以這些場景,VLM出決策建議,或者粗軌跡給模塊化的端到端,或者直接給下游,應(yīng)該是很有用的。

(1)雙流架構(gòu)的模型:

也就是一個運行快的模型,和一個運行慢的模型,并行運行;至于二者怎么分工和交互,每個工作各有所長,這個細節(jié)可以在討論。相關(guān)工作,比如 DriveVLM、LeapAD、AsyncDriver。On the road雖然沒做,但在future work中提到了感知部分需要融合傳統(tǒng)方案和VLM方案的雙流構(gòu)思。Senna是做端到端規(guī)劃,其邏輯和思想,與On the road一致。On the road和Senna都認為,VLM適合粗粒度的場景理解和推理,應(yīng)結(jié)合具體任務(wù)的模型,實現(xiàn)專家模型泛化能力的增強。我個人非常贊同這個觀點。

2024.03, DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024.03, DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models2024.05, Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving (LeapAD)

2024.05, Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving (LeapAD)

2024.06, Asynchronous Large Language Model Enhanced Planner for Autonomous Driving,和DriveVLM不同的是:這里的兩個系統(tǒng)是做自適應(yīng)融合,而DriveVLM是做switch.

2023.11, On the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent的conclusion部分, 總結(jié)的特別好:VLM適合粗粒度的場景理解和推理,可和具體任務(wù)模型(專家模型)結(jié)合,發(fā)揮二者優(yōu)勢。

2024.10,Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

2024.10,Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

(2)3D信息:

有幾篇工作,支撐需要3D信息的觀點。至于這個3D,是顯式的監(jiān)督信息帶來的,還是2D自監(jiān)督帶來的(如dinov2),是可以討論的。比如"Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? "、”Language-Image Models with 3D Understanding(Cube-LLM)“、”O(jiān)n the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent“。前兩篇,是正向支撐,證明了加了3D比較好;第三篇是反向支撐,證明沒有3D的定位和空間推理能力弱。

2024.05, "Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

2024.05, "Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?2024.05, Language-Image Models with 3D Understanding(Cube-LLM)

2024.05, Language-Image Models with 3D Understanding(Cube-LLM)

(3)總結(jié):

總的來說,這條路線的發(fā)展趨勢可能是:①和非大語言模型的方案形成雙流架構(gòu);② 補充3D信息。

此外,On the Road with GPT-4V 和 Image Textualization這兩篇論文都提到,現(xiàn)在VLM對環(huán)境的感知,屬于粒度比較粗的場景理解。

當(dāng)然,如 Image Textualization這樣的方法,正在彌補VLM在細粒度問題上的不足。這條路線值得一直關(guān)注。

2.3 基于world model的端到端路線

World Model分為兩類:端到端自動駕駛模型中的world model,數(shù)據(jù)生成中的world model。

world model的定義:

2018, World Models

2018, World Models

World Model要具備三個屬性:預(yù)測、表征、可控。

(1)端到端自動駕駛模型中的world model

用于開車:探討世界模型的集成如何使自動駕駛汽車能夠預(yù)測并制定行動策略?

比如早期的world models,dreamr-V1, dream-V2, sem2, Fiery,mile, 近期的DriveWorld,以Mile為代表:

https://wayve.ai/thinking/learning-a-world-model-and-a-driving-policy/

但是這條路線,好像是用到機器人的偏多,,,用到智駕有一個明顯問題:累計誤差。

目前,智駕領(lǐng)域的World Model,一般指基于action條件的駕駛場景數(shù)據(jù)生成。

(2)數(shù)據(jù)生成中的world model

用于數(shù)據(jù)生成和駕駛行為理解:corner case的數(shù)據(jù)生成,模型或人類駕駛行為的理解

以GAIA-1為代表:

https://wayve.ai/thinking/scaling-gaia-1/

2023.09,GAIA-1

2023.09,GAIA-1

(3)二者的統(tǒng)一:Foundation Model

2024.05, DriveWorld, 把Occ預(yù)測和action規(guī)劃合二為一

2024.05, DriveWorld, 把Occ預(yù)測和action規(guī)劃合二為一Mile, 其實也是生成和規(guī)劃合二為一的

Mile, 其實也是生成和規(guī)劃合二為一的

將生成和規(guī)劃合二為一的,基本都可以作為foundation model。這類工作有個共性,就是生成的對象是有語義信息和幾何信息的。按道理,也只有這樣才能做規(guī)劃。比如,Driveworld是生成Occ; Mile是生成BevSeg圖。

值得說明,Mile本身不是Foundation model,但其范式非常具備自動駕駛Foundation Model的潛力。Mile是一篇非常好的學(xué)術(shù)工作,指的不是性能好,而是啟發(fā)性強。后期很多端到端的工作,都有Mile的影子。DriveWorld里的MSSM和Mile也類似。

(4)總結(jié)world model的用處:

第一個是:端到端出planning或action

第二個是:數(shù)據(jù)生成,可控數(shù)據(jù)生成,corner case數(shù)據(jù)生成;給訓(xùn)練感知或端到端自動駕駛模型用;

第三個是:真實場景的閉環(huán)仿真系統(tǒng),采集數(shù)據(jù)、評估模型、駕駛行為理解;

第四個是:Foundation Model。也就是基于這個模型,做一系列下游任務(wù)。這種范式的工作并不多,代表性的是DriveWorld。個人猜測特斯拉是基于worldmodel,,,因為tesla這么大的算力,我想不是訓(xùn)練模塊化端到端,也不是訓(xùn)練VLM,,只有world model匹配如此大算力。僅為個人猜測。

個人認為:雖然這兩年是模塊化端到端和VLM端到端熱鬧,過兩年可能就是world model了;world model是非常具備潛力的方向,端到端可以看做是world model的子集。

2.4 基于Diffusion的端到端路線

這方面看的不多,以DiffusionDrive舉例

Motivation:擴散模型已被證明是機器人領(lǐng)域一種強大的生成決策策略;而擴散本身是連續(xù)空間的問題,和軌跡規(guī)劃更契合,但Diffusion用于規(guī)劃,不能實時;

  1. 直接把Transfuser里的planning decoder換成diffusion,有兩個問題:模式坍塌、時間太長;
  2. 因此提出,Truncated Diffusion:


① 添加anchor的概念,基于anchor做擴散;

② 前向擴散,只添加小部分高斯噪聲,不要到全部是高斯噪聲;

③ 其他細節(jié):前向diffusion steps=50,反向denoising steps=2。

個人認為有兩個地方疑惑:

  1. 消融實驗,無從驗證diffusion真正起到的作用;
  2. 為什么要用diffusion做規(guī)劃?沒有論述。個人認為,軌跡規(guī)劃,本身可以看出是分布的問題,用Diffusion合情合理;但總感覺,殺雞用牛刀,diffusion更適合分布復(fù)雜的情況,如圖像生成、語音生成,而對于軌跡規(guī)劃,可能不能凸顯出diffusion的優(yōu)勢。


補充:基于Diffusion的方法,和前面所說的直接端到端、模塊化端到端,甚至基于world model的端到端,不沖突,是結(jié)合使用的。簡單說,就是把一步回歸改為多步回歸。

3、總結(jié)

整體來說,這幾條路線,統(tǒng)一大于對立

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-10-30 09:47:00

自動駕駛技術(shù)

2024-04-15 11:40:37

自動駕駛端到端

2024-02-21 09:14:32

端到端自動駕駛

2023-08-24 09:52:44

自動駕駛設(shè)計

2023-03-14 09:40:33

自動駕駛

2023-12-11 10:29:11

自動駕駛系統(tǒng)

2023-01-12 09:25:11

自動駕駛

2021-12-01 10:21:27

自動駕駛技術(shù)人工智能

2024-01-04 09:35:41

自動駕駛端到端

2022-02-17 10:22:17

汽車智能自動駕駛

2023-03-15 11:54:32

無人駕駛系統(tǒng)

2023-10-08 16:13:47

自動駕駛

2022-10-27 10:18:25

自動駕駛

2024-04-17 09:50:28

自動駕駛端到端

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2022-04-06 11:05:25

自動駕駛商業(yè)化馬斯克

2020-01-09 08:42:23

自動駕駛AI人工智能

2023-03-30 09:57:04

2024-06-13 11:36:46

2023-08-05 13:08:54

點贊
收藏

51CTO技術(shù)棧公眾號