自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="y1llv"><tt id="y1llv"><pre id="y1llv"></pre></tt></ruby>

<style id="y1llv"></style>

<sub id="y1llv"><p id="y1llv"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

關(guān)于自動駕駛，尤其是端到端自動駕駛：到底有哪些可能的量產(chǎn)技術(shù)路線？

作者：南木 2025-02-10 10:35:00

人工智能新聞

我認為是直接端到端的天花板更高，而模塊化端到端更好訓(xùn)練一些。因為模塊化端到端的中間模塊，就是通過對應(yīng)的感知，釋加顯示的約束，減小求解空間，那這帶來的好處就是好訓(xùn)練，不好就是可能把更有效的規(guī)劃結(jié)果給約束掉了。

0.1 什么是端到端？

首先定義端到端，當(dāng)然有很多說法。我覺得，起碼說相對于分階段而言，規(guī)劃不只是根據(jù)感知和預(yù)測的結(jié)果，而是其隱特征。進一步說，在前傳和反傳，planning可以直接觸及輸入信息。

0.2 為什么做端到端？

① 優(yōu)勢一：應(yīng)對場景更多樣；

② 優(yōu)勢二：上游出錯的結(jié)果，不一定影響下游的planning；比如，如果看tesla的有些視頻，就是這樣，明顯感知出錯了，不影響planning；

③ 優(yōu)勢三，性能天花板夠高，模型設(shè)計空間大：比如可以和大模型結(jié)合；比如，可以和無監(jiān)督訓(xùn)練結(jié)合。因為，無監(jiān)督，說明特征無傾向；數(shù)據(jù)量夠大，說明特征泛化好。那分階段的，一般是有監(jiān)督訓(xùn)練，當(dāng)然也可以無監(jiān)督做個backbone，但還是需要有監(jiān)督再調(diào)；

1、端到端技術(shù)路線劃分及代表工作

① 直接端到端：就是說，不需要中間感知預(yù)測模塊，比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer；可能需要監(jiān)督，也可能不需要監(jiān)督，但是，都沒有中間模塊了；

② 模塊化端到端：以UniAD為代表，F(xiàn)usionAD，VAD，GenAD，都是；

③ 大語言模型路線：drive like a human, driveGPT4， LMDrive, EMMA，Senna；我認為是，這條路線在NLP和多模態(tài)的成功，具有啟發(fā)意義；

④ 基于world model的路線：world models，dreamer-V1\V2, sem2，mile，driveworld, 這些的狀態(tài)轉(zhuǎn)移，其實就是world model。但是現(xiàn)在所說的world model，比如gaia-1， drivewm，其實可以和端到端模型結(jié)合，比如drivewm做了一個比較粗糙的結(jié)合。我認為是趨勢，是未來。

⑤ 基于Diffusion的路線：以DiffusionDrive為例；

按照學(xué)習(xí)范式，又可分為模仿學(xué)習(xí)和強化學(xué)習(xí)，這兩個并不沖突，可以一起用。

以上，僅為梳理方便而人為劃分，僅供參考。角度不同，劃分也不同。我認為，每個研究領(lǐng)域都有其自己的生命力，不可硬性分為幾個set的。

2、路線分析

2.1 直接端到端和模塊化端到端的對比

直接端到端，由傳感器信息直接映射到action或者軌跡。由于action或軌跡都太稀疏，訓(xùn)練較為困難，因此，這條路線一般輔以感知的監(jiān)督訓(xùn)練，如bevseg、occ、車道線、紅綠燈等。比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer.

直接端到端（以mile舉例）

直接端到端（以mile舉例）

模塊化端到端，傳感器信息，經(jīng)過若干感知模塊，映射為action或軌跡。不同模塊間可傳梯度，共同訓(xùn)練。其類似于傳統(tǒng)的分階段自動駕駛，不過是把不同階段通過transformer中的query機制連接. 以UniAD為代表，F(xiàn)usionAD，VAD，GenAD，都是；

模塊化端到端（以UniAD舉例）

模塊化端到端（以UniAD舉例） BevPlanner里面的對比圖（上面是模塊化端到端，下面是直接端到端）

BevPlanner里面的對比圖（上面是模塊化端到端，下面是直接端到端）

對比可知，由于現(xiàn)有直接端到端也會輔以感知的監(jiān)督，直接端到端和模塊化端到端的共同點是都需要感知監(jiān)督。不同的是，直接端到端是并聯(lián)形式，也就是基于共同的表征feature map，來學(xué)習(xí)感知和規(guī)劃；模塊化端到端的主線是串聯(lián)形式，還是依賴于感知結(jié)果的。

因此，我認為是直接端到端的天花板更高，而模塊化端到端更好訓(xùn)練一些。因為模塊化端到端的中間模塊，就是通過對應(yīng)的感知，釋加顯示的約束，減小求解空間，那這帶來的好處就是好訓(xùn)練，不好就是可能把更有效的規(guī)劃結(jié)果給約束掉了。雖然直接端到端也輔以感知，但畢竟是隱式的，也就是感知是為了學(xué)習(xí)feature map，規(guī)劃還是直接基于feature map的。

ICLR2025在投論文 DriveTransformer，感知、預(yù)測、規(guī)劃并聯(lián)輸出

ICLR2025在投論文 DriveTransformer，感知、預(yù)測、規(guī)劃并聯(lián)輸出

我認為這兩條路線，沒有本質(zhì)區(qū)別，只是技術(shù)發(fā)展的一個順序：模塊化更好訓(xùn)，但最終收斂到直接端到端。但達到更好效果，還有不少工作要做。

2.2 基于VLM或LLM的端到端方案

比如drive like a human, driveGPT4， LMDrive, EMMA，Senna。

首先，我覺得VLM或LLM是有用的。

因為LLM或VLM，復(fù)雜場景理解、推理能力，這是很強的。另外一方面，在自動駕駛里，對于軌跡解釋、VQA等，可能只能用VLM這樣的技術(shù)來做。

但是，具體怎么用？是直接替代模塊化端到端，還是和他們結(jié)合？我認為是后者。

VLM擅長場景理解和推理。所以在復(fù)雜場景，模塊化端到端可能就傻眼了；VLM呢，泛化能力強，還能有個基本的場景理解。所以這些場景，VLM出決策建議，或者粗軌跡給模塊化的端到端，或者直接給下游，應(yīng)該是很有用的。

（1）雙流架構(gòu)的模型：

也就是一個運行快的模型，和一個運行慢的模型，并行運行；至于二者怎么分工和交互，每個工作各有所長，這個細節(jié)可以在討論。相關(guān)工作，比如 DriveVLM、LeapAD、AsyncDriver。On the road雖然沒做，但在future work中提到了感知部分需要融合傳統(tǒng)方案和VLM方案的雙流構(gòu)思。Senna是做端到端規(guī)劃，其邏輯和思想，與On the road一致。On the road和Senna都認為，VLM適合粗粒度的場景理解和推理，應(yīng)結(jié)合具體任務(wù)的模型，實現(xiàn)專家模型泛化能力的增強。我個人非常贊同這個觀點。

2024.03, DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024.03, DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models 2024.05, Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving (LeapAD)

2024.05, Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving (LeapAD)

2024.06, Asynchronous Large Language Model Enhanced Planner for Autonomous Driving，和DriveVLM不同的是：這里的兩個系統(tǒng)是做自適應(yīng)融合，而DriveVLM是做switch.

2023.11, On the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent的conclusion部分, 總結(jié)的特別好：VLM適合粗粒度的場景理解和推理，可和具體任務(wù)模型（專家模型）結(jié)合，發(fā)揮二者優(yōu)勢。

2024.10，Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

2024.10，Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

（2）3D信息：

有幾篇工作，支撐需要3D信息的觀點。至于這個3D，是顯式的監(jiān)督信息帶來的，還是2D自監(jiān)督帶來的（如dinov2），是可以討論的。比如"Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? "、”Language-Image Models with 3D Understanding（Cube-LLM）“、”O(jiān)n the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent“。前兩篇，是正向支撐，證明了加了3D比較好；第三篇是反向支撐，證明沒有3D的定位和空間推理能力弱。

2024.05, "Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

2024.05, "Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? 2024.05, Language-Image Models with 3D Understanding（Cube-LLM）

2024.05, Language-Image Models with 3D Understanding（Cube-LLM）

（3）總結(jié)：

總的來說，這條路線的發(fā)展趨勢可能是：①和非大語言模型的方案形成雙流架構(gòu)；② 補充3D信息。

此外，On the Road with GPT-4V 和 Image Textualization這兩篇論文都提到，現(xiàn)在VLM對環(huán)境的感知，屬于粒度比較粗的場景理解。

當(dāng)然，如 Image Textualization這樣的方法，正在彌補VLM在細粒度問題上的不足。這條路線值得一直關(guān)注。

2.3 基于world model的端到端路線

World Model分為兩類：端到端自動駕駛模型中的world model，數(shù)據(jù)生成中的world model。

world model的定義：

2018, World Models

2018, World Models

World Model要具備三個屬性：預(yù)測、表征、可控。

（1）端到端自動駕駛模型中的world model

用于開車：探討世界模型的集成如何使自動駕駛汽車能夠預(yù)測并制定行動策略？

比如早期的world models，dreamr-V1, dream-V2, sem2， Fiery，mile，近期的DriveWorld，以Mile為代表：

https://wayve.ai/thinking/learning-a-world-model-and-a-driving-policy/

但是這條路線，好像是用到機器人的偏多，，，用到智駕有一個明顯問題：累計誤差。

目前，智駕領(lǐng)域的World Model，一般指基于action條件的駕駛場景數(shù)據(jù)生成。

（2）數(shù)據(jù)生成中的world model

用于數(shù)據(jù)生成和駕駛行為理解：corner case的數(shù)據(jù)生成，模型或人類駕駛行為的理解

以GAIA-1為代表：

https://wayve.ai/thinking/scaling-gaia-1/

2023.09，GAIA-1

2023.09，GAIA-1

（3）二者的統(tǒng)一：Foundation Model

2024.05, DriveWorld, 把Occ預(yù)測和action規(guī)劃合二為一

2024.05, DriveWorld, 把Occ預(yù)測和action規(guī)劃合二為一 Mile, 其實也是生成和規(guī)劃合二為一的

Mile, 其實也是生成和規(guī)劃合二為一的

將生成和規(guī)劃合二為一的，基本都可以作為foundation model。這類工作有個共性，就是生成的對象是有語義信息和幾何信息的。按道理，也只有這樣才能做規(guī)劃。比如，Driveworld是生成Occ; Mile是生成BevSeg圖。

值得說明，Mile本身不是Foundation model，但其范式非常具備自動駕駛Foundation Model的潛力。Mile是一篇非常好的學(xué)術(shù)工作，指的不是性能好，而是啟發(fā)性強。后期很多端到端的工作，都有Mile的影子。DriveWorld里的MSSM和Mile也類似。

（4）總結(jié)world model的用處：

第一個是：端到端出planning或action

第二個是：數(shù)據(jù)生成，可控數(shù)據(jù)生成，corner case數(shù)據(jù)生成；給訓(xùn)練感知或端到端自動駕駛模型用；

第三個是：真實場景的閉環(huán)仿真系統(tǒng)，采集數(shù)據(jù)、評估模型、駕駛行為理解；

第四個是：Foundation Model。也就是基于這個模型，做一系列下游任務(wù)。這種范式的工作并不多，代表性的是DriveWorld。個人猜測特斯拉是基于worldmodel，，，因為tesla這么大的算力，我想不是訓(xùn)練模塊化端到端，也不是訓(xùn)練VLM，，只有world model匹配如此大算力。僅為個人猜測。

個人認為：雖然這兩年是模塊化端到端和VLM端到端熱鬧，過兩年可能就是world model了；world model是非常具備潛力的方向，端到端可以看做是world model的子集。

2.4 基于Diffusion的端到端路線

這方面看的不多，以DiffusionDrive舉例

Motivation：擴散模型已被證明是機器人領(lǐng)域一種強大的生成決策策略；而擴散本身是連續(xù)空間的問題，和軌跡規(guī)劃更契合，但Diffusion用于規(guī)劃，不能實時；

直接把Transfuser里的planning decoder換成diffusion，有兩個問題：模式坍塌、時間太長；
因此提出，Truncated Diffusion：

① 添加anchor的概念，基于anchor做擴散；
② 前向擴散，只添加小部分高斯噪聲，不要到全部是高斯噪聲；
③ 其他細節(jié)：前向diffusion steps=50，反向denoising steps=2。

個人認為有兩個地方疑惑：

消融實驗，無從驗證diffusion真正起到的作用；
為什么要用diffusion做規(guī)劃？沒有論述。個人認為，軌跡規(guī)劃，本身可以看出是分布的問題，用Diffusion合情合理；但總感覺，殺雞用牛刀，diffusion更適合分布復(fù)雜的情況，如圖像生成、語音生成，而對于軌跡規(guī)劃，可能不能凸顯出diffusion的優(yōu)勢。

補充：基于Diffusion的方法，和前面所說的直接端到端、模塊化端到端，甚至基于world model的端到端，不沖突，是結(jié)合使用的。簡單說，就是把一步回歸改為多步回歸。

3、總結(jié)

整體來說，這幾條路線，統(tǒng)一大于對立。

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛端到端模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="wus8v"></sub>}

<style id="wus8v"></style>