『端到端』下的智駕人,何去何從?
本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
“要么擁抱端到端,要么幾年后離開智駕行業(yè)?!?/strong>
特斯拉率先吹響了方案更新的號角,無論是完全端到端,還是專注于planner的模型,各家公司基本都投入較大人力去研發(fā),小鵬、蔚來、理想、華為都對外展示了其端到端自動駕駛方案,效果著實不錯,非常有研究價值。
為什么需要端到端?
首先我們聊一下當前的主流自動駕駛方案,主要核心部分包括:感知模塊、預測模塊、規(guī)控模塊。每個模塊相對獨立,感知模塊給預測模塊提供動靜態(tài)障礙物信息;預測模塊為規(guī)控模塊提供規(guī)劃的參考,規(guī)劃再轉換為控制指令。從傳感器端到控制端,需要多個功能支持,這就不可避免導致了累積誤差,一旦碰到問題,需要整個pipeline做分析。而且每個模塊的優(yōu)化,并不能保證整個系統(tǒng)達成最優(yōu)解。
這個時候,就希望有一種模型能夠完成感知信息的無損傳遞,即從傳感器端到輸出控制策略端,這也是端到端自動駕駛提出的原因。傳統(tǒng)定義上感知和規(guī)劃模塊的對接一般是通過白名單(比如機動車、行人、甚至occ輸出的非通用幾何障礙物)的檢測與預測來完成,是人為定義的規(guī)則和抽象。隨著產(chǎn)品的迭代,每一次都需要添加各類case,設計各種博弈的策略,從模型訓練到工程部署再到邏輯設計,時間和人力成本高昂。
而且這種方式無法羅列所有情況,那么是否可以通過對整個場景的學習抽象,無損的將所有信息傳遞給PnC部分?這就是我們期望的端到端。端到端核心是優(yōu)化最終目標且全局可導,作為一個完整的優(yōu)化任務來看,直接求最優(yōu)解,而不是先求感知再求規(guī)控的最優(yōu)解。
端到端效果怎么樣?
今年各大自動駕駛公司都在預研和落地相關端到端方案,小鵬、蔚來、華為、理想也都對外展示了其端到端方案。由于端到端模型的優(yōu)勢明顯,各大自動駕駛公司都在拼命布局攬人,對應崗位薪資水漲船高,某想甚至開出了七位數(shù)給到該崗位。
那么各家的端到端自動駕駛效果怎么樣呢?先來看看國外的特斯拉:
再來看看國內(nèi)的UniAD效果:
不得不說,端到端是一個更簡約的方法,更具有全場景的優(yōu)化能力。
端到端有哪些技術棧?
行業(yè)里面的端到端主要分為完全端到端方案、專注于planner的端到端方案(包括某鵬的XPlanner)。顧名思義,完全端到端是從傳感器直接到規(guī)控;而專注于planner的端到端以感知模塊的輸出作為先驗,替換原來以規(guī)則作為主要形式的PnC模塊。
從傳感器到控制策略的(如果把條件再放松下也可以到軌跡輸出)完全端到端方案更為簡約,但同樣面臨一個問題,可解釋性差。UniAD用分階段監(jiān)督的方法逐步提高了可解釋性,但訓練仍然是個難題。在足夠體量和質量的數(shù)據(jù)群下,效果能夠得到保證,泛化性能也不錯。
而專注于planner的端到端方案,如果深究的話,只能算狹義上的端到端,但更貼合當下的量產(chǎn)方案和任務,而且可解釋性也較高,是目前主機廠和自動駕駛公司優(yōu)先推行和落地的。
如果從信息輸入的角度上來看,又可以分為純視覺方案(UAD、UniAD這類)和多模態(tài)方案(FusionAD這類),傳感器成本不斷在下降,多模態(tài)方案也一直是行業(yè)里面都在關注的點。
端到端的難點在哪里?
端到端的優(yōu)勢非常突出,但仍然有很多難點需要攻克。主要在于數(shù)據(jù)難定義、數(shù)據(jù)難制作、網(wǎng)絡不好訓練、模型不好解釋優(yōu)化、評測定義多種多樣!很多公司無法像特斯拉一樣獲取海量數(shù)據(jù),這也是個巨大的瓶頸。今年年中,自動駕駛之心收到了很多同學關于端到端實戰(zhàn)相關的需求,雖然我們已經(jīng)籌備過相關的內(nèi)容,但早期端到端方案不夠成熟,更多是以論文切入。工業(yè)界使用的方案關注較少,代碼層面上也很少提及。