Waymo玩明白了!全新多模態(tài)端到端算法EMMA:感知規(guī)劃一網(wǎng)打盡~
寫在前面 & 筆者的個人理解
本文介紹了EMMA,一種用于自動駕駛的端到端多模態(tài)模型。EMMA建立在多模態(tài)大型語言模型的基礎(chǔ)上,將原始攝像頭傳感器數(shù)據(jù)直接映射到各種特定于駕駛的輸出中,包括規(guī)劃者軌跡、感知目標和道路圖元素。EMMA通過將所有非傳感器輸入(如導航指令和自車狀態(tài))和輸出(如軌跡和3D位置)表示為自然語言文本,最大限度地利用了預訓練的大型語言模型中的世界知識。這種方法允許EMMA在統(tǒng)一的語言空間中聯(lián)合處理各種駕駛?cè)蝿?,并使用任務特定的提示為每個任務生成輸出。根據(jù)經(jīng)驗,我們通過在nuScenes上實現(xiàn)最先進的運動規(guī)劃性能以及在Waymo開放運動數(shù)據(jù)集(WOMD)上取得有競爭力的結(jié)果來證明EMMA的有效性。EMMA還為Waymo開放數(shù)據(jù)集(WOD)上的相機主3D目標檢測提供了有競爭力的結(jié)果。我們表明,將EMMA與規(guī)劃器軌跡、目標檢測和道路圖任務聯(lián)合訓練,可以在所有三個領(lǐng)域取得進步,突顯了EMMA作為自動駕駛應用的通用模型的潛力。然而,EMMA也表現(xiàn)出一定的局限性:它只能處理少量的圖像幀,不包含激光雷達或雷達等精確的3D傳感方式,計算成本很高。我們希望我們的研究結(jié)果能夠激發(fā)進一步的研究,以緩解這些問題,并進一步發(fā)展自動駕駛模型架構(gòu)的最新技術(shù)。
總結(jié)來說,本文的主要貢獻如下:
- EMMA在端到端運動規(guī)劃方面表現(xiàn)出色,在公共基準nuScenes上實現(xiàn)了最先進的性能,在Waymo開放運動數(shù)據(jù)集(WOMD)上取得了有競爭力的結(jié)果。我們還表明,通過更多的內(nèi)部訓練數(shù)據(jù)和思維鏈推理,我們可以進一步提高運動規(guī)劃質(zhì)量。
- EMMA展示了各種感知任務的競爭結(jié)果,包括3D目標檢測、道路圖估計和場景理解。在相機主Waymo開放數(shù)據(jù)集(WOD)上,EMMA在3D物體檢測方面比最先進的方法具有更好的精度和召回率。
- 我們證明了EMMA可以作為自動駕駛領(lǐng)域的多面手模型,為多個與駕駛相關(guān)的任務聯(lián)合生成輸出。特別是,當EMMA與運動規(guī)劃、目標檢測和道路圖任務共同訓練時,它的性能可以與單獨訓練的模型相匹配,甚至超過單獨訓練模型的性能。
- 最后,我們展示了EMMA在復雜的長尾駕駛場景中推理和決策的能力。
盡管有這些SOTA的結(jié)果,但EMMA并非沒有局限性。特別是,它面臨著現(xiàn)實世界部署的挑戰(zhàn),原因是:(1)由于無法將相機輸入與LiDAR或雷達融合,3D空間推理受到限制,(2)需要真實且計算昂貴的傳感器仿真來為其閉環(huán)評估提供動力,以及(3)相較于傳統(tǒng)模型,計算要求增加。我們計劃在未來的工作中更好地理解和應對這些挑戰(zhàn)。
詳解EMMA
EMMA建立在Gemini之上,Gemini是谷歌開發(fā)的MLLM家族。我們利用經(jīng)過訓練的自回歸Gemini模型來處理交錯的文本和視覺輸入,以產(chǎn)生文本輸出:
如圖1所示,我們將自動駕駛?cè)蝿沼成涞交贕emini的EMMA公式中。所有傳感器數(shù)據(jù)都表示為拼接圖像或視頻V;所有路由器命令、驅(qū)動上下文和任務特定提示都表示為T;所有輸出任務都以語言輸出O的形式呈現(xiàn)。一個挑戰(zhàn)是,許多輸入和輸出需要捕獲3D世界坐標,例如用于運動規(guī)劃的航路點BEV(鳥瞰圖)位置(x,y)以及3D框的位置和大小。我們考慮兩種表示方式:第一種是直接將文本轉(zhuǎn)換為浮點數(shù),表示為。RT-2在機器人控制中舉例說明了這種方法。第二種方法使用特殊的標記來表示每個位置或動作,表示為,分辨率由學習或手動定義的離散化方案確定。MotionLM利用這種方法進行運動預測。我們注意到,這兩種方法各有優(yōu)缺點。我們選擇文本表示,這樣所有任務都可以共享相同的統(tǒng)一語言表示空間,并且它們可以最大限度地重用預訓練權(quán)重中的知識,即使文本表示可能比專門的標記化產(chǎn)生更多的標記。
End-to-End Motion Planning
EMMA采用統(tǒng)一的端到端訓練模型,直接從傳感器數(shù)據(jù)生成自動駕駛汽車的未來軌跡。然后,這些生成的軌跡被轉(zhuǎn)化為特定于車輛的控制動作,如自動駕駛車輛的加速和轉(zhuǎn)彎。EMMA的端到端方法旨在仿真人類駕駛行為,重點關(guān)注兩個關(guān)鍵方面:(1)第一,使用導航系統(tǒng)(如谷歌地圖)進行路線規(guī)劃和意圖確定;(2)第二,利用過去的行動來確保平穩(wěn)、一致的駕駛。
們的模型結(jié)合了三個關(guān)鍵輸入,以與這些人類駕駛行為保持一致:
- 環(huán)視視頻(V):提供全面的環(huán)境信息。
- 高級意圖命令(Tintent):源自路由器,包括“直行”、“左轉(zhuǎn)”、“右轉(zhuǎn)”等指令。
- 歷史自車狀態(tài)集(Tego):表示為鳥瞰圖(BEV)空間中的一組航路點坐標。所有航路點坐標都表示為純文本,沒有專門的標記。這也可以擴展到包括更高階的自我狀態(tài),如速度和加速度。
該模型為運動規(guī)劃生成未來軌跡,表示為同一BEV空間中自車的一組未來軌跡航路點:表示未來Tf時間戳,其中所有輸出航路點也表示為純文本。將所有內(nèi)容放在一起,完整的公式表示為:
然后,我們使用此公式對Gemini進行微調(diào),以生成端到端的規(guī)劃器軌跡,如圖1所示。我們強調(diào)了這種配方的三個特點:
- 自監(jiān)督:唯一需要的監(jiān)督是自車的未來位置。不需要專門的人類標簽。
- 僅限攝像頭:所需的唯一傳感器輸入是全景攝像頭。
- 無高清地圖:除了谷歌地圖等導航系統(tǒng)的高級路線信息外,不需要高清地圖。
2.2 Planning with Chain-of-Thought Reasoning
思維鏈提示是MLLM中的一個強大工具,可以增強推理能力并提高可解釋性。在EMMA中,我們通過要求模型在預測最終未來軌跡航路點Otrajectory的同時闡明其決策原理Orationale,將思維鏈推理納入端到端規(guī)劃器軌跡生成中。
我們按層次結(jié)構(gòu)構(gòu)建驅(qū)動原理,從4種粗粒度信息到細粒度信息:
- R1:場景描述廣泛地描述了駕駛場景,包括天氣、時間、交通狀況和道路狀況。例如:天氣晴朗,陽光明媚,現(xiàn)在是白天。這條路是四車道不可分割的街道,在中間有人行橫道。街道兩邊都停著汽車。
- R2:關(guān)鍵目標是可能影響自車駕駛行為的道路代理,我們要求模型識別其精確的3D/BEV坐標。例如:行人位于[9.01,3.22],車輛位于[11.58,0.35]。
- R3:關(guān)鍵目標的行為描述描述了已識別關(guān)鍵目標的當前狀態(tài)和意圖。一個具體的例子如下:行人目前正站在人行道上,朝著路看,也許正準備過馬路。這輛車目前在我前方,朝著同一個方向行駛,它的未來軌跡表明它將繼續(xù)筆直行駛。
- R4:元駕駛決策包括12類高級駕駛決策,總結(jié)了之前觀察到的駕駛計劃。一個例子是,我應該保持目前的低速。
我們強調(diào),驅(qū)動原理說明是使用自動化工具生成的,沒有任何額外的人工標簽,確保了數(shù)據(jù)生成管道的可擴展性。具體來說,我們利用現(xiàn)成的感知和預測專家模型來識別關(guān)鍵代理,然后使用精心設計的視覺和文本提示的Gemini模型來生成全面的場景和代理行為描述。元駕駛決策是使用分析自車地面真實軌跡的啟發(fā)式算法計算的。
在訓練和推理過程中,該模型在預測未來的航路點之前預測了駕駛原理的所有四個組成部分,即:
EMMA Generalist
雖然端到端的運動規(guī)劃是最終的核心任務,但全面的自動駕駛系統(tǒng)需要額外的功能。具體來說,它必須感知3D世界,識別周圍的物體、道路圖和交通狀況。為了實現(xiàn)這一目標,我們將EMMA制定為一種多面手模型,能夠通過混合訓練來處理多種駕駛?cè)蝿铡?/p>
我們的視覺語言框架將所有非傳感器輸入和輸出表示為純文本,提供了整合許多其他駕駛?cè)蝿账璧撵`活性。我們采用指令調(diào)優(yōu)(LLM中一種成熟的方法)來聯(lián)合訓練所有任務以及方程1的輸入T中包含的任務特定提示。我們將這些任務分為三大類:空間推理、道路圖估計和場景理解。圖2顯示了整個EMMA概化圖。
空間推理是理解、推理和得出關(guān)于物體及其在空間中的關(guān)系的結(jié)論的能力。這使得自動駕駛系統(tǒng)能夠解釋周圍環(huán)境并與之交互,以實現(xiàn)安全導航。
我們空間推理的主要重點是3D目標檢測。我們遵循Pix2Seq,將輸出的3D邊界框表示為Oboxes。我們通過寫兩位小數(shù)的浮點數(shù)將7D框轉(zhuǎn)換為文本,每個維度之間用空格隔開。然后,我們使用固定提示Tdetect_3D表示檢測任務,例如“檢測3D中的每個目標”,如下所示:
道路圖估計側(cè)重于識別安全駕駛的關(guān)鍵道路元素,包括語義元素(如車道標記、標志)和物理屬性(如車道曲率)。這些道路元素的集合形成了一個道路圖。例如,車道段由(a)節(jié)點表示,其中車道遇到交叉口、合并或分割,以及(b)這些節(jié)點之間沿交通方向的邊緣。完整的道路圖由許多這樣的折線段組成。
雖然每條折線內(nèi)的邊是有方向的,但每條折線相對于其他元素不一定有唯一的順序。這與目標檢測相似,其中每個框由有序?qū)傩裕ㄗ笊辖?、右下角)定義,但框之間不一定存在相對順序。已有數(shù)篇研究使用Transformers對折線圖進行建模,與語言模型有相似之處。
我們在EMMA中的一般建模公式如下:
本文特別關(guān)注預測可行駛車道,即自車在場景中可以行駛的車道。這些是同一交通方向上的相鄰車道和從當前自我車道分叉的車道。為了構(gòu)建Oroadgraph,我們(a)將車道轉(zhuǎn)換為有序的航路點集,(b)將這些航路點集轉(zhuǎn)換為文本。使用樣本排序的航路點來表示交通方向和曲率是有益的。與檢測一樣,我們還發(fā)現(xiàn)按近似距離對車道進行排序可以提高預測質(zhì)量。我們的折線文本編碼的一個例子是:“(x1,y1和…以及xn,yn);…”其中“x,y”是精度為小數(shù)點后2位的浮點航點,“;”分隔折線實例。
場景理解任務測試模型對整個場景上下文的理解,這可能與駕駛有關(guān)。例如,道路可能會因施工、緊急情況或其他事件而暫時受阻。及時檢測這些障礙物并安全繞過它們對于確保自動駕駛汽車的平穩(wěn)安全運行至關(guān)重要;然而,需要場景中的多個線索來確定是否存在堵塞。我們使用以下公式重點研究我們的模型在這個臨時堵塞檢測任務中的表現(xiàn):
Generalist Training
我們統(tǒng)一的視覺語言公式能夠使用單個模型同時訓練多個任務,允許在推理時通過任務提示Ttask的簡單變化進行特定任務的預測。訓練方式既簡單又靈活。
實驗結(jié)果表明,在多個任務中訓練的通才模型明顯優(yōu)于在單個任務上訓練的每個專家模型。這突出了通才方法的優(yōu)勢:增強了知識轉(zhuǎn)移,提高了泛化能力,提高了效率。
實驗結(jié)果
我們在圖8、9和10中展示了12個不同的視覺示例,每個示例都是為了突出EMMA模型在一系列場景中的通用性。在所有場景中,我們顯示模型的預測(從左到右):端到端運動規(guī)劃、3D目標檢測和道路圖估計。
我們按場景類型對視覺示例進行分組:示例(a)-(d)展示了EMMA如何安全地與路上罕見、看不見的物體或動物互動。示例(e)-(f)的特點是EMMA在施工區(qū)域?qū)Ш?。示例(g)-(j)展示了EMMA在有交通信號燈或交通管制員的十字路口遵守交通規(guī)則的情況。示例(k)-(l)強調(diào)了EMMA尊重摩托車手等弱勢道路使用者。
鑒于這些示例,我們展示了EMMA的以下功能:
- 泛化能力:能夠很好地適應不同環(huán)境中的各種現(xiàn)實駕駛場景,并關(guān)注其微調(diào)類別之外的目標,如松鼠。
- 預測性駕駛:主動適應其他道路使用者的行為,實現(xiàn)安全平穩(wěn)的駕駛。
- 避障:持續(xù)調(diào)整軌跡,避開障礙物、碎片和堵塞的車道。
- 適應性行為:安全地處理復雜的情況,如屈服、施工區(qū)和遵循交通管制信號。
- 精確的3D檢測:有效識別和跟蹤道路代理人,包括車輛、騎自行車的人、摩托車手和行人。
- 可靠的道路圖估計:準確捕捉道路布局,并將其整合到安全軌跡規(guī)劃中。
總之,這些場景突出了EMMA在各種具有挑戰(zhàn)性和多樣性的駕駛場景和環(huán)境中安全高效運行的能力。
限制、風險和緩解措施
在前面的部分中,我們在nuScenes規(guī)劃基準上展示了最先進的端到端運動規(guī)劃。我們還在WOD規(guī)劃基準上實現(xiàn)了端到端的運動規(guī)劃和WOD上的相機主3D檢測的競爭性能。此外,我們的通才設置通過聯(lián)合訓練提高了多項任務的質(zhì)量。盡管取得了這些有希望的結(jié)果,但我們承認我們工作的局限性,并提出了在此基礎(chǔ)上進一步發(fā)展和在未來研究中應對這些挑戰(zhàn)的方向。
內(nèi)存和視頻功能:目前,我們的模型只處理有限數(shù)量的幀(最多4幀),這限制了它捕獲駕駛?cè)蝿账匦璧拈L期依賴關(guān)系的能力。有效的駕駛不僅需要實時決策,還需要在更長的時間范圍內(nèi)進行推理,依靠長期記憶來預測和應對不斷變化的場景。增強模型執(zhí)行長期推理的能力是未來研究的一個有前景的領(lǐng)域。這可以通過集成存儲模塊或擴展其高效處理較長視頻序列的能力來實現(xiàn),從而實現(xiàn)更全面的時間理解。
擴展到激光雷達和雷達輸入:我們的方法嚴重依賴于預訓練的MLLM,這些MLLM通常不包含激光雷達或雷達輸入。擴展我們的模型以集成這些3D傳感模式帶來了兩個關(guān)鍵挑戰(zhàn):1)可用相機和3D傳感數(shù)據(jù)量之間存在顯著不平衡,導致與基于相機的編碼器相比,3D傳感編碼器的通用性較差。2) 3D傳感編碼器的發(fā)展尚未達到基于相機的編碼器的規(guī)模和復雜程度。解決這些挑戰(zhàn)的一個潛在解決方案是使用與相機輸入仔細對齊的數(shù)據(jù)對大規(guī)模3D傳感編碼器進行預訓練。這種方法可以促進更好的跨模態(tài)協(xié)同作用,并大大提高3D傳感編碼器的泛化能力。
預測駕駛信號的驗證:我們的模型可以直接預測駕駛信號,而不依賴于中間輸出,如物體檢測或道路圖估計。這種方法給實時和事后驗證帶來了挑戰(zhàn)。我們已經(jīng)證明,我們的多面手模型可以聯(lián)合預測額外的人類可讀輸出,如目標和道路圖元素,并且可以用思維鏈驅(qū)動原理進一步解釋駕駛決策。然而,盡管經(jīng)驗觀察表明這些輸出通常確實是一致的,但不能保證它們總是一致的。此外,額外的輸出會給部署帶來巨大的運行時延遲開銷。
閉環(huán)評估的傳感器仿真:人們普遍認為,開環(huán)評估可能與閉環(huán)性能沒有很強的相關(guān)性。為了在閉環(huán)環(huán)境中準確評估端到端的自動駕駛系統(tǒng),需要一個全面的傳感器仿真解決方案。然而,傳感器仿真的計算成本通常比行為仿真器高幾倍。除非進行大量優(yōu)化,否則這種巨大的成本負擔可能會阻礙端到端模型的徹底測試和驗證。
車載部署的挑戰(zhàn):自動駕駛需要實時決策,由于推理延遲增加,在部署大型模型時面臨重大挑戰(zhàn)。這就需要優(yōu)化模型或?qū)⑵涮釤挸蛇m合部署的更緊湊的形式,同時保持性能和安全標準。實現(xiàn)模型尺寸、效率和質(zhì)量之間的微妙平衡對于自動駕駛系統(tǒng)在現(xiàn)實世界中的成功部署至關(guān)重要,也是未來研究的關(guān)鍵領(lǐng)域。
結(jié)論
在本文中,我們提出了EMMA,一種基于Gemini的自動駕駛端到端多模式模型。它將雙子座視為一等公民,并將自動駕駛?cè)蝿罩匦露x為視覺問答問題,以適應MLLM的范式,旨在最大限度地利用雙子座的世界知識及其配備思維鏈工具的推理能力。與具有專門組件的歷史級聯(lián)系統(tǒng)不同,EMMA直接將原始攝像頭傳感器數(shù)據(jù)映射到各種特定于駕駛的輸出中,包括規(guī)劃軌跡、感知目標和道路圖元素。所有任務輸出都表示為純文本,因此可以通過任務特定的提示在統(tǒng)一的語言空間中聯(lián)合處理。實證結(jié)果表明,EMMA在多個公共和內(nèi)部基準和任務上取得了最先進或具有競爭力的結(jié)果,包括端到端的規(guī)劃軌跡預測、相機主要3D目標檢測、道路圖估計和場景理解。我們還證明,單個聯(lián)合訓練的EMMA可以聯(lián)合生成多個任務的輸出,同時匹配甚至超越單獨訓練的模型的性能,突出了其作為許多自動駕駛應用的多面手模型的潛力。
雖然EMMA顯示出有希望的結(jié)果,但它仍處于早期階段,在機載部署、空間推理能力、可解釋性和閉環(huán)仿真方面存在挑戰(zhàn)和局限性。盡管如此,我們相信我們的EMMA發(fā)現(xiàn)將激發(fā)該領(lǐng)域的進一步研究和進展。