地平線&港大最新端到端進展!HE-Drive:VLM+擴散模型發(fā)大力
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
本文提出了HE-Drive:首個模仿人類駕駛為核心的端到端自動駕駛系統(tǒng),旨在生成同時具備時間一致性和舒適性的軌跡。近期研究表明,基于模仿學習的規(guī)劃器和基于學習的軌跡評分器能夠有效生成并選擇高度模仿專家演示的準確軌跡。然而這類軌跡規(guī)劃和評分器面臨生成時間不一致且不舒適的軌跡的困境。為了解決上述問題,HE-Drive首先通過稀疏感知提取關(guān)鍵的三維空間表示,這些表示隨后作為條件輸入,傳遞給基于條件去噪擴散概率模型(DDPM)的運動規(guī)劃器,生成具備時間一致性的多模態(tài)軌跡。隨后,基于視覺語言模型(VLM)引導(dǎo)的軌跡評分器從這些候選軌跡中選擇最舒適的軌跡來控制車輛,確保類人的端到端駕駛體驗。實驗結(jié)果表明,HE-Drive在nuScenes和OpenScene數(shù)據(jù)集上實現(xiàn)了SOTA性能(即比VAD減少了71%的平均碰撞率)和效率(即比SparseDrive快1.9倍),同時在真實世界數(shù)據(jù)中提供了最舒適的駕駛體驗。
- 代碼鏈接:https://github.com/jmwang0117/HE-Drive
總結(jié)來說,本文的主要貢獻如下:
- 基于擴散的運動規(guī)劃:本文提出了一種基于擴散的運動規(guī)劃器,通過以稀疏感知網(wǎng)絡(luò)提取的3D表示為條件,并結(jié)合歷史預(yù)測軌跡的速度、加速度和偏航角,生成時間一致性和多模態(tài)的軌跡。
- 即插即用的軌跡評分:本文引入了一種新穎的基于視覺語言模型(VLMs)引導(dǎo)的軌跡評分器及舒適度指標,彌補了類人駕駛的不足,使其能夠輕松集成到現(xiàn)有的自動駕駛系統(tǒng)中。
- 優(yōu)秀的開環(huán)和閉環(huán)測試結(jié)果:HE-Drive在nuScenes和OpenScene數(shù)據(jù)集上實現(xiàn)了最先進的性能(即相比VAD減少了71%的平均碰撞率)和效率(即比SparseDrive快1.9倍),同時在真實世界數(shù)據(jù)集上將舒適度提升了32%,展示了其在各種場景中的有效性。
文章簡介
圖1:本文展示了HE-Drive,這是首個類人端到端駕駛系統(tǒng)。HE-Drive將多視角傳感器數(shù)據(jù)作為輸入,并在復(fù)雜場景中輸出最優(yōu)行駛路徑。
端到端范式將感知、規(guī)劃和軌跡評分任務(wù)集成到一個統(tǒng)一模型中,以規(guī)劃目標進行優(yōu)化,最近在推動自動駕駛技術(shù)發(fā)展方面展示了顯著的潛力(圖1a)。最新研究提出了基于模仿學習的運動規(guī)劃器,它們通過大規(guī)模駕駛演示學習駕駛策略,并使用基于學習的軌跡評分器從多個預(yù)測候選軌跡中選擇最安全、最準確的軌跡來控制車輛。然而,盡管現(xiàn)有的規(guī)劃器和評分器在預(yù)測準確性方面取得了顯著進展,它們?nèi)悦媾R生成時間不一致軌跡的挑戰(zhàn),即連續(xù)的預(yù)測在時間上不穩(wěn)定且不一致,以及選擇不舒適軌跡的問題,這些軌跡表現(xiàn)為連續(xù)制動,導(dǎo)致車輛停頓或過大的轉(zhuǎn)彎曲率。
本文提出了HE-Drive,這是首個以類人駕駛為核心的端到端自動駕駛系統(tǒng),旨在解決上述兩個問題,如圖2所示。具體而言,本文發(fā)現(xiàn)由基于模仿學習的規(guī)劃器生成的軌跡在時間一致性方面存在的問題主要源于兩個因素:時間相關(guān)性和泛化能力。首先,這些規(guī)劃器依賴當前幀過去幾秒的信息來預(yù)測未來軌跡,忽略了連續(xù)預(yù)測之間的相關(guān)性。其次,它們的性能受到離線收集的專家軌跡質(zhì)量的限制,導(dǎo)致在系統(tǒng)動態(tài)變化和分布外狀態(tài)下,所學的策略缺乏應(yīng)對未見場景的泛化能力。受擴散策略在機器人操作中取得成功的啟發(fā),該策略采用視覺條件的擴散模型來精確表示多模態(tài)分布以生成動作序列,本文提出了一種基于擴散的規(guī)劃器,能夠生成具有強時間一致性的多模態(tài)軌跡。
此外,導(dǎo)致預(yù)測軌跡不舒適的關(guān)鍵原因在于次優(yōu)軌跡評分器無法實現(xiàn)持續(xù)評估,并且缺乏衡量軌跡舒適度的通用指標。近期研究表明,基于學習的評分器在閉環(huán)場景中不如基于規(guī)則的評分器,而后者由于依賴手工設(shè)計的后處理方式,泛化能力有限。其他研究者探索了使用視覺語言模型(VLMs)來感知周圍代理的運動和交通表示,從而決定下一步行動。然而,直接將VLMs作為駕駛決策者面臨解釋性差和嚴重幻覺問題。為了解決這些問題,本文提出了一種新穎的軌跡評分器和通用的舒適度指標,結(jié)合了基于規(guī)則評分器的可解釋性與VLMs的適應(yīng)性,能夠根據(jù)駕駛風格(例如,激進或保守)進行調(diào)整,從而實現(xiàn)持續(xù)評估。
綜上所述,HE-Drive是一種新穎的以類人駕駛為核心的端到端自動駕駛系統(tǒng)。該系統(tǒng)利用稀疏感知技術(shù),通過稀疏特征來檢測、跟蹤并映射駕駛場景,生成三維空間表示。這些表示作為條件輸入到基于擴散的運動規(guī)劃器中,該規(guī)劃器由條件去噪擴散概率模型(DDPM)驅(qū)動。最后,基于視覺語言模型(如Llama 3.2V)引導(dǎo)的軌跡評分器從候選軌跡中選擇最舒適的軌跡來控制車輛,確保類人風格的端到端駕駛體驗。
相關(guān)工作回顧
端到端自動駕駛
端到端自動駕駛旨在直接從原始傳感器生成規(guī)劃軌跡。在該領(lǐng)域,根據(jù)其評估方法對進步進行了分類:開環(huán)和閉環(huán)系統(tǒng)。在開環(huán)系統(tǒng)中,UniAD提出了一個統(tǒng)一的框架,該框架將全棧驅(qū)動任務(wù)與查詢統(tǒng)一接口集成在一起,以改善任務(wù)之間的交互。VAD提高了規(guī)劃的安全性和效率,其在nuScenes數(shù)據(jù)集上的性能證明了這一點,而SparseDrive利用稀疏表示來減輕模塊化系統(tǒng)中固有的信息丟失和錯誤傳播,提高了任務(wù)性能和計算效率。對于閉環(huán)評估,VADv2通過概率規(guī)劃推進了矢量化自動駕駛,使用多視圖圖像生成車輛控制的動作分布,在CARLA Town05基準中表現(xiàn)出色。
擴散模型用于軌跡生成
擴散模型最初在圖像合成中備受贊譽,現(xiàn)已被巧妙地用于軌跡生成?;赑otential的擴散運動規(guī)劃通過使用學習到的勢函數(shù)來構(gòu)建適用于雜亂環(huán)境的自適應(yīng)運動規(guī)劃,進一步增強了該領(lǐng)域,展示了該方法的可擴展性和可轉(zhuǎn)移性。NoMaD和SkillDiffuser都提出了統(tǒng)一的框架,分別簡化了面向目標的導(dǎo)航和基于技能的任務(wù)執(zhí)行,其中NoMaD實現(xiàn)了更好的導(dǎo)航結(jié)果,SkillDiffusion實現(xiàn)了可解釋的高級指令遵循??傊瑪U散模型為基于模仿學習的端到端自動駕駛框架的軌跡規(guī)劃提供了一種有前景的替代方案。由于固有的因果混淆,模仿學習模型可能會錯誤地將駕駛員的行為歸因于錯誤的因果因素。相比之下,擴散模型可以通過學習場景特征和駕駛員動作在潛在空間中的聯(lián)合分布,更好地捕捉潛在的因果關(guān)系,使模型能夠正確地將真實原因與適當?shù)膭幼飨嚓P(guān)聯(lián)。
大模型用于軌跡評測
軌跡評分在自動駕駛決策中起著至關(guān)重要的作用。基于規(guī)則的方法提供了強有力的安全保證,但缺乏靈活性,而基于學習的方法在開環(huán)任務(wù)中表現(xiàn)良好,但在閉環(huán)場景中表現(xiàn)不佳。最近,DriveLM將VLM集成到端到端的駕駛系統(tǒng)中,通過感知、預(yù)測和規(guī)劃問答對對對圖結(jié)構(gòu)推理進行建模。然而,大型模型的生成結(jié)果可能包含幻覺,需要進一步的策略來安全應(yīng)用于自動駕駛。VLM的出現(xiàn)提出了一個問題:VLM能否根據(jù)軌跡評分器自適應(yīng)地調(diào)整駕駛風格,同時確保舒適性?
HE-Drive方法詳解
稀疏感知
HE Drive首先采用視覺編碼器從輸入的多視圖相機圖像中提取多視圖視覺特征,表示為F。隨后稀疏感知同時執(zhí)行檢測、跟蹤和在線地圖任務(wù),為周圍環(huán)境提供更高效、更緊湊的3D表示(見圖2)。
基于擴散模型的運動規(guī)劃
圖2展示了我們基于擴散的運動規(guī)劃器的整體流程。我們采用基于CNN的擴散策略作為基礎(chǔ),該策略由一個由1D卷積層、上采樣層和FiLM(特征線性調(diào)制)層組成的條件U-Net組成。
運動規(guī)劃器擴散策略:本文的方法(圖7)采用了條件去噪擴散概率模型(DDPM),這是一個通過參數(shù)化馬爾可夫鏈定義的生成模型,使用變分推理訓(xùn)練來模擬條件分布p(At | Ot)。DDPM由一個正向過程和一個反向過程組成,正向過程逐漸將高斯噪聲添加到輸入數(shù)據(jù)中,將其轉(zhuǎn)換為純噪聲,反向過程迭代地對噪聲數(shù)據(jù)進行去噪以恢復(fù)原始數(shù)據(jù)。
大模型指導(dǎo)下的軌跡評分
為了從DDPM生成的多模態(tài)軌跡中選擇最合適的路徑,我們引入了VLMs制導(dǎo)軌跡評分器(VTS),如圖3所示。據(jù)我們所知,VTS是第一個結(jié)合了可解釋性和零樣本駕駛推理能力的軌跡評分器。通過利用視覺語言模型(VLM),悉尼威立雅運輸公司可以根據(jù)各種駕駛因素(如碰撞概率和舒適度)有效地評估軌跡,從而實現(xiàn)透明的決策和對新駕駛場景的適應(yīng)性,而無需進行廣泛的微調(diào)(即終身評估)。
實驗結(jié)果
圖4:Llama 3.2V在nuScenes上的定性結(jié)果。本文展示了問題(Q)、上下文(C)和答案(A)。通過結(jié)合環(huán)視圖像和文本數(shù)據(jù),基于規(guī)則的評分器通過針對性的權(quán)重修改,實現(xiàn)了駕駛風格的微調(diào)。
圖5:(a) 和 (b) 展示了軌跡生成和評分過程,其中(a) 中的灰色軌跡表示為最優(yōu)路徑,基于最低成本標準被選中用于車輛控制。
圖6:(a) 顯示了HE-Drive與兩個基線模型在真實世界數(shù)據(jù)中舒適度指標的比較結(jié)果;(b) 顯示了HE-Drive在閉環(huán)數(shù)據(jù)集OpenScene上的效率指標比較結(jié)果。
總結(jié)
本文介紹了HE-Drive,一種新穎的以類人駕駛為核心的端到端自動駕駛系統(tǒng),旨在解決現(xiàn)有方法在實現(xiàn)時間一致性和乘客舒適度方面的局限性。HE-Drive集成了稀疏感知模塊、基于擴散的運動規(guī)劃器以及Llama 3.2V引導(dǎo)的軌跡評分系統(tǒng)。稀疏感知模塊通過統(tǒng)一檢測、跟蹤和在線映射,實現(xiàn)了完全稀疏的場景表示?;跀U散的運動規(guī)劃器在連續(xù)空間中生成多模態(tài)軌跡,確保時間一致性并模擬人類的決策過程。軌跡評分模塊結(jié)合了基于規(guī)則的方法和Llama 3.2V,提升了系統(tǒng)的泛化能力、可解釋性、穩(wěn)定性和舒適度。廣泛的實驗表明,HE-Drive在開放環(huán)和閉環(huán)數(shù)據(jù)集上相較于最先進的方法表現(xiàn)出色,生成了具備更好時間一致性和乘客舒適度的類人軌跡。