地平線&港大最新端到端進展！HE-Drive：VLM+擴散模型發(fā)大力

作者：Junming Wang等 2024-10-10 09:37:49

今天為大家分享地平線&港大等團隊在端到端自動駕駛上的最新工作—HE-Drive！使用視覺大語言模型模仿人類駕駛行為的端到端算法。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

本文提出了HE-Drive：首個模仿人類駕駛為核心的端到端自動駕駛系統(tǒng)，旨在生成同時具備時間一致性和舒適性的軌跡。近期研究表明，基于模仿學習的規(guī)劃器和基于學習的軌跡評分器能夠有效生成并選擇高度模仿專家演示的準確軌跡。然而這類軌跡規(guī)劃和評分器面臨生成時間不一致且不舒適的軌跡的困境。為了解決上述問題，HE-Drive首先通過稀疏感知提取關(guān)鍵的三維空間表示，這些表示隨后作為條件輸入，傳遞給基于條件去噪擴散概率模型（DDPM）的運動規(guī)劃器，生成具備時間一致性的多模態(tài)軌跡。隨后，基于視覺語言模型（VLM）引導(dǎo)的軌跡評分器從這些候選軌跡中選擇最舒適的軌跡來控制車輛，確保類人的端到端駕駛體驗。實驗結(jié)果表明，HE-Drive在nuScenes和OpenScene數(shù)據(jù)集上實現(xiàn)了SOTA性能（即比VAD減少了71%的平均碰撞率）和效率（即比SparseDrive快1.9倍），同時在真實世界數(shù)據(jù)中提供了最舒適的駕駛體驗。

代碼鏈接：https://github.com/jmwang0117/HE-Drive

總結(jié)來說，本文的主要貢獻如下：

基于擴散的運動規(guī)劃：本文提出了一種基于擴散的運動規(guī)劃器，通過以稀疏感知網(wǎng)絡(luò)提取的3D表示為條件，并結(jié)合歷史預(yù)測軌跡的速度、加速度和偏航角，生成時間一致性和多模態(tài)的軌跡。
即插即用的軌跡評分：本文引入了一種新穎的基于視覺語言模型（VLMs）引導(dǎo)的軌跡評分器及舒適度指標，彌補了類人駕駛的不足，使其能夠輕松集成到現(xiàn)有的自動駕駛系統(tǒng)中。
優(yōu)秀的開環(huán)和閉環(huán)測試結(jié)果：HE-Drive在nuScenes和OpenScene數(shù)據(jù)集上實現(xiàn)了最先進的性能（即相比VAD減少了71%的平均碰撞率）和效率（即比SparseDrive快1.9倍），同時在真實世界數(shù)據(jù)集上將舒適度提升了32%，展示了其在各種場景中的有效性。

文章簡介

圖1：本文展示了HE-Drive，這是首個類人端到端駕駛系統(tǒng)。HE-Drive將多視角傳感器數(shù)據(jù)作為輸入，并在復(fù)雜場景中輸出最優(yōu)行駛路徑。

端到端范式將感知、規(guī)劃和軌跡評分任務(wù)集成到一個統(tǒng)一模型中，以規(guī)劃目標進行優(yōu)化，最近在推動自動駕駛技術(shù)發(fā)展方面展示了顯著的潛力（圖1a）。最新研究提出了基于模仿學習的運動規(guī)劃器，它們通過大規(guī)模駕駛演示學習駕駛策略，并使用基于學習的軌跡評分器從多個預(yù)測候選軌跡中選擇最安全、最準確的軌跡來控制車輛。然而，盡管現(xiàn)有的規(guī)劃器和評分器在預(yù)測準確性方面取得了顯著進展，它們?nèi)悦媾R生成時間不一致軌跡的挑戰(zhàn)，即連續(xù)的預(yù)測在時間上不穩(wěn)定且不一致，以及選擇不舒適軌跡的問題，這些軌跡表現(xiàn)為連續(xù)制動，導(dǎo)致車輛停頓或過大的轉(zhuǎn)彎曲率。

本文提出了HE-Drive，這是首個以類人駕駛為核心的端到端自動駕駛系統(tǒng)，旨在解決上述兩個問題，如圖2所示。具體而言，本文發(fā)現(xiàn)由基于模仿學習的規(guī)劃器生成的軌跡在時間一致性方面存在的問題主要源于兩個因素：時間相關(guān)性和泛化能力。首先，這些規(guī)劃器依賴當前幀過去幾秒的信息來預(yù)測未來軌跡，忽略了連續(xù)預(yù)測之間的相關(guān)性。其次，它們的性能受到離線收集的專家軌跡質(zhì)量的限制，導(dǎo)致在系統(tǒng)動態(tài)變化和分布外狀態(tài)下，所學的策略缺乏應(yīng)對未見場景的泛化能力。受擴散策略在機器人操作中取得成功的啟發(fā)，該策略采用視覺條件的擴散模型來精確表示多模態(tài)分布以生成動作序列，本文提出了一種基于擴散的規(guī)劃器，能夠生成具有強時間一致性的多模態(tài)軌跡。

此外，導(dǎo)致預(yù)測軌跡不舒適的關(guān)鍵原因在于次優(yōu)軌跡評分器無法實現(xiàn)持續(xù)評估，并且缺乏衡量軌跡舒適度的通用指標。近期研究表明，基于學習的評分器在閉環(huán)場景中不如基于規(guī)則的評分器，而后者由于依賴手工設(shè)計的后處理方式，泛化能力有限。其他研究者探索了使用視覺語言模型（VLMs）來感知周圍代理的運動和交通表示，從而決定下一步行動。然而，直接將VLMs作為駕駛決策者面臨解釋性差和嚴重幻覺問題。為了解決這些問題，本文提出了一種新穎的軌跡評分器和通用的舒適度指標，結(jié)合了基于規(guī)則評分器的可解釋性與VLMs的適應(yīng)性，能夠根據(jù)駕駛風格（例如，激進或保守）進行調(diào)整，從而實現(xiàn)持續(xù)評估。

綜上所述，HE-Drive是一種新穎的以類人駕駛為核心的端到端自動駕駛系統(tǒng)。該系統(tǒng)利用稀疏感知技術(shù)，通過稀疏特征來檢測、跟蹤并映射駕駛場景，生成三維空間表示。這些表示作為條件輸入到基于擴散的運動規(guī)劃器中，該規(guī)劃器由條件去噪擴散概率模型（DDPM）驅(qū)動。最后，基于視覺語言模型（如Llama 3.2V）引導(dǎo)的軌跡評分器從候選軌跡中選擇最舒適的軌跡來控制車輛，確保類人風格的端到端駕駛體驗。

HE-Drive方法詳解

稀疏感知

HE Drive首先采用視覺編碼器從輸入的多視圖相機圖像中提取多視圖視覺特征，表示為F。隨后稀疏感知同時執(zhí)行檢測、跟蹤和在線地圖任務(wù)，為周圍環(huán)境提供更高效、更緊湊的3D表示（見圖2）。

基于擴散模型的運動規(guī)劃

圖2展示了我們基于擴散的運動規(guī)劃器的整體流程。我們采用基于CNN的擴散策略作為基礎(chǔ)，該策略由一個由1D卷積層、上采樣層和FiLM（特征線性調(diào)制）層組成的條件U-Net組成。

運動規(guī)劃器擴散策略：本文的方法（圖7）采用了條件去噪擴散概率模型（DDPM），這是一個通過參數(shù)化馬爾可夫鏈定義的生成模型，使用變分推理訓(xùn)練來模擬條件分布p（At | Ot）。DDPM由一個正向過程和一個反向過程組成，正向過程逐漸將高斯噪聲添加到輸入數(shù)據(jù)中，將其轉(zhuǎn)換為純噪聲，反向過程迭代地對噪聲數(shù)據(jù)進行去噪以恢復(fù)原始數(shù)據(jù)。

大模型指導(dǎo)下的軌跡評分

為了從DDPM生成的多模態(tài)軌跡中選擇最合適的路徑，我們引入了VLMs制導(dǎo)軌跡評分器（VTS），如圖3所示。據(jù)我們所知，VTS是第一個結(jié)合了可解釋性和零樣本駕駛推理能力的軌跡評分器。通過利用視覺語言模型（VLM），悉尼威立雅運輸公司可以根據(jù)各種駕駛因素（如碰撞概率和舒適度）有效地評估軌跡，從而實現(xiàn)透明的決策和對新駕駛場景的適應(yīng)性，而無需進行廣泛的微調(diào)（即終身評估）。

實驗結(jié)果

圖4：Llama 3.2V在nuScenes上的定性結(jié)果。本文展示了問題（Q）、上下文（C）和答案（A）。通過結(jié)合環(huán)視圖像和文本數(shù)據(jù)，基于規(guī)則的評分器通過針對性的權(quán)重修改，實現(xiàn)了駕駛風格的微調(diào)。

圖5：(a) 和 (b) 展示了軌跡生成和評分過程，其中(a) 中的灰色軌跡表示為最優(yōu)路徑，基于最低成本標準被選中用于車輛控制。

圖6：(a) 顯示了HE-Drive與兩個基線模型在真實世界數(shù)據(jù)中舒適度指標的比較結(jié)果；(b) 顯示了HE-Drive在閉環(huán)數(shù)據(jù)集OpenScene上的效率指標比較結(jié)果。

總結(jié)

本文介紹了HE-Drive，一種新穎的以類人駕駛為核心的端到端自動駕駛系統(tǒng)，旨在解決現(xiàn)有方法在實現(xiàn)時間一致性和乘客舒適度方面的局限性。HE-Drive集成了稀疏感知模塊、基于擴散的運動規(guī)劃器以及Llama 3.2V引導(dǎo)的軌跡評分系統(tǒng)。稀疏感知模塊通過統(tǒng)一檢測、跟蹤和在線映射，實現(xiàn)了完全稀疏的場景表示?；跀U散的運動規(guī)劃器在連續(xù)空間中生成多模態(tài)軌跡，確保時間一致性并模擬人類的決策過程。軌跡評分模塊結(jié)合了基于規(guī)則的方法和Llama 3.2V，提升了系統(tǒng)的泛化能力、可解釋性、穩(wěn)定性和舒適度。廣泛的實驗表明，HE-Drive在開放環(huán)和閉環(huán)數(shù)據(jù)集上相較于最先進的方法表現(xiàn)出色，生成了具備更好時間一致性和乘客舒適度的類人軌跡。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

地平線&港大最新端到端進展！HE-Drive：VLM+擴散模型發(fā)大力

寫在前面&筆者的個人理解

文章簡介

相關(guān)工作回顧

端到端自動駕駛

擴散模型用于軌跡生成

大模型用于軌跡評測