清華叉院、理想提出DriveVLM,視覺大語言模型提升自動(dòng)駕駛能力
與生成式 AI 相比,自動(dòng)駕駛也是近期 AI 最活躍的研究和開發(fā)領(lǐng)域之一。要想構(gòu)建完全的自動(dòng)駕駛系統(tǒng),人們面臨的主要挑戰(zhàn)是 AI 的場景理解,這會涉及到復(fù)雜、不可預(yù)測的場景,例如惡劣天氣、復(fù)雜的道路布局和不可預(yù)見的人類行為。
現(xiàn)有的自動(dòng)駕駛系統(tǒng)通常包括 3D 感知、運(yùn)動(dòng)預(yù)測和規(guī)劃組成部分。具體來說,3D 感知僅限于檢測和跟蹤熟悉的物體,忽略了罕見物體及其屬性, 運(yùn)動(dòng)預(yù)測和規(guī)劃則關(guān)注物體的軌跡動(dòng)作,通常會忽略物體和車輛之間的決策級交互。
自動(dòng)駕駛需要從數(shù)據(jù)驅(qū)動(dòng)迭代到知識驅(qū)動(dòng),通過訓(xùn)練具備邏輯推理能力的大模型才能真正解決長尾問題,只有這樣才能邁向開放世界的 L4 級能力。隨著 GPT4、Sora 等大模型通過涌現(xiàn)、規(guī)模效應(yīng)展現(xiàn)出強(qiáng)大 few-shot/zero-shot 能力,人們正在思考一條新路。
最近清華大學(xué)交叉信息研究院、理想汽車提交的新論文中,作者提出了 DriveVLM,受到最近生成式 AI 領(lǐng)域興起的視覺語言模型(VLM)啟發(fā),DriveVLM 在視覺理解和推理方面表現(xiàn)出了非凡的能力。
在業(yè)界,這是第一個(gè)提出自動(dòng)駕駛快慢系統(tǒng)的工作,方法充分結(jié)合了主流自動(dòng)駕駛 pipeline 和具備邏輯思考的大模型 pipeline,并第一個(gè)完成端測部署的大模型工作(基于 Orin 平臺)。
DriveVLM 包含一個(gè) Chain-of-Though (CoT) 流程,該流程具有三個(gè)關(guān)鍵模塊:場景描述、場景分析和分層規(guī)劃。場景描述模塊用語言描述駕駛環(huán)境,并識別場景中的關(guān)鍵對象;場景分析模塊深入研究關(guān)鍵對象的特征及其對自我車輛的影響;分層規(guī)劃模塊從元?jiǎng)幼骱蜎Q策描述到路徑點(diǎn)逐步制定計(jì)劃。
這些模塊分別對應(yīng)于傳統(tǒng)自動(dòng)駕駛系統(tǒng)流程的感知 - 預(yù)測 - 規(guī)劃流程三部分組件,不同之處在于它們處理對象感知、意圖級預(yù)測和任務(wù)級規(guī)劃,這些在過去是非常具有挑戰(zhàn)性的。
雖然 VLM 在視覺理解方面表現(xiàn)出色,但它們在空間基礎(chǔ)和推理方面存在局限性,而且其算力需求對端側(cè)推理速度提出了挑戰(zhàn)。因此,作者進(jìn)一步提出了 DriveVLMDual,這是一種結(jié)合了 DriveVLM 和傳統(tǒng)系統(tǒng)優(yōu)點(diǎn)的混合系統(tǒng)。DriveVLM-Dual 可選擇將 DriveVLM 與傳統(tǒng) 3D 感知和規(guī)劃模塊(如 3D 物體探測器、占用網(wǎng)絡(luò)和運(yùn)動(dòng)規(guī)劃器)集成,使系統(tǒng)能夠?qū)崿F(xiàn) 3D 接地和高頻規(guī)劃能力。這種雙系統(tǒng)設(shè)計(jì)類似于人腦的慢速和快速思維過程,可以有效地適應(yīng)駕駛場景中不同的復(fù)雜性。
同時(shí),新研究定義了場景理解和規(guī)劃(SUP)任務(wù),并提出了新的評估指標(biāo)來評估 DriveVLM 和 DriveVLM-Dual 的場景分析和元?jiǎng)幼饕?guī)劃能力。此外,作者還進(jìn)行了全面的數(shù)據(jù)挖掘和注釋管道,為 SUP 任務(wù)構(gòu)建內(nèi)部 SUP-AD 數(shù)據(jù)集。
經(jīng)過 nuScenes 數(shù)據(jù)集和自有數(shù)據(jù)集上的大量實(shí)驗(yàn),人們證明了 DriveVLM 的優(yōu)越性,尤其是在少量鏡頭的情況下。此外,DriveVLM-Dual 超越了最先進(jìn)的端到端運(yùn)動(dòng)規(guī)劃方法。
論文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》
論文鏈接:https://arxiv.org/abs/2402.12289
項(xiàng)目連接:https://tsinghua-mars-lab.github.io/DriveVLM/
DriveVLM 的整體流程如圖 1 所示:
- 將連續(xù)幀視覺圖像進(jìn)行編碼,通過特征對齊模塊,與 LMM 進(jìn)行交互;
- 從場景描述開始引導(dǎo) VLM 模型的思考,先引導(dǎo)時(shí)間、場景、車道環(huán)境等靜態(tài)場景,再引導(dǎo)影響駕駛決策關(guān)鍵障礙物;
- 對關(guān)鍵障礙物進(jìn)行分析,通過傳統(tǒng) 3D 檢測和 VLM 理解的障礙物進(jìn)行匹配,進(jìn)?步確認(rèn)障礙物的有效性并消除幻覺,描述該場景下的關(guān)鍵障礙物的特征和對我們駕駛的影響;
- 給出關(guān)鍵的「元決策」,如減速、停車、左右轉(zhuǎn)等,在根據(jù)元決策給出駕駛策略描述,并最終給出主車未來的駕駛軌跡。
圖 1.DriveVLM 和 DriveVLM-Dual 模型管道。一系列圖像由大視覺語言模型 (VLM) 處理,以執(zhí)行特殊的思想鏈 (CoT) 推理,從而得出駕駛規(guī)劃結(jié)果。大型 VLM 涉及視覺變換器編碼器和大語言模型(LLM)。視覺編碼器產(chǎn)生圖像標(biāo)記;然后基于注意力的提取器將這些標(biāo)記與 LLM 對齊;最后,LLM 進(jìn)行 CoT 推理。CoT 過程可以分為三個(gè)模塊:場景描述、場景分析和層次規(guī)劃。
DriveVLM-Dual 是一種混合系統(tǒng),利用 DriveVLM 對環(huán)境的綜合理解和決策軌跡的建議,提升了傳統(tǒng)自動(dòng)駕駛 Pipeline 的決策和規(guī)劃能力。它將 3D 感知結(jié)果合并為語言提示,以增強(qiáng) 3D 場景理解能力,并通過實(shí)時(shí)運(yùn)動(dòng)規(guī)劃器進(jìn)一步細(xì)化軌跡路點(diǎn)。
盡管 VLM 擅長識別長尾物體和理解復(fù)雜場景,但它們經(jīng)常難以精確理解物體的空間位置和詳細(xì)運(yùn)動(dòng)狀態(tài),這一不足構(gòu)成了重大挑戰(zhàn)。更糟糕的是,VLM 巨大的模型體量導(dǎo)致高延遲,阻礙了自動(dòng)駕駛的實(shí)時(shí)響應(yīng)能力。為了應(yīng)對這些挑戰(zhàn),作者提出了 DriveVLM-Dual,讓 DriveVLM 和傳統(tǒng)自動(dòng)駕駛系統(tǒng)進(jìn)行合作。這種新方法涉及兩個(gè)關(guān)鍵策略:結(jié)合 3D 感知進(jìn)行關(guān)鍵對象分析,給出高維駕駛決策信息,以及高頻軌跡細(xì)化。
另外,為了充分發(fā)揮 DriveVLM 和 DriveVLMDual 在處理復(fù)雜和長尾駕駛場景方面的潛力,研究人員正式定義了一項(xiàng)名為場景理解規(guī)劃的任務(wù),以及一組評估指標(biāo)。此外,作者提出了一種數(shù)據(jù)挖掘和注釋協(xié)議來管理場景理解和規(guī)劃數(shù)據(jù)集。
為了充分訓(xùn)練模型,作者全新開發(fā)了?套 Drive LLM 的標(biāo)注工具和標(biāo)注方案,通過自動(dòng)化挖掘、感知算法預(yù)刷、GPT-4 大模型總結(jié)和人工標(biāo)注等多種方式相結(jié)合,形成了目前這?套高效的標(biāo)注方案,每?個(gè) Clip 數(shù)據(jù)都包含了多達(dá)數(shù)十種標(biāo)注內(nèi)容。
圖 2. SUP-AD 數(shù)據(jù)集的帶注釋樣本。
作者還提出了一個(gè)全面的數(shù)據(jù)挖掘和注釋管道,如圖 3 所示,為所提出的任務(wù)構(gòu)建場景理解規(guī)劃 (SUP-AD,Scene Understanding for Planning in Autonomous Driving) 數(shù)據(jù)集,包含 100k+ 圖像和 1000k+ 圖文對 。具體來說,作者首先從大型數(shù)據(jù)庫中進(jìn)行長尾對象挖掘和具有挑戰(zhàn)性的場景挖掘來收集樣本,然后從每個(gè)樣本中選擇一個(gè)關(guān)鍵幀并進(jìn)一步進(jìn)行場景注釋。
圖 3. 用于構(gòu)建場景理解和規(guī)劃數(shù)據(jù)集的數(shù)據(jù)挖掘和注釋管道(上圖)。從數(shù)據(jù)集中隨機(jī)采樣的場景示例(如下)展示了數(shù)據(jù)集的多樣性和復(fù)雜性。
SUP-AD 分為訓(xùn)練、驗(yàn)證和測試部分,比例為 7.5 : 1 : 1.5。作者在訓(xùn)練分割上訓(xùn)練模型,并使用新提出的場景描述和元?jiǎng)幼髦笜?biāo)來評估驗(yàn)證 / 測試分割上的模型性能。
nuScenes 數(shù)據(jù)集是一個(gè)大規(guī)模的城市場景駕駛數(shù)據(jù)集,有 1000 個(gè)場景,每個(gè)場景持續(xù)約 20 秒。關(guān)鍵幀在整個(gè)數(shù)據(jù)集上以 2Hz 的頻率均勻注釋。在這里,作者采用位移誤差(DE)和碰撞率(CR)作為指標(biāo)來評估模型在驗(yàn)證分割上的性能。
作者展示了 DriveVLM 與幾種大型視覺語言模型的性能,并將它們與 GPT-4V 進(jìn)行比較,如表 1 所示。DriveVLM 利用 Qwen-VL 作為其骨干,其實(shí)現(xiàn)了與其他開源 VLM 相比的最佳性能,具有應(yīng)答和靈活交互的特點(diǎn)。其中前兩個(gè)大模型已開源,使用了同樣的數(shù)據(jù)進(jìn)進(jìn)了微調(diào)訓(xùn)練,GPT-4V 使用了復(fù)雜的 Prompt 進(jìn)行 Prompt 工程。
表 1. 在 SUP-AD 數(shù)據(jù)集上的測試集結(jié)果。這里使用了 GPT-4V 的官方 API,對于 Lynx 和 CogVLM,利用訓(xùn)練分割來進(jìn)行微調(diào)。
如表 2 所示,DriveVLM-Dual 與 VAD 配合時(shí),在 nuScenes 規(guī)劃任務(wù)上取得了最先進(jìn)的性能。這表明新方法雖然是為理解復(fù)雜場景而定制的,但在普通場景中也表現(xiàn)出色。請注意,DriveVLM-Dual 比 UniAD 有了顯著提升:平均規(guī)劃位移誤差降低了 0.64 米,碰撞率降低了 51%。
表 2. nuScenes 驗(yàn)證數(shù)據(jù)集的規(guī)劃結(jié)果。DriveVLM-Dual 實(shí)現(xiàn)了最佳性能。? 表示使用 Uni-AD 的感知和占用預(yù)測結(jié)果。? 表示與 VAD 合作,所有模型都以自我狀態(tài)作為輸入。
圖 4. DriveVLM 的定性結(jié)果。橙色曲線代表模型在接下來 3 秒內(nèi)計(jì)劃的未來軌跡。
DriveVLM 的定性結(jié)果如圖 4 所示。在圖 4a 中,DriveVLM 準(zhǔn)確預(yù)測當(dāng)前場景條件,并結(jié)合有關(guān)接近我們的騎車人的有思考的規(guī)劃決策。DriveVLM 還有效地理解了前方交警手勢,向自我車輛發(fā)出繼續(xù)前進(jìn)的信號,并且還考慮了右側(cè)騎三輪車的人,從而做出正確的駕駛決策。這些定性結(jié)果證明了 DriveVLM 模型具有理解復(fù)雜場景并制定合適駕駛計(jì)劃的卓越能力。
圖 7:SUP-AD 數(shù)據(jù)集中的各種駕駛場景。
圖 9. SUP-AD 數(shù)據(jù)集中牛群和羊群的示例。一群牛在本車前方緩慢移動(dòng),要求策略推理出本車緩慢行駛并與牛保持安全距離。
圖 16. DriveVLM 輸出的可視化。DriveVLM 可以精確檢測倒下的樹木及其位置,隨后規(guī)劃合適的繞行軌跡。