世界模型和DriveGPT這類大模型到底能給自動(dòng)駕駛帶來什么?
本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
大模型今年爆火,很多領(lǐng)域上的應(yīng)用如雨后春筍般涌現(xiàn),很多優(yōu)秀的工作出現(xiàn),主要集中在數(shù)據(jù)生成和場景分析表述兩部分,重點(diǎn)解決自動(dòng)駕駛的長尾分布問題和場景識別。今天自動(dòng)駕駛之心帶大家梳理下自動(dòng)駕駛行業(yè)上的大模型應(yīng)用主要方案。所有論文可以在底部獲取下載鏈接!
1、ADAPT
ADAPT: Action-aware Driving Caption Transformer(ICRA2023)
ADAPT提出了一種基于端到端transformer的架構(gòu)ADAPT(動(dòng)作感知Driving cAPtion transformer),它為自動(dòng)駕駛車輛的控制和動(dòng)作提供了用戶友好的自然語言敘述和推理。ADAPT通過共享視頻表示聯(lián)合訓(xùn)練駕駛字幕任務(wù)和車輛控制預(yù)測任務(wù)。
整體架構(gòu):
ADAPT框架概述,(a) 輸入是車輛的前視圖視頻,輸出是預(yù)測車輛的控制信號以及當(dāng)前動(dòng)作的敘述和推理。首先對視頻中的T幀進(jìn)行密集和均勻的采樣,將其發(fā)送到可學(xué)習(xí)的視頻swin transformer,并標(biāo)記為視頻標(biāo)記。不同的預(yù)測頭生成最終的運(yùn)動(dòng)結(jié)果和文本結(jié)果。(b) (c)分別顯示預(yù)測頭~
2、BEVGPT
Generative Pre-trained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning.(AAAI2024)
BEVGPT 是第一個(gè)生成式, 集預(yù)測、決策、運(yùn)動(dòng)規(guī)劃于一體的自監(jiān)督 pre-trained的大模型。輸入BEV images, 輸出自車軌跡, 并且能夠輸出對駕駛場景的預(yù)測, 該方案訓(xùn)練時(shí)需要高精地圖。之所以叫GPT,一方面是因?yàn)槔昧薌PT式的自回歸訓(xùn)練方法, 這里自回歸的輸入是歷史的軌跡及BEV, target 是下一個(gè)BEV和軌跡。另一方面,能夠做到生成, 即給定初始楨的BEV, 算法能夠自己生成接下來的多幀BEV場景。該方法并不是一個(gè)從傳感器輸入的端到端方法, 可以看成是基于感知的結(jié)果,將后面的模塊用一個(gè)模型給模型化了, 在實(shí)際中也有重要的應(yīng)用價(jià)值. 比如能夠基于很多駕駛回傳數(shù)據(jù)的感知結(jié)果和軌跡真值來訓(xùn)練駕駛專家模型。
整體結(jié)構(gòu):
3、DriveGPT4
DriveGPT4 Interpretable End-to-end Autonomous Driving via Large Language Model
在過去的十年里,自動(dòng)駕駛在學(xué)術(shù)界和工業(yè)界都得到了快速發(fā)展。然而其有限的可解釋性仍然是一個(gè)懸而未決的重大問題,嚴(yán)重阻礙了自動(dòng)駕駛的發(fā)展進(jìn)程。以前使用小語言模型的方法由于缺乏靈活性、泛化能力和魯棒性而未能解決這個(gè)問題。近兩年隨著ChatGPT的出現(xiàn),多模態(tài)大型語言模型(LLM)因其通過文本處理和推理非文本數(shù)據(jù)(如圖像和視頻)的能力而受到研究界的極大關(guān)注。因此一些工作開始嘗試將自動(dòng)駕駛和大語言模型結(jié)合起來,今天汽車人為大家分享的DriveGPT4就是利用LLM的可解釋實(shí)現(xiàn)的端到端自動(dòng)駕駛系統(tǒng)。DriveGPT4能夠解釋車輛動(dòng)作并提供相應(yīng)的推理,以及回答用戶提出的各種問題以增強(qiáng)交互。此外,DriveGPT4以端到端的方式預(yù)測車輛的運(yùn)動(dòng)控制。這些功能源于專門為無人駕駛設(shè)計(jì)的定制視覺指令調(diào)整數(shù)據(jù)集。DriveGPT4也是世界首個(gè)專注于可解釋的端到端自動(dòng)駕駛的工作。當(dāng)與傳統(tǒng)方法和視頻理解LLM一起在多個(gè)任務(wù)上進(jìn)行評估時(shí),DriveGPT4表現(xiàn)出SOTA的定性和定量性能。
4、Drive Like a Human
Drive Like a Human: Rethinking Autonomous Driving with Large Language Models.
code:https://github.com/PJLab-ADG/DriveLikeAHuman
作者提出了理想的AD系統(tǒng)應(yīng)該像人類一樣駕駛,通過持續(xù)駕駛積累經(jīng)驗(yàn),并利用常識解決問題。為了實(shí)現(xiàn)這一目標(biāo),確定了AD系統(tǒng)所需的三種關(guān)鍵能力:推理、解釋和記憶。通過構(gòu)建閉環(huán)系統(tǒng)來展示LLM的理解能力和環(huán)境交互能力,證明了在駕駛場景中使用LLM的可行性。大量實(shí)驗(yàn)表明,LLM表現(xiàn)出了令人印象深刻的推理和解決長尾案例的能力,為類人自動(dòng)駕駛的發(fā)展提供了寶貴的見解!
5、Driving with LLMs
Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving.
大型語言模型(LLM)在自動(dòng)駕駛領(lǐng)域顯示出了前景,尤其是在泛化和可解釋性方面。本文引入了一種獨(dú)特的目標(biāo)級多模式LLM架構(gòu),該架構(gòu)將矢量化的數(shù)字模態(tài)與預(yù)先訓(xùn)練的LLM相結(jié)合,以提高對駕駛情況下上下文的理解。本文還提出了一個(gè)新的數(shù)據(jù)集,其中包括來自10k駕駛場景的160k個(gè)QA對,與RL代理收集的高質(zhì)量控制命令和教師LLM(GPT-3.5)生成的問答對配對。設(shè)計(jì)了一種獨(dú)特的預(yù)訓(xùn)練策略,使用矢量字幕語言數(shù)據(jù)將數(shù)字矢量模態(tài)與靜態(tài)LLM表示對齊。論文還介紹了駕駛QA的評估指標(biāo),并展示了LLM駕駛員在解釋駕駛場景、回答問題和決策方面的熟練程度。與傳統(tǒng)的行為克隆相比,突出了基于LLM的驅(qū)動(dòng)動(dòng)作生成的潛力。我們也提供了基準(zhǔn)、數(shù)據(jù)集和模型以供進(jìn)一步探索。
模型結(jié)構(gòu):
LLM駕駛體系結(jié)構(gòu)概述,演示如何使用來自駕駛模擬器的對象級矢量輸入來通過LLM預(yù)測動(dòng)作!
6、HiLM-D
HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving.
自動(dòng)駕駛系統(tǒng)通常針對不同的任務(wù)使用單獨(dú)的模型,從而產(chǎn)生復(fù)雜的設(shè)計(jì)。這是首次利用奇異多模態(tài)大語言模型(MLLMs)來整合視頻中的多個(gè)自動(dòng)駕駛?cè)蝿?wù),即風(fēng)險(xiǎn)目標(biāo)定位和意圖與建議預(yù)測(ROLISP)任務(wù)。ROLISP使用自然語言同時(shí)識別和解釋風(fēng)險(xiǎn)目標(biāo),理解自我-車輛意圖,并提供動(dòng)作建議,從而消除了特定任務(wù)架構(gòu)的必要性。然而,由于缺乏高分辨率(HR)信息,現(xiàn)有的MLLM在應(yīng)用于ROLISP時(shí)往往會(huì)錯(cuò)過小目標(biāo)(如交通錐),并過度關(guān)注突出目標(biāo)(如大型卡車)。本文提出了HiLM-D(在用于自動(dòng)駕駛的MLLMs中實(shí)現(xiàn)高分辨率理解),這是一種將人力資源信息整合到用于ROLISP任務(wù)的MLLMs中的有效方法。
HiLM-D集成了兩個(gè)分支:
(i) 低分辨率推理分支可以是任何MLLMs,處理低分辨率視頻以說明風(fēng)險(xiǎn)目標(biāo)并辨別自我車輛意圖/建議;
(ii)HiLM-D突出的高分辨率感知分支(HR-PB)攝取HR圖像,通過捕捉視覺特異性HR特征圖并將所有潛在風(fēng)險(xiǎn)優(yōu)先于僅突出的目標(biāo)來增強(qiáng)檢測;HR-PB作為一個(gè)即插即用模塊,無縫地適應(yīng)當(dāng)前的MLLM。在ROLISP基準(zhǔn)上的實(shí)驗(yàn)表明,與領(lǐng)先的MLLMs相比,HiLM-D具有顯著的優(yōu)勢,在BLEU-4中用于字幕的改進(jìn)為4.8%,在mIoU中用于檢測的改進(jìn)為17.2%。
7、LanguageMPC
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving.
這項(xiàng)工作將大型語言模型(LLM)作為需要人類常識理解的復(fù)雜AD場景的決策組件。設(shè)計(jì)了認(rèn)知途徑,以實(shí)現(xiàn)LLM的全面推理,并開發(fā)了將LLM決策轉(zhuǎn)化為可操作駕駛命令的算法。通過這種方法,LLM決策通過引導(dǎo)參數(shù)矩陣自適應(yīng)與低級控制器無縫集成。大量實(shí)驗(yàn)表明,由于LLM的常識性推理能力,提出的方法不僅在單車任務(wù)中始終優(yōu)于基線方法,而且有助于處理復(fù)雜的駕駛行為,甚至多車協(xié)調(diào)。本文在安全性、效率、可推廣性和互操作性方面,為利用LLM作為復(fù)雜AD場景的有效決策者邁出了第一步,希望它能成為該領(lǐng)域未來研究的靈感來源。
網(wǎng)絡(luò)結(jié)構(gòu):
8、Planning-oriented Autonomous Driving
今年CVPR2023的best paper!UniAD將各任務(wù)通過token的形式在特征層面,按照感知-預(yù)測-決策的流程進(jìn)行深度融合,使得各項(xiàng)任務(wù)彼此支持,實(shí)現(xiàn)性能提升。在nuScenes數(shù)據(jù)集的所有任務(wù)上,UniAD都達(dá)到SOTA性能,比所有其它端到端的方法都要優(yōu)越,尤其是預(yù)測和規(guī)劃效果遠(yuǎn)超其它模型。作為業(yè)內(nèi)首個(gè)實(shí)現(xiàn)感知決策一體化自動(dòng)駕駛通用大模型,UniAD能更好地協(xié)助進(jìn)行行車規(guī)劃,實(shí)現(xiàn)「多任務(wù)」和「高性能」,確保車輛行駛的可靠和安全?;诖?,UniAD具有極大的應(yīng)用落地潛力和價(jià)值。
9、WEDGE
WEDGE:A multi-weather autonomous driving dataset built from generative vision-language models.
開放的道路給自主感知帶來了許多挑戰(zhàn),包括極端天氣。在好天氣數(shù)據(jù)集上訓(xùn)練的模型經(jīng)常無法在這些分布外數(shù)據(jù)(OOD)設(shè)置中進(jìn)行檢測。為了增強(qiáng)感知中的對抗性魯棒性,本文引入WEDGE(WEather Images by DALL-E GEneration):一個(gè)通過提示用視覺語言生成模型生成的合成數(shù)據(jù)集。WEDGE 由 16 種極端天氣條件下的 3360 張圖像組成,并用 16513 個(gè)邊框手動(dòng)注釋,支持天氣分類和 2D 目標(biāo)檢測任務(wù)的研究。作者從研究的角度分析了WEDGE,驗(yàn)證了其對于極端天氣自主感知的有效性。作者還建立了分類和檢測的基線性能,測試準(zhǔn)確度為 53.87%,mAP 為 45.41。WEDGE 可用于微調(diào)檢測器,將真實(shí)世界天氣基準(zhǔn)(例如 DAWN)的 SOTA 性能提高 4.48 AP,適用于卡車等類別。
原文鏈接:https://mp.weixin.qq.com/s/jJkwrf_-1mjO4yGjbJXb3Q