自動駕駛大模型論文調研與簡述
本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
最近關于大模型(LLMs, VLM)與自動駕駛相關文獻調研與匯總:
適合用于什么任務?答:目前基本上場景理解、軌跡預測、行為決策、運動規(guī)劃、端到端控制都有在做。
大家都怎么做的?
- 對于規(guī)控任務,LLM型基本是調用+Prompt設計,集中在輸入和輸出設計,如輸入有 1.2 DiLu這種拼memory的,輸出有1.1 LanguageMPC這種做cost function的,訓練和微調的有1.3 Wayve的工作;有做開環(huán)的1.3,也有閉環(huán)的1.1 和1.2。目前仿真器和數(shù)據(jù)都未有統(tǒng)一的benchmark。
- 對于場景理解任務,大多數(shù)都在構建QA類型的數(shù)據(jù)集,常用數(shù)據(jù)集為nuScenes。
一、自動駕駛決策/規(guī)劃任務:
1. 1 LanguageMPC: Large Language Models As Decision Makers For Autonomous Driving, 10.4
動機:學習型決策系統(tǒng)缺乏 理解、泛化和可解釋性,LLM具備推理和泛化能力,如何作為決策器與下游控制器結合?Language-action對齊到了MPC的cost function。
方案:
LLM的任務1) 選擇關鍵交互車輛 2)評估當前駕駛情況 3) 提供決策動作引導。下游控制器采用了MPC controller,Language-action的輸出為 observation matrix, weight matrix, and action bias,前者對應的是關鍵交互車輛,后兩者對應MPC中Cost function的參數(shù)項。
對于上述3步所設計的prompts
實驗環(huán)境:CARLA路口、環(huán)島等。調用GPT3.5,定義輸出action,輸入非視覺可理解為將原先vector輸入語言化。
1.2. DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models, 9.28
動機:用LLM增強agent的泛化和可解釋性。這篇文章的創(chuàng)新在于memory module的引入,是7月份Drive Like a Human的改進版,值得一看。
框架:用GPT3.5作為推理輸出模塊,用GPT4作為reflection模塊。所有模塊非fine-tuning,而是輸入adaption
有意思的結論:LLM cannot directly perform the closed-loop driving tasks without any adaptation. 通過記憶模塊消融分析得到。
實驗環(huán)境:HighwayEnv,閉環(huán);加速,保持,跟車,換道等高層行為,沒說decision decoder是什么,如何映射的高層行為到底層控制。對比基線為 RL。
1.3 Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving,10.3 Wayve
動機:OOD的推理和可解釋能力;對于目標級輸入構建LLM的預訓練和微調方法,開放駕駛QA數(shù)據(jù)和評估基線。還有一個相關blog: LINGO-1: Exploring Natural Language for Autonomous Driving
方法:action teacher:RL teacher;QA teacher:GPT teacher;
?
一個結構化的語言生成器(lanGen):基于數(shù)值向量來產生prompt模版;使用RL產生專家動作O_{rl},100k問答數(shù)據(jù)從仿真器收集 (包括表征學習,推理任務:action預測,attention預測)
?
駕駛問答數(shù)據(jù)標注:使用ChatGPT來自動產生問答數(shù)據(jù), 10k
?
訓練過程:第一階段 訓練vectorformer,輸入為高維的vector向量信息 第二階段:利用QA問答數(shù)據(jù)來finetuning LLaMA-7b
實驗:在1000個不同駕駛場景中評估,指標為感知和預測精度;在開放世界場景中評估,通過ChatGPT來評估得分。要求20GB顯存來評估,40GB顯存來訓練。
1.4 GPT-DRIVER: LEARNING TO DRIVE WITH GPT,10.2
動機:推理能力和泛化
方法:1. planner inputs and outputs as language tokens 2. a novel prompting-reasoning-finetuning strategy
輸入語言token化,使用的UniAD的感知和預測結構,輸出思維鏈與上一篇類似,LLM先輸出關鍵交互車、再判斷行為決策動作,最后輸出軌跡。對chatGPT做了fine-tuning
實驗環(huán)境:NuScenes,開環(huán),對比UniAD
1.5 Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles,9.19
動機:LLM賦能
- Language Interaction
- Contextual Understanding and Reasoning
- Zero-Shot Planning
- Continuous Learning and Personalization
- Transparency and Trust
方案:更多探索人機協(xié)同,駕駛員給予指令,LLM ChatGPT 4獲取感知結果,輸出決策行為。沒有給實驗,只給了上圖的case。
1.6 Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles, 10.12
同1.5,進一步分析了ICL,CoT,Personalization方面的能力。
1.7 A Language Agent for Autonomous Driving, 11.17 (單位有Nvidia)
動機:用Agent框架重塑自動駕駛系統(tǒng),Agent Driver,三個重要組件:tool library;cognitive memory;reasoning engine;
方法:輸入為sensory data;輸出為軌跡;
Tools:抽象不同網絡輸出并轉化為text文本,即LLM調用tools來收集文本形式的環(huán)境信息;tool庫是4類神經網絡模型 檢測(產生檢測結果)、預測(產生預測結果)、占據(jù)柵格、地圖,但模型產生的信息過于冗余,LLM-based tools目的是為了從冗余的信息中提取到必要的環(huán)境信息。
Cognitive memory:基于環(huán)境信息query來搜索traffic rules (純文本形式;可以認為是考駕照科目1的學習材料) 和 similar past experience(環(huán)境信息和decision);past experience記憶搜索形式:vector-space KNN + LLM-based fuzzy search
Reasoning:LLM-based CoT作為推理引擎,最終輸出軌跡,形式如GPT-Driver,自我反思部分基于碰撞檢測和優(yōu)化方法;如果碰撞檢測到危險,會利用優(yōu)化cost function形式將LLM 產生的軌跡進行優(yōu)化;
實驗還是在Nusenses數(shù)據(jù)集上的開環(huán)評測,對標的是UniAD和GPT-Driver,消融分析了ICL和fine-tuning的性能差異,結論是ICL是首選。
1.8 A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections 6.30
不是大模型,trained PPO作為teacher,收集多任務教師數(shù)據(jù)用的 decision Transformer訓多任務策略。沒太多可看的。
二、 軌跡預測
2.1 Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving,9.13 Bosch
動機:可以將LLM看作foundation model,集成視覺特征和文本特征,進行軌跡預測獲得最好效果
方案:由于GPT系列難以得到中間feature,對于文本使用的是DistilBert,對于BEV使用了BEiT作為encoder,
2.2 MotionLM: Multi-Agent Motion Forecasting as Language Modeling, ICCV, 2023, Waymo
動機:autoregressive language models作為多智能體軌跡預測模型,在waymo交互預測任務取得SoTA
方案:使用的是LLM類似的自回歸transformer decoder,但chatGPT本身沒有太大聯(lián)系??梢酝瑫rdecoder多個智能體,不開源,
三、端到端控制任務:
3.1 DRIVEGPT4: INTERPRETABLE END-TO-END AUTONOMOUS DRIVING VIA LARGE LANGUAGE MODEL,10.2
動機:可解釋性、泛化性。同時多模態(tài)大模型還可處理圖像和視頻數(shù)據(jù);可解釋性端到端模型,用黑盒解釋黑盒,具備了人機交互層面的可解釋性。
數(shù)據(jù)集生成:在BDDK的16k固定問答數(shù)據(jù)上,用chatGPT產生了新的12k問答數(shù)據(jù)
模型訓練:使用Valley將video token轉化為語言token,LLM使用了LLaMA 2;預訓練階段只訓練video tokenizer;fine-tuning階段LLM和video tokenizer在29k數(shù)據(jù)上一起微調,同時為了保障它的問答能力,還在80k的問答數(shù)據(jù)上一起微調
實驗環(huán)境:開環(huán),視覺輸入,BDD-K,對比基線為ADAPT,metric:使用了ChatGPT打分。
3.2 ADAPT: Action-aware Driving Caption Transformer,ICRA,2023,開源代碼,中文解讀
動機:端到端模型的可解釋性
方法:連續(xù)多幀圖像輸入,預訓練的video swin transformer 得到video tokens,預測控制信號和文本輸出。
實驗環(huán)境:開環(huán),BDD-K,具體見中文解讀。
四、多視角視覺輸入場景理解:
4.1 Language Prompt for Autonomous Driving,9.8
動機:缺少多視角輸入的language prompt-instance 數(shù)據(jù)
方案:第1步:3D目標檢測,目標包括4類屬性 color,class,action,location, 手工標注13k目標;第2步:屬性與或非操作的組合;第3步:讓GPT3.5產生描述的language prompt,35k. 基于nuScenes數(shù)據(jù)集。
基于此數(shù)據(jù)集,做了prompt輸入的多目標跟蹤任務。整體效果為:利用視覺和language prompt,可以檢測和跟蹤多視角連續(xù)幀輸入的目標。
4.2 3D DENSE CAPTIONING BEYOND NOUNS: A MIDDLE-WARE FOR AUTONOMOUS DRIVING
動機:目前缺少銜接 感知和規(guī)劃的3D場景理解的LLM數(shù)據(jù)集,3D dense captioning
方案:3D目標屬性:Appearance Direction Distance Motion Road Map
4.3 Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving
與3.2類似,是對BEV input做了語言prompt.
4.4 DriveLM: Drive on Language, OpenDriveLab
LLM將用于感知、預測和規(guī)劃任務,graph of thouht. 相比于3.2,多做了預測和規(guī)劃。在nuScenes上360k annotated QA pairs。目前只開源了demo樣例。
4.5 HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving,9.11
動機:對于非高清圖片,目前預訓練的多模態(tài)大模型往往會漏掉小目標、過分關注大目標(由于預訓練數(shù)據(jù)為低分辨率圖片)。本文感知關注的是關鍵風險目標,還輸出預測和主車決策建議,
動機圖
方案:提出了用高清圖片分支輔助低分辨率分支,在23年CVPR的DRAMA數(shù)據(jù)集上進行了實驗,包括關鍵風險目標的檢測、預測目標意圖和給出駕駛建議。
五、場景或數(shù)據(jù)生成
5.1 Language-Guided Traffic Simulation via Scene-Level Diffusion,Nvidia,CoRL, 2023
動機:基于語言表述生成openscenarios格式的場景
方案:利用GPT4產生引導loss,引導擴散模型來產生指定場景
5.2 SurrealDriver: Designing Generative Driver Agent Simulation Framework in Urban Contexts based on Large Language Model,9.22
駕駛場景的可控生成,將會成為LLM的潛力方向。
5.3 WEDGE: A multi-weather autonomous driving dataset built from generative vision-language models,2023, CVPR workshop
動機:緩解OOD問題,利用DALL-E生成增廣圖片數(shù)據(jù)