自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="satwx"></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

自動駕駛大模型論文調研與簡述

作者：科研放大器 2023-12-08 10:10:56

人工智能新聞

學習型決策系統(tǒng)缺乏理解、泛化和可解釋性，LLM具備推理和泛化能力，如何作為決策器與下游控制器結合？Language-action對齊到了MPC的cost function。

本文經自動駕駛之心公眾號授權轉載，轉載請聯(lián)系出處。

最近關于大模型(LLMs, VLM)與自動駕駛相關文獻調研與匯總：

適合用于什么任務？答：目前基本上場景理解、軌跡預測、行為決策、運動規(guī)劃、端到端控制都有在做。

大家都怎么做的？

對于規(guī)控任務，LLM型基本是調用+Prompt設計，集中在輸入和輸出設計，如輸入有 1.2 DiLu這種拼memory的，輸出有1.1 LanguageMPC這種做cost function的，訓練和微調的有1.3 Wayve的工作；有做開環(huán)的1.3，也有閉環(huán)的1.1 和1.2。目前仿真器和數(shù)據(jù)都未有統(tǒng)一的benchmark。
對于場景理解任務，大多數(shù)都在構建QA類型的數(shù)據(jù)集，常用數(shù)據(jù)集為nuScenes。

一、自動駕駛決策/規(guī)劃任務：

1. 1 LanguageMPC: Large Language Models As Decision Makers For Autonomous Driving， 10.4

動機：學習型決策系統(tǒng)缺乏理解、泛化和可解釋性，LLM具備推理和泛化能力，如何作為決策器與下游控制器結合？Language-action對齊到了MPC的cost function。

方案：

LLM的任務1) 選擇關鍵交互車輛 2)評估當前駕駛情況 3) 提供決策動作引導。下游控制器采用了MPC controller，Language-action的輸出為 observation matrix, weight matrix, and action bias，前者對應的是關鍵交互車輛，后兩者對應MPC中Cost function的參數(shù)項。

對于上述3步所設計的prompts

實驗環(huán)境：CARLA路口、環(huán)島等。調用GPT3.5，定義輸出action，輸入非視覺可理解為將原先vector輸入語言化。

1.2. DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models, 9.28

動機：用LLM增強agent的泛化和可解釋性。這篇文章的創(chuàng)新在于memory module的引入，是7月份Drive Like a Human的改進版，值得一看。

框架：用GPT3.5作為推理輸出模塊，用GPT4作為reflection模塊。所有模塊非fine-tuning，而是輸入adaption

有意思的結論：LLM cannot directly perform the closed-loop driving tasks without any adaptation. 通過記憶模塊消融分析得到。

實驗環(huán)境：HighwayEnv，閉環(huán)；加速，保持，跟車，換道等高層行為，沒說decision decoder是什么，如何映射的高層行為到底層控制。對比基線為 RL。

1.3 Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving，10.3 Wayve

動機：OOD的推理和可解釋能力；對于目標級輸入構建LLM的預訓練和微調方法，開放駕駛QA數(shù)據(jù)和評估基線。還有一個相關blog: LINGO-1: Exploring Natural Language for Autonomous Driving

方法：action teacher：RL teacher；QA teacher：GPT teacher；

?

一個結構化的語言生成器(lanGen)：基于數(shù)值向量來產生prompt模版；使用RL產生專家動作O_{rl}，100k問答數(shù)據(jù)從仿真器收集（包括表征學習，推理任務：action預測，attention預測）

?

駕駛問答數(shù)據(jù)標注：使用ChatGPT來自動產生問答數(shù)據(jù), 10k

?

訓練過程：第一階段訓練vectorformer，輸入為高維的vector向量信息第二階段：利用QA問答數(shù)據(jù)來finetuning LLaMA-7b

實驗：在1000個不同駕駛場景中評估，指標為感知和預測精度；在開放世界場景中評估，通過ChatGPT來評估得分。要求20GB顯存來評估，40GB顯存來訓練。

1.4 GPT-DRIVER: LEARNING TO DRIVE WITH GPT，10.2

動機：推理能力和泛化

方法：1. planner inputs and outputs as language tokens 2. a novel prompting-reasoning-finetuning strategy

輸入語言token化，使用的UniAD的感知和預測結構，輸出思維鏈與上一篇類似，LLM先輸出關鍵交互車、再判斷行為決策動作，最后輸出軌跡。對chatGPT做了fine-tuning

實驗環(huán)境：NuScenes，開環(huán)，對比UniAD

1.5 Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles，9.19

動機：LLM賦能

Language Interaction
Contextual Understanding and Reasoning
Zero-Shot Planning
Continuous Learning and Personalization
Transparency and Trust

方案：更多探索人機協(xié)同，駕駛員給予指令，LLM ChatGPT 4獲取感知結果，輸出決策行為。沒有給實驗，只給了上圖的case。

1.6 Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles, 10.12

同1.5，進一步分析了ICL，CoT，Personalization方面的能力。

1.7 A Language Agent for Autonomous Driving， 11.17 （單位有Nvidia）

動機：用Agent框架重塑自動駕駛系統(tǒng)，Agent Driver，三個重要組件：tool library；cognitive memory；reasoning engine；

方法：輸入為sensory data；輸出為軌跡；

Tools：抽象不同網絡輸出并轉化為text文本，即LLM調用tools來收集文本形式的環(huán)境信息；tool庫是4類神經網絡模型檢測（產生檢測結果）、預測（產生預測結果）、占據(jù)柵格、地圖，但模型產生的信息過于冗余，LLM-based tools目的是為了從冗余的信息中提取到必要的環(huán)境信息。

Cognitive memory：基于環(huán)境信息query來搜索traffic rules （純文本形式；可以認為是考駕照科目1的學習材料）和 similar past experience（環(huán)境信息和decision）；past experience記憶搜索形式：vector-space KNN + LLM-based fuzzy search

Reasoning：LLM-based CoT作為推理引擎，最終輸出軌跡，形式如GPT-Driver，自我反思部分基于碰撞檢測和優(yōu)化方法；如果碰撞檢測到危險，會利用優(yōu)化cost function形式將LLM 產生的軌跡進行優(yōu)化；

實驗還是在Nusenses數(shù)據(jù)集上的開環(huán)評測，對標的是UniAD和GPT-Driver，消融分析了ICL和fine-tuning的性能差異，結論是ICL是首選。

1.8 A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections 6.30

不是大模型，trained PPO作為teacher，收集多任務教師數(shù)據(jù)用的 decision Transformer訓多任務策略。沒太多可看的。

二、軌跡預測

2.1 Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving，9.13 Bosch

動機：可以將LLM看作foundation model，集成視覺特征和文本特征，進行軌跡預測獲得最好效果

方案：由于GPT系列難以得到中間feature，對于文本使用的是DistilBert，對于BEV使用了BEiT作為encoder，

2.2 MotionLM: Multi-Agent Motion Forecasting as Language Modeling, ICCV, 2023, Waymo

動機：autoregressive language models作為多智能體軌跡預測模型，在waymo交互預測任務取得SoTA

方案：使用的是LLM類似的自回歸transformer decoder，但chatGPT本身沒有太大聯(lián)系?？梢酝瑫rdecoder多個智能體，不開源，

三、端到端控制任務：

3.1 DRIVEGPT4: INTERPRETABLE END-TO-END AUTONOMOUS DRIVING VIA LARGE LANGUAGE MODEL，10.2

動機：可解釋性、泛化性。同時多模態(tài)大模型還可處理圖像和視頻數(shù)據(jù)；可解釋性端到端模型，用黑盒解釋黑盒，具備了人機交互層面的可解釋性。

數(shù)據(jù)集生成：在BDDK的16k固定問答數(shù)據(jù)上，用chatGPT產生了新的12k問答數(shù)據(jù)

模型訓練：使用Valley將video token轉化為語言token，LLM使用了LLaMA 2；預訓練階段只訓練video tokenizer；fine-tuning階段LLM和video tokenizer在29k數(shù)據(jù)上一起微調，同時為了保障它的問答能力，還在80k的問答數(shù)據(jù)上一起微調

實驗環(huán)境：開環(huán)，視覺輸入，BDD-K，對比基線為ADAPT，metric：使用了ChatGPT打分。

3.2 ADAPT: Action-aware Driving Caption Transformer，ICRA，2023，開源代碼，中文解讀

動機：端到端模型的可解釋性

方法：連續(xù)多幀圖像輸入，預訓練的video swin transformer 得到video tokens，預測控制信號和文本輸出。

實驗環(huán)境：開環(huán)，BDD-K，具體見中文解讀。

四、多視角視覺輸入場景理解：

4.1 Language Prompt for Autonomous Driving，9.8

動機：缺少多視角輸入的language prompt-instance 數(shù)據(jù)

方案：第1步：3D目標檢測，目標包括4類屬性 color，class，action，location, 手工標注13k目標；第2步：屬性與或非操作的組合；第3步：讓GPT3.5產生描述的language prompt，35k. 基于nuScenes數(shù)據(jù)集。

基于此數(shù)據(jù)集，做了prompt輸入的多目標跟蹤任務。整體效果為：利用視覺和language prompt，可以檢測和跟蹤多視角連續(xù)幀輸入的目標。

4.2 3D DENSE CAPTIONING BEYOND NOUNS: A MIDDLE-WARE FOR AUTONOMOUS DRIVING

動機：目前缺少銜接感知和規(guī)劃的3D場景理解的LLM數(shù)據(jù)集，3D dense captioning

方案：3D目標屬性：Appearance Direction Distance Motion Road Map

4.3 Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

與3.2類似，是對BEV input做了語言prompt.

4.4 DriveLM: Drive on Language， OpenDriveLab

LLM將用于感知、預測和規(guī)劃任務，graph of thouht. 相比于3.2，多做了預測和規(guī)劃。在nuScenes上360k annotated QA pairs。目前只開源了demo樣例。

4.5 HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving，9.11

動機：對于非高清圖片，目前預訓練的多模態(tài)大模型往往會漏掉小目標、過分關注大目標(由于預訓練數(shù)據(jù)為低分辨率圖片)。本文感知關注的是關鍵風險目標，還輸出預測和主車決策建議，

動機圖

方案：提出了用高清圖片分支輔助低分辨率分支，在23年CVPR的DRAMA數(shù)據(jù)集上進行了實驗，包括關鍵風險目標的檢測、預測目標意圖和給出駕駛建議。

五、場景或數(shù)據(jù)生成

5.1 Language-Guided Traffic Simulation via Scene-Level Diffusion，Nvidia，CoRL， 2023

動機：基于語言表述生成openscenarios格式的場景

方案：利用GPT4產生引導loss，引導擴散模型來產生指定場景

5.2 SurrealDriver: Designing Generative Driver Agent Simulation Framework in Urban Contexts based on Large Language Model，9.22

駕駛場景的可控生成，將會成為LLM的潛力方向。

5.3 WEDGE: A multi-weather autonomous driving dataset built from generative vision-language models，2023， CVPR workshop

動機：緩解OOD問題，利用DALL-E生成增廣圖片數(shù)據(jù)

責任編輯：張燕妮來源：自動駕駛之心

模型論文調研

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營