自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OmniDrive: 一個關(guān)于大模型與3D駕駛?cè)蝿?wù)對齊的框架

人工智能 智能汽車
多模態(tài)大語言模型(MLLMs)的進(jìn)展導(dǎo)致了對基于LLM的自動駕駛的興趣不斷增長,以利用它們強(qiáng)大的推理能力。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

從一個新穎的3D MLLM架構(gòu)開始,該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D,然后將其輸入LLM。

題目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

作者單位:北京理工大學(xué),NVIDIA,華中科技大學(xué)

開源地址:GitHub - NVlabs/OmniDrive

多模態(tài)大語言模型(MLLMs)的進(jìn)展導(dǎo)致了對基于LLM的自動駕駛的興趣不斷增長,以利用它們強(qiáng)大的推理能力。然而,利用MLLMs強(qiáng)大的推理能力來改進(jìn)規(guī)劃行為是具有挑戰(zhàn)性的,因為它需要超越2D推理的完整3D情境意識。為了解決這一挑戰(zhàn),本工作提出了OmniDrive,這是一個關(guān)于智能體模型與3D駕駛?cè)蝿?wù)之間強(qiáng)大對齊的全面框架??蚣軓囊粋€新穎的3D MLLM架構(gòu)開始,該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D,然后將其輸入LLM。這種基于查詢的表示允許我們聯(lián)合編碼動態(tài)對象和靜態(tài)地圖元素(例如,交通車道),為3D中的感知-行動對齊提供了一個簡潔的世界模型。進(jìn)一步提出了一個新的基準(zhǔn),其中包括全面的視覺問答(VQA)任務(wù),包括場景描述、交通規(guī)則、3D基礎(chǔ)、反事實(shí)推理、決策制定和規(guī)劃。廣泛的研究表明,OmniDrive在復(fù)雜的3D場景中具有出色的推理和規(guī)劃能力。

網(wǎng)絡(luò)結(jié)構(gòu)

實(shí)驗結(jié)果

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2025-03-27 09:26:30

2024-05-09 09:29:31

3D模型自動駕駛

2022-01-24 15:51:58

AI模型數(shù)據(jù)

2010-09-30 10:31:43

J2ME3D

2024-09-27 09:51:06

2022-09-14 09:23:51

Java3D引擎

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2024-12-10 09:40:00

AI3D模型

2024-11-06 09:47:00

2023-09-19 13:11:26

自動駕駛研究

2024-06-17 12:33:34

2020-08-26 10:37:21

阿里3D

2023-10-31 12:29:11

AI模型

2023-06-02 10:33:35

2022-07-13 10:20:14

自動駕駛3D算法

2024-01-29 06:50:00

3D模型

2025-04-11 09:44:23

2023-08-18 08:00:00

游戲開發(fā)3D模型

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2018-03-28 09:18:35

CITE智能制造3D打印館
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號