OmniDrive: 一個關(guān)于大模型與3D駕駛?cè)蝿?wù)對齊的框架
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
從一個新穎的3D MLLM架構(gòu)開始,該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D,然后將其輸入LLM。
題目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning
作者單位:北京理工大學(xué),NVIDIA,華中科技大學(xué)
開源地址:GitHub - NVlabs/OmniDrive
多模態(tài)大語言模型(MLLMs)的進(jìn)展導(dǎo)致了對基于LLM的自動駕駛的興趣不斷增長,以利用它們強(qiáng)大的推理能力。然而,利用MLLMs強(qiáng)大的推理能力來改進(jìn)規(guī)劃行為是具有挑戰(zhàn)性的,因為它需要超越2D推理的完整3D情境意識。為了解決這一挑戰(zhàn),本工作提出了OmniDrive,這是一個關(guān)于智能體模型與3D駕駛?cè)蝿?wù)之間強(qiáng)大對齊的全面框架??蚣軓囊粋€新穎的3D MLLM架構(gòu)開始,該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D,然后將其輸入LLM。這種基于查詢的表示允許我們聯(lián)合編碼動態(tài)對象和靜態(tài)地圖元素(例如,交通車道),為3D中的感知-行動對齊提供了一個簡潔的世界模型。進(jìn)一步提出了一個新的基準(zhǔn),其中包括全面的視覺問答(VQA)任務(wù),包括場景描述、交通規(guī)則、3D基礎(chǔ)、反事實(shí)推理、決策制定和規(guī)劃。廣泛的研究表明,OmniDrive在復(fù)雜的3D場景中具有出色的推理和規(guī)劃能力。