自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="2rcrv"><p id="2rcrv"></p></sub>^{<blockquote id="2rcrv"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OmniDrive: 一個關(guān)于大模型與3D駕駛?cè)蝿?wù)對齊的框架

作者：Chi Zhang 2024-05-06 11:37:20

人工智能智能汽車

多模態(tài)大語言模型（MLLMs）的進(jìn)展導(dǎo)致了對基于LLM的自動駕駛的興趣不斷增長，以利用它們強(qiáng)大的推理能力。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

從一個新穎的3D MLLM架構(gòu)開始，該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D，然后將其輸入LLM。

題目：OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

作者單位：北京理工大學(xué)，NVIDIA，華中科技大學(xué)

開源地址：GitHub - NVlabs/OmniDrive

多模態(tài)大語言模型（MLLMs）的進(jìn)展導(dǎo)致了對基于LLM的自動駕駛的興趣不斷增長，以利用它們強(qiáng)大的推理能力。然而，利用MLLMs強(qiáng)大的推理能力來改進(jìn)規(guī)劃行為是具有挑戰(zhàn)性的，因為它需要超越2D推理的完整3D情境意識。為了解決這一挑戰(zhàn)，本工作提出了OmniDrive，這是一個關(guān)于智能體模型與3D駕駛?cè)蝿?wù)之間強(qiáng)大對齊的全面框架?？蚣軓囊粋€新穎的3D MLLM架構(gòu)開始，該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D，然后將其輸入LLM。這種基于查詢的表示允許我們聯(lián)合編碼動態(tài)對象和靜態(tài)地圖元素（例如，交通車道），為3D中的感知-行動對齊提供了一個簡潔的世界模型。進(jìn)一步提出了一個新的基準(zhǔn)，其中包括全面的視覺問答（VQA）任務(wù)，包括場景描述、交通規(guī)則、3D基礎(chǔ)、反事實(shí)推理、決策制定和規(guī)劃。廣泛的研究表明，OmniDrive在復(fù)雜的3D場景中具有出色的推理和規(guī)劃能力。

網(wǎng)絡(luò)結(jié)構(gòu)

實(shí)驗結(jié)果

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛 3D

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="85jh3"></style>