自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="kegdv"></pre>

<optgroup id="kegdv"></optgroup>

<blockquote id="kegdv"></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

下一代自動(dòng)駕駛系統(tǒng)，少不了大模型，系統(tǒng)調(diào)研來(lái)了

作者：機(jī)器之心 2023-12-16 13:16:00

人工智能新聞

本文介紹了將多模態(tài)大語(yǔ)言模型（MLLMs）整合到下一代自動(dòng)駕駛系統(tǒng)中的模式。

隨著大語(yǔ)言模型 (LLM) 和視覺(jué)基礎(chǔ)模型 (VFM) 的出現(xiàn)，受益于大模型的多模態(tài)人工智能系統(tǒng)有潛力像人類一樣全面感知現(xiàn)實(shí)世界、做出決策。在最近幾個(gè)月里，LLM 已經(jīng)在自動(dòng)駕駛研究中引起了廣泛關(guān)注。盡管 LLM 具有巨大潛力，但其在駕駛系統(tǒng)中的關(guān)鍵挑戰(zhàn)、機(jī)遇和未來(lái)研究方向仍然缺乏文章對(duì)其詳細(xì)闡明。

在本文中，騰訊地圖、普渡大學(xué)、UIUC、弗吉尼亞大學(xué)的研究人員對(duì)這個(gè)領(lǐng)域進(jìn)行了系統(tǒng)調(diào)研。該研究首先介紹了多模態(tài)大型語(yǔ)言模型 (MLLM) 的背景，使用 LLM 開發(fā)多模態(tài)模型的進(jìn)展，以及對(duì)自動(dòng)駕駛的歷史進(jìn)行回顧。然后，該研究概述了用于駕駛、交通和地圖系統(tǒng)的現(xiàn)有 MLLM 工具，以及現(xiàn)有的數(shù)據(jù)集。該研究還總結(jié)了第一屆 WACV 大語(yǔ)言和視覺(jué)模型自動(dòng)駕駛研討會(huì) (LLVM-AD) 的相關(guān)工作，這是應(yīng)用 LLM 在自動(dòng)駕駛領(lǐng)域的首個(gè)研討會(huì)。為了進(jìn)一步推動(dòng)這一領(lǐng)域的發(fā)展，該研究還討論了關(guān)于如何在自動(dòng)駕駛系統(tǒng)中應(yīng)用 MLLM，以及需要由學(xué)術(shù)界和工業(yè)界共同解決的一些重要問(wèn)題。

綜述鏈接：https://arxiv.org/abs/2311.12320
研討會(huì)鏈接：https://llvm-ad.github.io/
Github 鏈接：https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

綜述結(jié)構(gòu)

多模態(tài)大語(yǔ)言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過(guò)多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)行各種任務(wù)，包括圖像分類、將文本與相應(yīng)的視頻對(duì)齊以及語(yǔ)音檢測(cè)。此外，一些研究已經(jīng)證明 LLM 可以處理機(jī)器人領(lǐng)域的簡(jiǎn)單任務(wù)。然而，MLLM 在自動(dòng)駕駛領(lǐng)域的整合依然十分緩慢，我們不禁提出疑問(wèn)，像 GPT-4、PaLM-2 和 LLaMA-2 這樣的 LLM 是否有潛力改良現(xiàn)有的自動(dòng)駕駛系統(tǒng)？

在本綜述中，研究人員認(rèn)為將 LLM 整合到自動(dòng)駕駛領(lǐng)域可以在駕駛感知、運(yùn)動(dòng)規(guī)劃、人車交互和運(yùn)動(dòng)控制方面帶來(lái)顯著的范式轉(zhuǎn)變，提供以用戶為中心、適應(yīng)性更強(qiáng)、更可信的未來(lái)交通方案。在感知方面，LLM 可以利用工具學(xué)習(xí) (Tool Learning) 調(diào)用外部 API 來(lái)訪問(wèn)實(shí)時(shí)的信息源，例如高精地圖、交通報(bào)告和天氣信息，從而使車輛更全面地理解周圍環(huán)境。自動(dòng)駕駛汽車可以在讀取實(shí)時(shí)交通數(shù)據(jù)后，用 LLM 推理?yè)矶侣肪€并建議替代路徑以提高效率和安全駕駛。對(duì)于運(yùn)動(dòng)規(guī)劃和人車交互，LLM 可以促進(jìn)以用戶為中心的溝通，使乘客能夠用日常語(yǔ)言表達(dá)他們的需求和偏好。在運(yùn)動(dòng)控制方面，LLM 首先使控制參數(shù)可以根據(jù)駕駛者的偏好進(jìn)行定制，實(shí)現(xiàn)了駕駛體驗(yàn)的個(gè)性化。此外，LLM 還可以通過(guò)解釋運(yùn)動(dòng)控制過(guò)程的每個(gè)步驟來(lái)提供對(duì)用戶的透明化。該綜述預(yù)計(jì)，在未來(lái)的 SAE L4-L5 級(jí)別的自動(dòng)駕駛車輛中，乘客可以在駕駛時(shí)使用語(yǔ)言、手勢(shì)甚至眼神來(lái)傳達(dá)他們的請(qǐng)求，由 MLLM 通過(guò)集成視覺(jué)顯示或語(yǔ)音響應(yīng)來(lái)提供實(shí)時(shí)的車內(nèi)和駕駛反饋。

自動(dòng)駕駛和多模態(tài)大語(yǔ)言模型的發(fā)展歷程

自動(dòng)駕駛 MLLM 的研究總結(jié)：當(dāng)前模型的 LLM 框架主要有 LLaMA、Llama 2、GPT-3.5、GPT-4、Flan5XXL、Vicuna-13b。FT、ICL 和 PT 在本表中指的是微調(diào)、上下文學(xué)習(xí)和預(yù)訓(xùn)練。文獻(xiàn)鏈接可以參考 github repo: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

為了搭建自動(dòng)駕駛和 LLM 之間的橋梁，相關(guān)研究人員在 2024 年 IEEE/CVF 冬季計(jì)算機(jī)視覺(jué)應(yīng)用會(huì)議 (WACV) 上組織了首屆大語(yǔ)言和視覺(jué)模型自動(dòng)駕駛研討會(huì)(LLVM-AD)。該研討會(huì)旨在增強(qiáng)學(xué)術(shù)研究人員和行業(yè)專業(yè)人士之間的合作，探討在自動(dòng)駕駛領(lǐng)域?qū)嵤┒嗄B(tài)大型語(yǔ)言模型的可能性和挑戰(zhàn)。LLVM-AD 將進(jìn)一步推動(dòng)后續(xù)的開源實(shí)際交通語(yǔ)言理解數(shù)據(jù)集的發(fā)展。

首屆 WACV 大型語(yǔ)言和視覺(jué)模型自動(dòng)駕駛研討會(huì) (LLVM-AD) 共接受了九篇論文。一些論文圍繞自動(dòng)駕駛中的多模態(tài)大語(yǔ)言模型主題展開，重點(diǎn)關(guān)注了將 LLM 整合到用戶 - 車輛交互、運(yùn)動(dòng)規(guī)劃和車輛控制中。還有幾篇論文探討了 LLM 在自動(dòng)駕駛車輛中類人交互和決策方面的新應(yīng)用。例如，”Drive Like a Human” 和”Drive as You Speak” 探討了 LLM 在復(fù)雜駕駛場(chǎng)景中解釋和推理，模仿人類行為的框架?！盚uman-Centric Autonomous Systems With LLMs” 強(qiáng)調(diào)了以用戶為中心設(shè)計(jì) LLM 的重要性，利用 LLM 來(lái)解釋用戶命令。這種方法代表了向以人為中心的自主系統(tǒng)的重大轉(zhuǎn)變。除了融合 LLM，研討會(huì)還涵蓋了部分基于純視覺(jué)和數(shù)據(jù)處理的方法。此外，研討會(huì)也提出了創(chuàng)新的數(shù)據(jù)處理和評(píng)估方法。例如，NuScenes-MQA 介紹了一種新的自動(dòng)駕駛數(shù)據(jù)集注釋方案?？偟膩?lái)說(shuō)，這些論文展示了將語(yǔ)言模型和先進(jìn)技術(shù)整合到自動(dòng)駕駛中取得的進(jìn)展，為更直觀、高效和以人為中心的自動(dòng)駕駛車輛鋪平了道路。

針對(duì)未來(lái)的發(fā)展，該研究提出以下幾點(diǎn)研究方向：

1、自動(dòng)駕駛中多模態(tài)大語(yǔ)言模型的新數(shù)據(jù)集

盡管大語(yǔ)言模型在語(yǔ)言理解方面取得了成功，但將其應(yīng)用于自動(dòng)駕駛?cè)悦媾R挑戰(zhàn)。這是因?yàn)檫@些模型需要整合和理解來(lái)自不同模態(tài)的輸入，如全景圖像、三維點(diǎn)云和高精地圖。目前的數(shù)據(jù)規(guī)模和質(zhì)量的限制意味著現(xiàn)有數(shù)據(jù)集難以全面應(yīng)對(duì)這些挑戰(zhàn)。此外，從 NuScenes 等早期開源數(shù)據(jù)集注釋的視覺(jué)語(yǔ)言數(shù)據(jù)集可能無(wú)法為駕駛場(chǎng)景中的視覺(jué)語(yǔ)言理解提供穩(wěn)健的基準(zhǔn)。因此，迫切需要新的、大規(guī)模的數(shù)據(jù)集，涵蓋廣泛的交通和駕駛場(chǎng)景，彌補(bǔ)之前數(shù)據(jù)集分布的長(zhǎng)尾（不均衡）問(wèn)題，以有效地測(cè)試和增強(qiáng)這些模型在自動(dòng)駕駛應(yīng)用中的性能。

2、自動(dòng)駕駛中大語(yǔ)言模型的硬件支持

自動(dòng)駕駛汽車中不同的功能對(duì)硬件的需求各不相同。在車輛內(nèi)部使用 LLM 進(jìn)行駕駛規(guī)劃或參與車輛控制需要實(shí)時(shí)處理和低延遲以確保安全，這增加了計(jì)算需求并影響功耗。如果 LLM 部署在云端，數(shù)據(jù)交換的帶寬將成為另一個(gè)關(guān)鍵的安全因素。相比之下，將 LLM 用于導(dǎo)航規(guī)劃或分析與駕駛無(wú)關(guān)的命令（如車載音樂(lè)播放）不需要高查詢量和實(shí)時(shí)性，使得遠(yuǎn)程服務(wù)成為可行的方案。未來(lái)，自動(dòng)駕駛中的 LLM 可以通過(guò)知識(shí)蒸餾進(jìn)行壓縮，以減少計(jì)算需求和延遲，目前在這一領(lǐng)域仍然有很大發(fā)展空間。

3、使用大語(yǔ)言模型理解高精地圖

高精地圖在自動(dòng)駕駛車輛技術(shù)中起著至關(guān)重要的作用，因?yàn)樗鼈兲峁┝擞嘘P(guān)車輛運(yùn)行的物理環(huán)境的基本信息。高精地圖中的語(yǔ)義地圖層非常重要，因?yàn)樗东@了物理環(huán)境的意義和上下文信息。為了有效地將這些信息編碼到下一代由 LLM 驅(qū)動(dòng)的自動(dòng)駕駛中，需要新的模型來(lái)映射這些多模態(tài)特征到語(yǔ)言空間。騰訊已經(jīng)開發(fā)了基于主動(dòng)學(xué)習(xí)的 THMA 高精地圖 AI 自動(dòng)標(biāo)注系統(tǒng)，能夠生產(chǎn)和標(biāo)記數(shù)十萬(wàn)公里規(guī)模的高精地圖。為了促進(jìn)這一領(lǐng)域的發(fā)展，騰訊在 THMA 的基礎(chǔ)上提出了 MAPLM 數(shù)據(jù)集，包含全景圖像、三維激光雷達(dá)點(diǎn)云和基于上下文的高精地圖注釋，以及一個(gè)新的問(wèn)答基準(zhǔn) MAPLM-QA。

4、人車交互中的大語(yǔ)言模型

人車交互以及理解人類的駕駛行為，在自動(dòng)駕駛中也構(gòu)成了一個(gè)重大挑戰(zhàn)。人類駕駛員常常依賴非語(yǔ)言信號(hào)，例如減速讓路或使用肢體動(dòng)作與其他駕駛員或行人交流。這些非語(yǔ)言信號(hào)在道路上的交流中扮演著至關(guān)重要的角色。過(guò)去有許多涉及自動(dòng)駕駛系統(tǒng)的事故是因?yàn)樽詣?dòng)駕駛汽車的行為往往出乎其他駕駛員意料。未來(lái)，MLLM 能夠整合來(lái)自各種來(lái)源的豐富上下文信息，并分析駕駛員的視線、手勢(shì)和駕駛風(fēng)格，以更好地理解這些社交信號(hào)并做出高效規(guī)劃。通過(guò)估計(jì)其他駕駛員的社交信號(hào)，LLM 可以提高自動(dòng)駕駛汽車的決策能力和整體安全性。

5、個(gè)性化自動(dòng)駕駛

隨著自動(dòng)駕駛汽車的發(fā)展，一個(gè)重要的方面是考慮它們?nèi)绾芜m應(yīng)用戶個(gè)人的駕駛偏好。越來(lái)越多的人認(rèn)為，自動(dòng)駕駛汽車應(yīng)該模仿其用戶的駕駛風(fēng)格。為了實(shí)現(xiàn)這一點(diǎn)，自動(dòng)駕駛系統(tǒng)需要學(xué)習(xí)并整合用戶在各個(gè)方面的偏好，如導(dǎo)航、車輛維護(hù)和娛樂(lè)。LLM 的指令調(diào)整 (Instruction Tunning) 能力和上下文學(xué)習(xí)能力使其非常適合將用戶偏好和駕駛歷史信息整合到自動(dòng)駕駛汽車中，從而提供個(gè)性化的駕駛體驗(yàn)。

總結(jié)

多年來(lái)，自動(dòng)駕駛一直是人們關(guān)注的焦點(diǎn)，吸引著眾多風(fēng)險(xiǎn)投資人。將 LLM 集成到自動(dòng)駕駛汽車中會(huì)帶來(lái)獨(dú)特的挑戰(zhàn)，但克服這些挑戰(zhàn)將顯著增強(qiáng)現(xiàn)有的自動(dòng)駕駛系統(tǒng)。可以預(yù)見的是，LLM 支持的智能座艙具備理解駕駛場(chǎng)景和用戶偏好的能力，并在車輛與乘員之間建立更深層次的信任。此外，部署 LLM 的自動(dòng)駕駛系統(tǒng)將可以更好地應(yīng)對(duì)道德困境，涉及權(quán)衡行人的安全與車輛乘員的安全，促進(jìn)在復(fù)雜的駕駛場(chǎng)景中更可能符合道德的決策過(guò)程。本文集成了 WACV 2024 LLVM-AD 研討會(huì)委員會(huì)成員的見解，旨在激勵(lì)研究人員為開發(fā)由 LLM 技術(shù)支持的下一代自動(dòng)駕駛汽車做出貢獻(xiàn)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型 AI 自動(dòng)駕駛

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<xmp id="siavz"><cite id="siavz"><rp id="siavz"></rp></cite></xmp>