自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

下一代自動(dòng)駕駛系統(tǒng),少不了大模型,系統(tǒng)調(diào)研來(lái)了

人工智能 新聞
本文介紹了將多模態(tài)大語(yǔ)言模型(MLLMs)整合到下一代自動(dòng)駕駛系統(tǒng)中的模式。

隨著大語(yǔ)言模型 (LLM) 和視覺(jué)基礎(chǔ)模型 (VFM) 的出現(xiàn),受益于大模型的多模態(tài)人工智能系統(tǒng)有潛力像人類一樣全面感知現(xiàn)實(shí)世界、做出決策。在最近幾個(gè)月里,LLM 已經(jīng)在自動(dòng)駕駛研究中引起了廣泛關(guān)注。盡管 LLM 具有巨大潛力,但其在駕駛系統(tǒng)中的關(guān)鍵挑戰(zhàn)、機(jī)遇和未來(lái)研究方向仍然缺乏文章對(duì)其詳細(xì)闡明。

在本文中,騰訊地圖、普渡大學(xué)、UIUC、弗吉尼亞大學(xué)的研究人員對(duì)這個(gè)領(lǐng)域進(jìn)行了系統(tǒng)調(diào)研。該研究首先介紹了多模態(tài)大型語(yǔ)言模型 (MLLM) 的背景,使用 LLM 開發(fā)多模態(tài)模型的進(jìn)展,以及對(duì)自動(dòng)駕駛的歷史進(jìn)行回顧。然后,該研究概述了用于駕駛、交通和地圖系統(tǒng)的現(xiàn)有 MLLM 工具,以及現(xiàn)有的數(shù)據(jù)集。該研究還總結(jié)了第一屆 WACV 大語(yǔ)言和視覺(jué)模型自動(dòng)駕駛研討會(huì) (LLVM-AD) 的相關(guān)工作,這是應(yīng)用 LLM 在自動(dòng)駕駛領(lǐng)域的首個(gè)研討會(huì)。為了進(jìn)一步推動(dòng)這一領(lǐng)域的發(fā)展,該研究還討論了關(guān)于如何在自動(dòng)駕駛系統(tǒng)中應(yīng)用 MLLM,以及需要由學(xué)術(shù)界和工業(yè)界共同解決的一些重要問(wèn)題。

圖片


  • 綜述鏈接:https://arxiv.org/abs/2311.12320 
  • 研討會(huì)鏈接:https://llvm-ad.github.io/ 
  • Github 鏈接:https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

圖片

綜述結(jié)構(gòu)

多模態(tài)大語(yǔ)言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合,通過(guò)多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)行各種任務(wù),包括圖像分類、將文本與相應(yīng)的視頻對(duì)齊以及語(yǔ)音檢測(cè)。此外,一些研究已經(jīng)證明 LLM 可以處理機(jī)器人領(lǐng)域的簡(jiǎn)單任務(wù)。然而,MLLM 在自動(dòng)駕駛領(lǐng)域的整合依然十分緩慢,我們不禁提出疑問(wèn),像 GPT-4、PaLM-2 和 LLaMA-2 這樣的 LLM 是否有潛力改良現(xiàn)有的自動(dòng)駕駛系統(tǒng)?

在本綜述中,研究人員認(rèn)為將 LLM 整合到自動(dòng)駕駛領(lǐng)域可以在駕駛感知、運(yùn)動(dòng)規(guī)劃、人車交互和運(yùn)動(dòng)控制方面帶來(lái)顯著的范式轉(zhuǎn)變,提供以用戶為中心、適應(yīng)性更強(qiáng)、更可信的未來(lái)交通方案。在感知方面,LLM 可以利用工具學(xué)習(xí) (Tool Learning) 調(diào)用外部 API 來(lái)訪問(wèn)實(shí)時(shí)的信息源,例如高精地圖、交通報(bào)告和天氣信息,從而使車輛更全面地理解周圍環(huán)境。自動(dòng)駕駛汽車可以在讀取實(shí)時(shí)交通數(shù)據(jù)后,用 LLM 推理?yè)矶侣肪€并建議替代路徑以提高效率和安全駕駛。對(duì)于運(yùn)動(dòng)規(guī)劃和人車交互,LLM 可以促進(jìn)以用戶為中心的溝通,使乘客能夠用日常語(yǔ)言表達(dá)他們的需求和偏好。在運(yùn)動(dòng)控制方面,LLM 首先使控制參數(shù)可以根據(jù)駕駛者的偏好進(jìn)行定制,實(shí)現(xiàn)了駕駛體驗(yàn)的個(gè)性化。此外,LLM 還可以通過(guò)解釋運(yùn)動(dòng)控制過(guò)程的每個(gè)步驟來(lái)提供對(duì)用戶的透明化。該綜述預(yù)計(jì),在未來(lái)的 SAE L4-L5 級(jí)別的自動(dòng)駕駛車輛中,乘客可以在駕駛時(shí)使用語(yǔ)言、手勢(shì)甚至眼神來(lái)傳達(dá)他們的請(qǐng)求,由 MLLM 通過(guò)集成視覺(jué)顯示或語(yǔ)音響應(yīng)來(lái)提供實(shí)時(shí)的車內(nèi)和駕駛反饋。

圖片


圖片自動(dòng)駕駛和多模態(tài)大語(yǔ)言模型的發(fā)展歷程


圖片

自動(dòng)駕駛 MLLM 的研究總結(jié):當(dāng)前模型的 LLM 框架主要有 LLaMA、Llama 2、GPT-3.5、GPT-4、Flan5XXL、Vicuna-13b。FT、ICL 和 PT 在本表中指的是微調(diào)、上下文學(xué)習(xí)和預(yù)訓(xùn)練。文獻(xiàn)鏈接可以參考 github repo: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

為了搭建自動(dòng)駕駛和 LLM 之間的橋梁,相關(guān)研究人員在 2024 年 IEEE/CVF 冬季計(jì)算機(jī)視覺(jué)應(yīng)用會(huì)議 (WACV) 上組織了首屆大語(yǔ)言和視覺(jué)模型自動(dòng)駕駛研討會(huì)(LLVM-AD)。該研討會(huì)旨在增強(qiáng)學(xué)術(shù)研究人員和行業(yè)專業(yè)人士之間的合作,探討在自動(dòng)駕駛領(lǐng)域?qū)嵤┒嗄B(tài)大型語(yǔ)言模型的可能性和挑戰(zhàn)。LLVM-AD 將進(jìn)一步推動(dòng)后續(xù)的開源實(shí)際交通語(yǔ)言理解數(shù)據(jù)集的發(fā)展。

首屆 WACV 大型語(yǔ)言和視覺(jué)模型自動(dòng)駕駛研討會(huì) (LLVM-AD) 共接受了九篇論文。一些論文圍繞自動(dòng)駕駛中的多模態(tài)大語(yǔ)言模型主題展開,重點(diǎn)關(guān)注了將 LLM 整合到用戶 - 車輛交互、運(yùn)動(dòng)規(guī)劃和車輛控制中。還有幾篇論文探討了 LLM 在自動(dòng)駕駛車輛中類人交互和決策方面的新應(yīng)用。例如,”Drive Like a Human” 和”Drive as You Speak” 探討了 LLM 在復(fù)雜駕駛場(chǎng)景中解釋和推理,模仿人類行為的框架?!盚uman-Centric Autonomous Systems With LLMs” 強(qiáng)調(diào)了以用戶為中心設(shè)計(jì) LLM 的重要性,利用 LLM 來(lái)解釋用戶命令。這種方法代表了向以人為中心的自主系統(tǒng)的重大轉(zhuǎn)變。除了融合 LLM,研討會(huì)還涵蓋了部分基于純視覺(jué)和數(shù)據(jù)處理的方法。此外,研討會(huì)也提出了創(chuàng)新的數(shù)據(jù)處理和評(píng)估方法。例如,NuScenes-MQA 介紹了一種新的自動(dòng)駕駛數(shù)據(jù)集注釋方案??偟膩?lái)說(shuō),這些論文展示了將語(yǔ)言模型和先進(jìn)技術(shù)整合到自動(dòng)駕駛中取得的進(jìn)展,為更直觀、高效和以人為中心的自動(dòng)駕駛車輛鋪平了道路。

針對(duì)未來(lái)的發(fā)展,該研究提出以下幾點(diǎn)研究方向:

1、自動(dòng)駕駛中多模態(tài)大語(yǔ)言模型的新數(shù)據(jù)集

盡管大語(yǔ)言模型在語(yǔ)言理解方面取得了成功,但將其應(yīng)用于自動(dòng)駕駛?cè)悦媾R挑戰(zhàn)。這是因?yàn)檫@些模型需要整合和理解來(lái)自不同模態(tài)的輸入,如全景圖像、三維點(diǎn)云和高精地圖。目前的數(shù)據(jù)規(guī)模和質(zhì)量的限制意味著現(xiàn)有數(shù)據(jù)集難以全面應(yīng)對(duì)這些挑戰(zhàn)。此外,從 NuScenes 等早期開源數(shù)據(jù)集注釋的視覺(jué)語(yǔ)言數(shù)據(jù)集可能無(wú)法為駕駛場(chǎng)景中的視覺(jué)語(yǔ)言理解提供穩(wěn)健的基準(zhǔn)。因此,迫切需要新的、大規(guī)模的數(shù)據(jù)集,涵蓋廣泛的交通和駕駛場(chǎng)景,彌補(bǔ)之前數(shù)據(jù)集分布的長(zhǎng)尾(不均衡)問(wèn)題,以有效地測(cè)試和增強(qiáng)這些模型在自動(dòng)駕駛應(yīng)用中的性能。

2、自動(dòng)駕駛中大語(yǔ)言模型的硬件支持

自動(dòng)駕駛汽車中不同的功能對(duì)硬件的需求各不相同。在車輛內(nèi)部使用 LLM 進(jìn)行駕駛規(guī)劃或參與車輛控制需要實(shí)時(shí)處理和低延遲以確保安全,這增加了計(jì)算需求并影響功耗。如果 LLM 部署在云端,數(shù)據(jù)交換的帶寬將成為另一個(gè)關(guān)鍵的安全因素。相比之下,將 LLM 用于導(dǎo)航規(guī)劃或分析與駕駛無(wú)關(guān)的命令(如車載音樂(lè)播放)不需要高查詢量和實(shí)時(shí)性,使得遠(yuǎn)程服務(wù)成為可行的方案。未來(lái),自動(dòng)駕駛中的 LLM 可以通過(guò)知識(shí)蒸餾進(jìn)行壓縮,以減少計(jì)算需求和延遲,目前在這一領(lǐng)域仍然有很大發(fā)展空間。

3、使用大語(yǔ)言模型理解高精地圖

高精地圖在自動(dòng)駕駛車輛技術(shù)中起著至關(guān)重要的作用,因?yàn)樗鼈兲峁┝擞嘘P(guān)車輛運(yùn)行的物理環(huán)境的基本信息。高精地圖中的語(yǔ)義地圖層非常重要,因?yàn)樗东@了物理環(huán)境的意義和上下文信息。為了有效地將這些信息編碼到下一代由 LLM 驅(qū)動(dòng)的自動(dòng)駕駛中,需要新的模型來(lái)映射這些多模態(tài)特征到語(yǔ)言空間。騰訊已經(jīng)開發(fā)了基于主動(dòng)學(xué)習(xí)的 THMA 高精地圖 AI 自動(dòng)標(biāo)注系統(tǒng),能夠生產(chǎn)和標(biāo)記數(shù)十萬(wàn)公里規(guī)模的高精地圖。為了促進(jìn)這一領(lǐng)域的發(fā)展,騰訊在 THMA 的基礎(chǔ)上提出了 MAPLM 數(shù)據(jù)集,包含全景圖像、三維激光雷達(dá)點(diǎn)云和基于上下文的高精地圖注釋,以及一個(gè)新的問(wèn)答基準(zhǔn) MAPLM-QA。

4、人車交互中的大語(yǔ)言模型

人車交互以及理解人類的駕駛行為,在自動(dòng)駕駛中也構(gòu)成了一個(gè)重大挑戰(zhàn)。人類駕駛員常常依賴非語(yǔ)言信號(hào),例如減速讓路或使用肢體動(dòng)作與其他駕駛員或行人交流。這些非語(yǔ)言信號(hào)在道路上的交流中扮演著至關(guān)重要的角色。過(guò)去有許多涉及自動(dòng)駕駛系統(tǒng)的事故是因?yàn)樽詣?dòng)駕駛汽車的行為往往出乎其他駕駛員意料。未來(lái),MLLM 能夠整合來(lái)自各種來(lái)源的豐富上下文信息,并分析駕駛員的視線、手勢(shì)和駕駛風(fēng)格,以更好地理解這些社交信號(hào)并做出高效規(guī)劃。通過(guò)估計(jì)其他駕駛員的社交信號(hào),LLM 可以提高自動(dòng)駕駛汽車的決策能力和整體安全性。

5、個(gè)性化自動(dòng)駕駛

隨著自動(dòng)駕駛汽車的發(fā)展,一個(gè)重要的方面是考慮它們?nèi)绾芜m應(yīng)用戶個(gè)人的駕駛偏好。越來(lái)越多的人認(rèn)為,自動(dòng)駕駛汽車應(yīng)該模仿其用戶的駕駛風(fēng)格。為了實(shí)現(xiàn)這一點(diǎn),自動(dòng)駕駛系統(tǒng)需要學(xué)習(xí)并整合用戶在各個(gè)方面的偏好,如導(dǎo)航、車輛維護(hù)和娛樂(lè)。LLM 的指令調(diào)整 (Instruction Tunning) 能力和上下文學(xué)習(xí)能力使其非常適合將用戶偏好和駕駛歷史信息整合到自動(dòng)駕駛汽車中,從而提供個(gè)性化的駕駛體驗(yàn)。

總結(jié)

多年來(lái),自動(dòng)駕駛一直是人們關(guān)注的焦點(diǎn),吸引著眾多風(fēng)險(xiǎn)投資人。將 LLM 集成到自動(dòng)駕駛汽車中會(huì)帶來(lái)獨(dú)特的挑戰(zhàn),但克服這些挑戰(zhàn)將顯著增強(qiáng)現(xiàn)有的自動(dòng)駕駛系統(tǒng)。可以預(yù)見的是,LLM 支持的智能座艙具備理解駕駛場(chǎng)景和用戶偏好的能力,并在車輛與乘員之間建立更深層次的信任。此外,部署 LLM 的自動(dòng)駕駛系統(tǒng)將可以更好地應(yīng)對(duì)道德困境,涉及權(quán)衡行人的安全與車輛乘員的安全,促進(jìn)在復(fù)雜的駕駛場(chǎng)景中更可能符合道德的決策過(guò)程。本文集成了 WACV 2024 LLVM-AD 研討會(huì)委員會(huì)成員的見解,旨在激勵(lì)研究人員為開發(fā)由 LLM 技術(shù)支持的下一代自動(dòng)駕駛汽車做出貢獻(xiàn)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-08-30 10:28:50

自動(dòng)駕駛系統(tǒng)

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2021-12-06 17:27:59

自動(dòng)駕駛數(shù)據(jù)汽車

2023-12-08 10:10:56

模型論文調(diào)研

2014-05-09 13:18:54

iOS移動(dòng)互聯(lián)網(wǎng)

2013-07-27 21:28:44

2013-02-20 09:56:17

互聯(lián)網(wǎng)移動(dòng)通信網(wǎng)絡(luò)IPv6

2021-12-03 09:09:15

自動(dòng)駕駛數(shù)據(jù)汽車

2013-06-27 11:21:17

2010-04-19 09:03:39

Linux文件系統(tǒng)

2019-01-03 14:21:51

CPUGPU系統(tǒng)

2023-11-06 09:42:03

自動(dòng)駕駛數(shù)據(jù)

2010-02-05 09:18:31

軟交換設(shè)備

2015-09-10 09:39:01

容器技術(shù)Docker

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2015-09-17 10:17:28

2011-12-28 20:58:52

Windows Pho

2025-01-03 09:24:10

模型架構(gòu)論文

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2009-04-08 15:36:46

LinuxLustre集群文件系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)