自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

再上新臺階!視覺大語言模型在自動駕駛和智能交通中的最新應用

人工智能 智能汽車
智能移動在現(xiàn)代文明中至關重要,推動經(jīng)濟增長,支持城市發(fā)展,加強社會聯(lián)系。近年來,深度學習和計算能力的快速發(fā)展深刻地影響了交通運輸,提高了其效率和智能化。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&&一點思考

當前VLM, LLM十分的熱門, 尤其是在自動駕駛領域, 自動駕駛的輸入本身就是多模態(tài)的, 這里面最重要的就是圖像和語言信息, 所以如何將圖像和文本信息綜合利用, 以及如何充分利用LLM是當前急需要探索的, 目前其實已有部分工作是關于VLM及LLM在自動駕駛中應用的, 比如為了利用文本信息,為了出可解釋性, 但是其實VLM與LLM在自動駕駛中的應用遠不止這些, 可以結(jié)合的地方有很多, 比如感知, 決策,規(guī)劃, 可以分別從這些方向入手探討結(jié)合的方向。另外不光是自動駕駛領域,應該說整個cv領域在接下來都會有不少這方面的工作, 比如目標檢測,分割,  跟蹤, 分類,  行人ReID, 車輛ReID等,都可以借助VLM與LLM, 重新思考新的駕構(gòu), 使得性能再上一個新的臺階.

這項工作的意義

視覺語言模型(VLM)在自動駕駛(AD)和智能交通系統(tǒng)(ITS)領域的應用引起了廣泛關注,這是因為它們的出色性能和利用大型語言模型(LLM)的能力。通過整合語言數(shù)據(jù),車輛和交通系統(tǒng)能夠深入理解現(xiàn)實環(huán)境,提高駕駛安全性和效率。在這項工作中,我們對這個領域的語言模型的進展進行了全面的調(diào)研,包括當前的模型和數(shù)據(jù)集。此外,還探討了潛在的應用和新興的研究方向。最后,全面討論了挑戰(zhàn)和研究空白。

有哪些貢獻?

智能移動在現(xiàn)代文明中至關重要,推動經(jīng)濟增長,支持城市發(fā)展,加強社會聯(lián)系。近年來,深度學習和計算能力的快速發(fā)展深刻地影響了交通運輸,提高了其效率和智能化。智能移動的兩個新興領域是自動駕駛(AD)和智能交通系統(tǒng)(ITS)。

自動駕駛力圖使車輛能夠感知環(huán)境并智能駕駛。當前的自動駕駛技術(shù),尤其是與感知和預測相關的技術(shù),極大地受益于計算機視覺的進步。例如,感知模塊通常使用卷積神經(jīng)網(wǎng)絡(CNNs)或Transformer ,從相機或激光雷達等傳感器中處理數(shù)據(jù),準確識別和定位周圍的實體。然而,盡管取得了這些技術(shù)上的突破,當前的計算機視覺解決方案仍然在復雜和快速變化的環(huán)境中面臨困難。它們經(jīng)常無法捕捉復雜細節(jié)或理解上下文,從而導致潛在的安全問題,并限制了向更先進的自動駕駛的發(fā)展。

另一方面, 智能交通系統(tǒng)旨在提高交通安全性和流動性, 但盡管多年來它們的效率和可靠性有所提高,但挑戰(zhàn)仍然存在。例如,實時交通流量預測很容易受到天氣、碰撞事件或道路施工等各種環(huán)境因素的影響。

LLM 和VLM 的出現(xiàn)為當前自動駕駛和智能交通系統(tǒng)固有的局限性提供了潛在解決方案。這些新穎的技術(shù)綜合了語言和視覺數(shù)據(jù),為車輛和系統(tǒng)深入理解周圍環(huán)境的未來帶來了希望。這標志著智能、高效和可解釋的交通運輸?shù)男聲r代。除了增強AD或ITS中的傳統(tǒng)任務,如目標檢測或交通流量預測,新興領域還包括零樣本感知和事故分析,如下圖所示

考慮到將語言模型應用于自動駕駛和智能系統(tǒng)的研究激增,系統(tǒng)和全面的調(diào)研對于研究界非常重要。然而,現(xiàn)有的調(diào)研要重點在LLMs、VLMs、AD、TS各自領域上比較分散,沒有一個綜述系統(tǒng)地探討VLMs在AD和ITS中的應用。

為此,我們對自動駕駛和智能交通系統(tǒng)中視覺語言模型的現(xiàn)有算法進行了綜述,突出了研究界的最新技術(shù)趨勢。

整體框架如下

該工作的主要貢獻可以總結(jié)如下:

  • 首次提出了關于視覺語言模型在自動駕駛和智能交通系統(tǒng)中應用的全面調(diào)研。
  • 系統(tǒng)地總結(jié)和分析了現(xiàn)有的工作和數(shù)據(jù)集。
  • 探討了VLMs在自動駕駛和智能交通系統(tǒng)中的潛在應用和技術(shù)進展。
  • 對該領域中的挑戰(zhàn)和研究空白進行了深入討論。

領域背景介紹

這一節(jié)主要是對自動駕駛, 智能交通系統(tǒng)以及大語言模型,視覺語言模型的大致介紹.

自動駕駛

自動駕駛目標是開發(fā)出能夠在沒有人類干預的情況下能自動導航和完成控制的車輛,以減少事故并提高交通效率。根據(jù)美國汽車工程師學會定義的駕駛自動化等級可以從0級(無自動化)到5級(完全自動化)。隨著自主性的增加,人類干預減少,而車輛對環(huán)境的理解要求增加。目前,大多數(shù)商用車輛處于2級或3級,提供部分自動化但仍需要駕駛員監(jiān)督?,F(xiàn)有的自動駕駛解決方案可以大致分為經(jīng)典模塊化范式和端到端方法。然而,這些方案都面臨著諸如可解釋性、泛化性、因果混淆、魯棒性等嚴重挑戰(zhàn)。研究人員嘗試使用各種方法來解決這些問題,但構(gòu)建一個安全、穩(wěn)定和可解釋的自動駕駛系統(tǒng)仍然是一個未解決的課題。

智能交通系統(tǒng)

智能交通系統(tǒng)(ITS)利用先進技術(shù)來通過優(yōu)化更廣泛的交通環(huán)境來提高交通效率和安全性。通過整合道路傳感器和道路用戶等各種來源的實時數(shù)據(jù),ITS包括一系列廣泛的服務和應用,從自適應交通信號控制到實時交通監(jiān)測、事故探測和預測、交通流預測以及協(xié)同車輛基礎設施系統(tǒng)。盡管ITS在感知、通信和機器學習技術(shù)方面的發(fā)展增強了其應用范圍,但仍然需要解決一些重要挑戰(zhàn)。駕駛是一項社交活動,通常需要與其他交通參與者頻繁交互,但當前系統(tǒng)仍然缺乏人類所依賴的智能和常識。

大語言模型

大型語言模型(LLMs)通常指具有龐大參數(shù)量的語言模型,往往達到十億或更多。LLMs最顯著的特點是展示了新興的能力,如在眾多下游任務中具備少樣本或零樣本遷移學習的能力,強大的多步推理能力和能夠遵循指令的能力,這些通常在較小模型中不存在。ChatGPT,特別是GPT-3.5,標志著LLMs發(fā)展的一個里程碑。自發(fā)布以來,GPT-3.5一直因其卓越性能而受到關注。越來越多的研究人員開始探索和利用LLMs強大的語言理解、解釋、分析和推理能力來解決以前難以甚至無法解決的問題。

視覺語言模型

視覺-語言模型(VLM)將自然語言處理(NLP)和計算機視覺(CV)的功能結(jié)合起來,打破了文本和視覺之間的邊界。

隨著LLMs的興起,越來越多的注意力也開始放在探索如何將視覺模塊有效地整合到LLMs中以執(zhí)行多模態(tài)任務上。

在AD中,主流的視覺-語言模型可以根據(jù)輸入和輸出的模態(tài)類型廣泛分為Multimodal-to-Text (M2T) 、Multimodal-to-Vision (M2V) 和Vision-to-Text (V2T) 。如圖所示,

圖片

M2T通常將圖像文本或視頻文本作為輸入,并生成文本作為輸出;相應地,M2V接受圖像文本作為輸入,并生成圖像或視頻作為輸出,而V2T則將圖像或視頻作為輸入,并生成文本作為輸出。

如下圖所示,

根據(jù)模態(tài)之間的信息連接方法,AD中使用的VLMs可以分為Vision-Text-Fusion (VTF)和Vision-Text-Matching (VTM) 。VTF使用各種融合方法有效地整合了視覺嵌入和語言嵌入,并共同優(yōu)化了用于目標任務的特征表示。相反,VTM,包括圖像文本匹配和視頻文本匹配,通過迫使視覺文本對在語義上靠近,并且不配對實例相互遠離,學習了一個聯(lián)合表示空間,實現(xiàn)了跨模態(tài)的語義對齊,及跨模態(tài)的語義傳播。CLIP  是VLMs中的一個重要里程碑,通過對大量的圖像文本對進行對比學習,捕捉與語言相關的圖像特征表示,并實現(xiàn)了zeor-shot樣本遷移能力。

視覺語言模型VLMs在自動駕駛中的應用

VLMs在自動駕駛中有越來越多的嘗試。在本節(jié)中,介紹了在AD中存在的VLM工作,包括感知與理解,導航與規(guī)劃,決策與控制,端到端AD,和數(shù)據(jù)生成??偨Y(jié)的當前方法如表所示

圖片

感知和理解

在自動駕駛感知中,尤其是那些在大規(guī)模圖像-文本匹配數(shù)據(jù)集上進行預訓練的VLM模型,已經(jīng)推動了許多新的研究。這些研究利用預訓練VLMs的豐富先驗知識來提升感知和理解的性能,并進一步引入了許多新的任務。

行人檢測

行人檢測中固有的挑戰(zhàn)包括類似人體的物體混淆和邊際案例樣本不足。為此,VLPD 首次提出了一種視覺語言額外注釋的方法,以增強模型區(qū)分混淆的類似人體物體的能力,主要方法是利用CLIP獲取逐像素明確的語義上下文,并通過對比學習將行人特征與其他類別的特征進行距離計算,提高對更廣泛案例的檢測能力。UMPD也利用了CLIP中的zeros-shot語義類,并提出了一種完全無監(jiān)督的多視角行人檢測方法,無需手工標注。

對象引用

與傳統(tǒng)的感知任務相比,如目標檢測、跟蹤和語義分割,引入語言使模型能夠獲得更細粒度和全面無約束的理解周圍環(huán)境的能力。

對象引用(OR)是該領域的一個典型任務, 目的是根據(jù)語言的query用框或者Mask把對應的物體給顯示出來.

MSSG  在自動駕駛場景中提出了一種多模態(tài)3D單一物體指代(SOR)任務。它通過在鳥瞰視圖(BEV)下融合圖像、LiDAR和語言特征來訓練多模態(tài)單次定位模型,并從檢測器直接預測目標區(qū)域,無需后處理。TransRMOT  將SOR任務擴展到多物體指代和跟蹤(MOR-T),并基于KITTI數(shù)據(jù)集構(gòu)建了Refer-KITTI baselin。給定一個語言query,TransRMOT可以在視頻中檢測和跟蹤任意數(shù)量的指代對象。類似地,PromptTrack  提出了nuScenes數(shù)據(jù)集的語言提示集合,并構(gòu)建了NuPrompt baseline。與ReferKITTI相比,NuPrompt繼承了nuScenes的多視角屬性,使其適用于多視角MOR-T任務。

開放詞匯的三維物體檢測和語義分割

由于VLMs的zero-shot以及跨模態(tài)的能力, 目標檢測和語義分割都具備在未知樣本上執(zhí)行開放詞匯檢測和分割的能力。UP-VL框架首先提出了一種無監(jiān)督的多模態(tài)自動標記流程,用于生成點級特征和對象級邊界框以及跟蹤信息,以進行開放詞匯類別無關的3D檢測器監(jiān)督,并在推斷時進一步用于提供3D邊界框。結(jié)合通過相似性匹配分配的語義標簽,UP-VL框架實現(xiàn)了AD場景中靜止和移動交通參與者的無監(jiān)督開放詞匯3D檢測和跟蹤(OV-3DOD-T)。OpenScene 利用2D-3D投影對應來強制使3D點云嵌入和相應的融合2D圖像特征保持一致。基本上,它將3D點云表示與CLIP的圖像-文本表示對齊,以獲取密集3D點特征的零樣本理解能力.OpenScene主要在室內(nèi)場景中進行評估,但也在Nuscenes上展現(xiàn)出令人滿意的開放詞匯三維語義分割(OV-3DSS)能力。CLIP2Scene探索了如何利用CLIP來輔助自主駕駛中的3D場景理解。通過在像素文本映射和像素點映射之間尋找模態(tài)之間的關聯(lián),CLIP2Scene分別構(gòu)建了點文本對和像素點文本對進行對比學習訓練??陀^性也是為了確保3D點特征及其相應的語言實現(xiàn)語義一致性,從而促進OV-3DSS。實驗證明,使用CLIP2Scene作為預訓練遠遠優(yōu)于其他自監(jiān)督方法。

交通場景理解

一個正確而高水平的對交通場景的理解對駕駛安全至關重要。在下圖中,

圖片

展示了GPT-4V 在一個交通事故場景和一個具有潛在風險的城市道路場景中的理解能力示例。有幾個探索性工作利用VLMs通過特定的下游任務來理解交通場景。比如可以通過對場景圖像進行描述來理解交通場景,也可以將視覺信息轉(zhuǎn)化為語言描述,然后利用LLMs的強大推理能力來解決語義異常檢測 (SAD)。NuScenes-QA 基于nuScenes數(shù)據(jù)集,在自動駕駛場景中建立了視覺問答 (VQA) 任務的baseline,為后續(xù)的研究提供了基礎。Talk2BEV 采用鳥瞰 (BEV) 檢測模型、密集字幕模型和文本識別模型構(gòu)建了真實語言增強的BEV地圖,并根據(jù)VQA任務評估模型在視覺和空間理解方面的性能。目前這方面的工作都還處于早期階段, 相信將來在這塊兒應該會有越來越多的有趣的工作。

導航與規(guī)劃

在導航領域,隨著VLM的進步,尤其是CLIP 的提出,語言引導導航(LGN)任務開始從特定的預定義位置描述擴展到自由和任意的指令,這也推動了語言增強地圖的發(fā)展。

語言導航

Talk to the Vehicle 提出了一種路標生成網(wǎng)絡(WGN),它將語義占用和預定義的自然語言編碼(NLE)映射到局部路標。規(guī)劃模塊然后使用局部路標來預測執(zhí)行軌跡。Ground then Navigation 通過使用CLIP解決了語言導航任務。它提出了一個流水線,將視頻幀,歷史軌跡上下文和語言命令作為輸入,并輸出在每個時間戳上預測的導航mask和軌跡。ALT-Pilot 通過結(jié)合語言標志物(包括街道標志,交通信號和其他重要環(huán)境特征)來增強OpenStreetMap(OSM)道路網(wǎng)絡,以替代傳統(tǒng)的內(nèi)存和計算昂貴的高清LiDAR地圖。ALT-Pilot還利用CLIP在推斷時預先計算每個標志物的特征描述符,并使用余弦相似度將它們與像素級視覺描述符進行匹配,從而促進了從語言導航指令到地圖位置的對應,從而幫助多模態(tài)定位和導航。

預測和規(guī)劃

一些研究還開始探索如何利用LLMs來提升運動規(guī)劃和軌跡預測的性能。GPT-driver 將運動規(guī)劃重新制定為語言建模問題,并將GPT-3.5模型轉(zhuǎn)化為自動駕駛的運動規(guī)劃器,想法主要是利用其強大的推理和泛化能力。CoverNet-T  提出了使用基于文本的場景描述和柵格化場景圖像訓練聯(lián)合編碼器進行軌跡預測的方法。它表明,基于文本的場景表示補充了圖像編碼的優(yōu)勢,并且聯(lián)合編碼器優(yōu)于各自的對應部分。

決策與控制

在自動駕駛的決策和控制領域,有幾項工作試圖利用LLM的強大常識理解和推理能力來輔助駕駛員或是模擬并完全替代駕駛員。通過在AD中利用LLM進行閉環(huán)控制,大多數(shù)工作引入了一個記憶模塊,用于記錄駕駛場景、經(jīng)驗和其他重要的駕駛信息。

LanguageMPC 采用LLMs作為決策組件,解決需要人類常識理解的復雜自動駕駛場景。Drive as You Speak 提出了一個框架,將LLMs整合到自動駕駛中,并相應協(xié)調(diào)其他模塊。駕駛員可以通過LLMs直接與車輛進行通信。該框架包括一個內(nèi)存模塊,將過去的駕駛場景經(jīng)驗保存在向量數(shù)據(jù)庫中,其中包括決策線索、推理過程和其他有價值的信息。然后,LLMs根據(jù)所獲得的經(jīng)驗和常識做出決策。DiLU 研究了人類駕駛員的駕駛方法,并提出了一個使用推理、記憶和反射模塊促進LLMs與環(huán)境交互的范例。該方法將人類駕駛員的這些知識驅(qū)動能力嵌入到自動駕駛系統(tǒng)中。DwLLMs 將交通參與者和環(huán)境編碼為對象級向量。它采用了一個兩階段的預訓練和微調(diào)方法,使模型能夠理解駕駛場景并生成駕駛動作。SurrealDriver 提出了一個基于LLMs的類人自動駕駛框架,該框架在CARLA模擬器內(nèi)運行。通過記憶和安全機制,LLMs能夠完成情境理解、決策和動作生成。它還學習人類駕駛員的駕駛習慣,并在閉環(huán)中持續(xù)優(yōu)化駕駛技能。DLaH 引入了推理、解釋和記憶模塊,構(gòu)建了一個基于GPT-3.5 和LLaMA-Adapter v2 的自動駕駛系統(tǒng)。它在場景理解和解決模擬中的長尾問題方面表現(xiàn)出強大的能力。

盡管現(xiàn)有的自動駕駛控制和決策工作完全依賴于低級邏輯模型 (LLMs),但它們可以通過視覺-LLMs連接器與感知模塊輕松連接,實現(xiàn)mid-to-mid或端到端的自動駕駛。

此外,為自動駕駛系統(tǒng)設計一個專門適用的視覺語言模型(VLMs)連接器是一個有前景的方向。相信在不久的將來會涌現(xiàn)出大量工作。

端到端自主駕駛

端到端自動駕駛系統(tǒng)是一個完全可微的系統(tǒng),它將原始傳感器數(shù)據(jù)作為輸入,并產(chǎn)生規(guī)劃和/或低級控制動作作為輸出,這與VLMs中的M2T模型的結(jié)構(gòu)非常契合。由于這種自然的協(xié)同作用,一些研究開始探索將M2T VLMs模型應用于端到端自動駕駛的可行性。與傳統(tǒng)的端到端自主駕駛系統(tǒng)相比,基于大規(guī)模VLMs的端到端自動駕駛系統(tǒng)具有強大的可解釋性、可信度和復雜的場景理解能力,為端到端自動駕駛的實際應用和實現(xiàn)鋪平了道路。DriveGPT4  是利用大規(guī)模VLMs進行端到端自動駕駛?cè)蝿盏拈_創(chuàng)性工作,它將原始傳感器數(shù)據(jù)和人類問題作為輸入,并輸出預測的控制信號和相應的答案。它保留了LLMs強大的zero-shot能力,并能處理未知情境。ADAPT 提出了一個基于Transformer模型的端到端自動駕駛流程。通過視頻輸入,ADAPT 連續(xù)輸出控制信號以及操作的敘述和推理描述。與DriveGPT4不同,ADAPT 不包含視覺問答模塊,而是將可解釋的端到端自動駕駛轉(zhuǎn)化為視覺字幕生成任務。

數(shù)據(jù)生成

借助生成網(wǎng)絡的進展和成功,將條件生成模型應用于自動駕駛中,可以生成大規(guī)模高質(zhì)量的數(shù)據(jù),從而推動數(shù)據(jù)驅(qū)動型自動駕駛的發(fā)展。DriveGAN 學習駕駛視頻序列及其相應的控制信號。通過將場景組件分解為動作相關和動作無關的特征,它可以控制生成視頻中的車輛行為。這種能力使得高保真度、可控性的神經(jīng)仿真和自動駕駛數(shù)據(jù)生成成為可能。BEVControl  以素描風格的BEV布局和文本提示作為輸入,生成街景的多視角圖像。它引入了控制器和協(xié)調(diào)器元素,確保素描和輸出之間的幾何一致性,以及多視角圖像之間的外觀一致性。這種方法有助于基于BEV素描進行可控自動駕駛場景樣本生成的可能性。一些工作將世界模型納入自動駕駛數(shù)據(jù)生成,以實現(xiàn)更合理、可預測和結(jié)構(gòu)化的環(huán)境模擬。DriveDreamer 是一個完全從真實駕駛場景中學習的自動駕駛世界模型。它經(jīng)歷了兩個訓練階段:首先從真實駕駛視頻中理解和建模駕駛場景,從而獲取結(jié)構(gòu)化的交通信息。第二階段通過視頻預測任務構(gòu)建駕駛世界模型,獲得預測能力。GAIA-1 將視頻、動作和文本描述作為輸入,利用世界模型的強大能力來學習結(jié)構(gòu)化表示并理解環(huán)境,將這些輸入編碼成一系列的標記。然后,它采用去噪視頻擴散模型作為視頻解碼器,實現(xiàn)高度逼真的視頻。

VLMs在智能交通系統(tǒng)中的應用

智能交通系統(tǒng)越來越普及,并且作為實現(xiàn)完全自動駕駛能力的重要一步 。ITS通常由多傳感器設置組成,由于其豐富而密集的語義信息,攝像頭幾乎總是存在的。與AD類似,VLMs也可以在許多方面促進ITS的發(fā)展,包括ITS感知和理解  ,以及ITS管理系統(tǒng) 以及VLMs在ITS中的潛在應用。當前的工作如下表所示.

圖片

ITS的感知和理解

安裝在交通基礎設施上的多傳感器系統(tǒng)數(shù)量的快速增長極大增強了ITS的能力。它促進了對交通環(huán)境的更全面的感知和理解,使ITS能夠準確地識別和解讀復雜的交通場景。

語言引導的車輛檢索

車輛檢索是ITS感知和理解的關鍵組成部分。為了引起研究人員在這個方向上的關注,AI City Challenge作為一個挑戰(zhàn)任務舉辦了基于自然語言描述的車輛檢索。作為這一集體努力的一部分,提出了一種基于自然語言的車輛多粒度檢索方法。關鍵概念是引入基于語言增強的多查詢檢索模塊。這個模塊的思想是利用多個不完美的語言描述來實現(xiàn)更高的魯棒性和準確性。另外MLVR提出了一種多模態(tài)語言車輛檢索框架,它使用文本和圖像提取器進行特征編碼,隨后通過視頻識別模塊生成視頻向量序列。通過集成結(jié)合各種車輛特征的模塊,MLVR為匹配控制創(chuàng)建了更豐富的車輛向量,并實現(xiàn)了語言引導的檢索。

交通視覺場景推理

在ITS中,利用VLM的另一個新興領域是視覺場景事件理解,通常形成為視覺問答(VQA)任務。文獻70,提出了一種基于自動生成標題的弱監(jiān)督交通領域視頻問答與自動字幕方法。其核心貢獻在于利用自動生成的合成標題對在線可用的城市交通視頻進行微調(diào),并將額外的交通領域知識注入到訓練模型中。文獻71提出了一種跨模態(tài)問題推理框架,用于識別事件級問題推理的時間原因背景?;谧⒁饬Φ哪K能夠?qū)W習時間因果場景和問題對。文獻72引入了Tem-Adapter,通過學習時間依賴關系來減小圖像和視頻領域之間的差距。在交通視頻問答任務中表現(xiàn)出良好的性能。AnomalyCLIP采用CLIP模型進行視頻異常檢測。通過指定異常類別并使用上下文優(yōu)化,它區(qū)分正常樣本和異常樣本,使模型能夠識別異常實例。AnomalyCLIP在包括路邊異常檢測在內(nèi)的各種數(shù)據(jù)集上取得了良好的結(jié)果。VLM增強的語義異常識別算法可以進一步擴展到ITS中的災害或緊急響應。

ITS管理系統(tǒng)

ITS管理系統(tǒng)基于實時感知和場景理解提高交通系統(tǒng)的運營安全性和效率。通過管理交通信號,促進順暢交通流動,及時更新道路狀況,并提供及時事故報警。流量管理。先驅(qū)性研究探索了在交通流量管理領域中利用LLMs的應用,尤其是在交通信號控制方面。PromptGAT引入了一種基于提示的基于場地行動轉(zhuǎn)換方法,這是LLMs在交通信號控制的實際應用中解決模擬到真實轉(zhuǎn)換問題的首次應用。利用LLMs理解天氣條件對交通狀態(tài)和道路類型的影響,增強了在實際場景中政策的適用性,有效縮小模擬到真實的差距。

潛在應用

雖然許多方法已經(jīng)探索了在各種交通場景中利用VLM的能力,但VLM在ITS中的全部潛力尚未得到充分發(fā)揮。

事故預測和檢測

及時檢測和預測事故的能力對確保道路安全至關重要。當前基于視覺的交通事故檢測(TAD)和交通事故預測(TAA)仍面臨著各種挑戰(zhàn),包括長尾和安全關鍵屬性、復雜場景演變、惡劣環(huán)境和確定性不確定性。大模型VLM,憑借其在零樣本泛化、深刻場景理解、邊界案例識別和多步推理方面的卓越能力,成為解決當前挑戰(zhàn)的有希望的解決方案。

崩潰報告

快速崩潰分析可以提高交通效率并防止進一步擁堵。M2V有條件的生成式虛擬語言模型代表一種潛在的解決方案。通過利用駕車人員記錄的視頻鏡頭以及他們的描述,該模型能夠即時生成事故現(xiàn)場的敘述。根據(jù)事故發(fā)生時的駕駛員陳述,可以顯著縮短處理意外情況的響應時間。

停車管理系統(tǒng)

智能停車解決方案可以利用語言引導導航和運動規(guī)劃領域中展示的LLMs的規(guī)劃能力,顯著減少在城市地區(qū)尋找停車位的時間。通過與停車位管理系統(tǒng)集成,可以為車輛提供語言引導的路線指示,協(xié)助停車管理。通過與車輛端的語言引導導航系統(tǒng)接口,這種方法可以進一步增強,潛在地實現(xiàn)自動停車解決方案。

數(shù)據(jù)集

關于這方面的數(shù)據(jù)集可以參考下表

圖片

討論

基于前面的論述,本節(jié)深入討論與語言模型在自動駕駛和智能交通系統(tǒng)中的挑戰(zhàn)和研究空白,并概述未來研究的潛在方向。

自動駕駛基礎模型

現(xiàn)有的基礎模型包括視覺基礎模型、語言基礎模型和多模態(tài)基礎模型,為自動駕駛基礎模型(ADFM)的可行性奠定了基礎。ADFM定義為在廣泛多樣的數(shù)據(jù)集上進行預訓練的模型,在解釋性、推理、預測和自省能力方面表現(xiàn)出色,并且在感知、理解、規(guī)劃、控制和決策等各種自動駕駛?cè)蝿罩芯哂懈咝?。一些研究已?jīng)做出了初步嘗試,但如何將現(xiàn)有基礎模型調(diào)整為ADFM,以使自動駕駛的客觀性得以保持,仍然是一個相對未開拓的領域。

數(shù)據(jù)可用性和格式

盡管已經(jīng)有許多現(xiàn)成的大規(guī)模自動駕駛數(shù)據(jù)集可用,但它們并不適合直接用于LLMs在AD和ITS中。例如,如何生成基于AD數(shù)據(jù)集的指令調(diào)整數(shù)據(jù)集并設計指令格式以適應ADFM的適應性仍然幾乎沒有研究。此外,一個大規(guī)模的圖像-文本交通特定對數(shù)據(jù)集也可以對AD和ITS的發(fā)展非常有幫助,特別是對于依賴于VTM預訓練模型的目標檢測、語義分割、語言引導導航和語言引導檢索的方法。

安全駕車對齊

LLMs 可能會產(chǎn)生與人類價值觀相沖突的有偏見、有害的內(nèi)容,需要進行對齊調(diào)整。同樣,當訓練10個自動駕駛基礎模型時,對其控制策略、決策和響應機制與安全標準進行調(diào)整是至關重要的,以確保遵守穩(wěn)定、安全和健康的駕駛價值觀。在LLMs對齊調(diào)整方面,已有的技術(shù),如來自人類反饋的強化學習(RLHF) 和監(jiān)督對齊調(diào)整,都值得在這個領域嘗試。

多模態(tài)適應性

如前面講的目前利用LLMs進行運動規(guī)劃、控制和決策的方法常常直接將傳感器數(shù)據(jù)轉(zhuǎn)換為文本表達,或者通過現(xiàn)有的感知算法或從仿真器中直接提取。雖然這種模塊化方法簡化了實驗,但可能導致上下文和環(huán)境信息的丟失,并且嚴重依賴于感知算法的性能。因此,在自動駕駛場景中,研究建立視覺語言連接的可能性,可以是通過 VTM、VTF 或兩者的混合作為簡單手動重新制定的替代方向,值得追求。

時間場景理解

自動駕駛和ITS中的場景理解通常需要從視頻中獲取時間信息,以連續(xù)感知和理解交通環(huán)境和交通參與者的動態(tài)和因果關系。僅使用圖像級別的VLMs 是不夠的。例如,無法單憑一張單一圖像 判斷車禍的具體原因。如下圖

因此,如何處理交通場景的時間傳感器數(shù)據(jù)是一個仍需探索的問題。一種可能的方法是訓練一個視頻-語言模型,在這方面,所有現(xiàn)有的視頻-語言適配器都有潛在的應用價值。另一種可能的路線涉及將視頻數(shù)據(jù)轉(zhuǎn)換為可以由圖像-語言模型處理的范式,通過必要的集成時間適配器層和微調(diào),從而增強模型對交通環(huán)境中的時空信息的理解能力。

計算資源和處理速度

實時處理和有限的計算資源對自動駕駛和智能交通系統(tǒng)中模型部署構(gòu)成重大挑戰(zhàn)。當前的LLM通常包含數(shù)十億個參數(shù),使得微調(diào)和推理都需要高度的資源消耗,無法滿足實時要求。有幾種現(xiàn)有技術(shù)可以緩解這些問題。例如,參數(shù)高效微調(diào)(PEFT)減少可訓練參數(shù)的數(shù)量,同時保持令人滿意的模型性能,從而最小化了微調(diào)過程中的資源消耗。此外,與通用的LLM不同,自動駕駛所需的知識通常是專業(yè)化和領域特定的,LLM所包含的大部分知識實際上對自動駕駛來說是冗余的。因此,采用知識蒸餾來訓練一個更小、更適合自動駕駛的模型是可行的方法。深度學習中的其他常見模型壓縮技術(shù),如量化和修剪,也適用于這個。

結(jié)論

這個綜述總結(jié)了自動駕駛和智能交通系統(tǒng)中視覺語言模型VLM的背景、當前進展、潛在應用和未來發(fā)展方向。它全面總結(jié)和分析了該領域中的一些重要任務、方法和數(shù)據(jù)集。根據(jù)當前的研究,本工作闡述了目前的挑戰(zhàn)、潛在的解決方案和未來的研究方向。

paper鏈接: https://arxiv.org/abs/2310.14414

原文鏈接:https://mp.weixin.qq.com/s/quGg0nK7jxv40ZXJ1F3KCg

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2018-05-02 11:25:59

智能交通

2024-03-19 13:12:36

自動駕駛模型

2023-01-12 09:25:11

自動駕駛

2024-02-23 11:27:00

數(shù)據(jù)技術(shù)

2023-12-15 09:58:44

自動駕駛技術(shù)模型

2024-03-12 09:24:38

智能駕駛

2023-07-18 15:57:23

自動駕駛

2023-12-08 10:10:56

模型論文調(diào)研

2023-02-13 12:15:41

自動駕駛算法

2024-09-04 10:20:00

自動駕駛模型

2023-10-24 09:53:56

自動駕駛模型

2024-08-13 12:39:23

2024-04-26 08:53:46

自動駕駛人工智能大型語言模型

2023-10-30 09:42:29

自動駕駛模型

2023-05-06 10:02:37

深度學習算法

2023-03-14 09:40:33

自動駕駛

2021-11-10 15:07:22

自動駕駛技術(shù)安全

2024-02-28 09:59:25

模型自動駕駛

2023-09-05 16:35:49

自動駕駛

2023-09-22 11:56:57

模型駕駛
點贊
收藏

51CTO技術(shù)棧公眾號