自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MIT最新!多模態(tài)LLM真的無所不能嗎?大模型能解決一切難題嗎?

人工智能 智能汽車
本文介紹了一個專門設(shè)計的模擬器DR I V ESI M,用于生成各種駕駛場景,為評估MLLMs在駕駛領(lǐng)域提供了平臺。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

本文對自動駕駛領(lǐng)域內(nèi)多模態(tài)大型語言模型(MLLMs)的應(yīng)用進行了審慎的審視,并對一些常見的假設(shè)提出了質(zhì)疑/驗證,重點關(guān)注它們通過閉環(huán)控制環(huán)境中的圖像/幀序列推理和解釋動態(tài)駕駛場景的能力。盡管GPT-4V等MLLMs取得了顯著的進步,但它們在復(fù)雜、動態(tài)的駕駛環(huán)境中的性能在很大程度上仍未經(jīng)過測試,呈現(xiàn)出廣闊的探索領(lǐng)域。我們從固定車載攝像頭的角度,對各種MLLMs作為駕駛世界模型的能力進行了全面的實驗研究。發(fā)現(xiàn)表明,雖然這些模型能夠熟練地解釋單個圖像,但在合成描述動態(tài)行為的幀之間的連貫敘述或邏輯序列時卻遇到了很大的困難。實驗顯示出在預(yù)測(i)基本車輛動力學(xué)(前進/后退、加速/減速、右轉(zhuǎn)或左轉(zhuǎn)),(ii)與其他道路參與者(例如,識別超速車輛或重交通)的交互,(iii)軌跡規(guī)劃,以及(iv)開放集動態(tài)場景推理時存在相當(dāng)大的不準(zhǔn)確性,這表明模型訓(xùn)練數(shù)據(jù)存在偏差。為了進行這項實驗研究,本文介紹了一個專門設(shè)計的模擬器DR I V ESI M,用于生成各種駕駛場景,為評估MLLMs在駕駛領(lǐng)域提供了平臺。此外,還貢獻了完整的開源代碼和一個新的數(shù)據(jù)集“EVAL-LLM-DRIVE”,用于評估駕駛中的MLLMs。結(jié)果凸顯了當(dāng)前最先進的MLLMs在現(xiàn)有能力方面的關(guān)鍵差距,強調(diào)了需要增強的基礎(chǔ)模型來提高它們在現(xiàn)實世界動態(tài)環(huán)境中的應(yīng)用性。

主要貢獻

為此,在這項工作中,研究了MLLMs在駕駛場景中的推理能力,旨在衡量它們在閉環(huán)駕駛中理解復(fù)雜、動態(tài)環(huán)境以及通過整合從安裝在駕駛車輛上的固定攝像頭捕獲的視覺數(shù)據(jù)序列來做出適當(dāng)決策的能力,就像MLLM是駕駛員一樣。

? 一項全面的實驗研究,以評估不同MLLMs在涉及閉環(huán)駕駛和決策制定的場景中推理/理解場景的能力。測試涵蓋了環(huán)境交互的多個方面,包括自身車輛的駕駛動態(tài)、其他道路參與者的動態(tài)互動、軌跡規(guī)劃以及開放集駕駛場景推理;更多細(xì)節(jié)見第I-A節(jié)。

? DRIVESIM;一個專門設(shè)計的模擬器,用于生成各種駕駛場景,從而提供了一個平臺,用于從固定車內(nèi)攝像頭視角(與駕駛員視角相同)測試、評估/基準(zhǔn)測試MLLMs在理解和推理現(xiàn)實世界駕駛場景方面的能力。

? 令人驚訝的發(fā)現(xiàn)表明,包括GPT-4V和Claude3在內(nèi)的領(lǐng)先MLLMs在解釋、推理以及在動態(tài)場景中采取正確行動方面存在困難,即,在閉環(huán)駕駛設(shè)置中的幀序列存在重大不準(zhǔn)確性。這個問題在各種最先進的(SOTA)模型中均有觀察到,很可能是由于它們的訓(xùn)練數(shù)據(jù)存在偏差。

? DRIVESIM的開源代碼,以及一個新的數(shù)據(jù)集“EVAL-LLM-DRIVE”,用于評估MLLMs作為駕駛世界模型的能力。

主要驗證目標(biāo)

一個駕駛世界模型應(yīng)該包含環(huán)境交互和場景推理的多個方面,定義并測試如下:

(i)自身車輛動態(tài):首先,仔細(xì)審查模型捕捉基本駕駛動態(tài)的能力,如方向性(前進或后退運動)、速度變化(加速或減速)以及道路調(diào)整(右轉(zhuǎn)或左轉(zhuǎn))。

(ii)其他道路參與者的動態(tài)互動:在掌握基礎(chǔ)之后,進一步挑戰(zhàn)模型去推理其他道路參與者的動態(tài)互動:檢測快速行駛的車輛、識別交通擁堵以及其他場景。

(iii)規(guī)劃能力:接著,檢查了模型規(guī)劃準(zhǔn)確駕駛軌跡的能力,檢查它們是否能夠有效避開沿途的障礙物。

(iv)開放集場景推理:適應(yīng)性的最終測試體現(xiàn)在開放集推理中,我們的測試打破了傳統(tǒng)的駕駛預(yù)期。它構(gòu)造了諸如飛機在道路上緊急降落或動物突然出現(xiàn)的不可預(yù)測場景,挑戰(zhàn)了MLLMs在這個精心設(shè)計的世界模型中能夠預(yù)期和正確互動的邊界。

圖片

DRIVESIM作為世界模型的GT

為了測試MLLMs作為駕駛世界模型的能力,需要理解圖2中展示的各個組件,我們提供了DR I V ESI M作為基準(zhǔn)駕駛世界模型,它能夠通過模擬廣泛的駕駛場景來探究MLLMs在(i)到(iv)各方面的推理能力,這些方面包括從基本車輛動態(tài)到與其他道路使用者的交互以及意外事件,為測試MLLMs系統(tǒng)創(chuàng)建了一個豐富、動態(tài)的環(huán)境。令人驚訝的是,在閉環(huán)設(shè)置下的動態(tài)駕駛場景中評估MLLMs的能力在很大程度上仍未被探索,這可能是由于缺乏合適的模擬器或數(shù)據(jù)集。駕駛場景的復(fù)雜性,包括其連續(xù)運動和不可預(yù)測的事件,使得準(zhǔn)確模擬現(xiàn)實世界條件變得困難。DRIVESIM填補了這一空白,它提供了一個多功能的平臺,能夠模擬從標(biāo)準(zhǔn)場景到意外事件的廣泛駕駛情況,同時允許對自車動態(tài)進行詳細(xì)的操控,并將(開放集)角色如動物、路障和車輛添加到模擬中,豐富了可測試場景的種類,并增強了平臺在探測模型方面的實用性。這個模擬環(huán)境對于測試MLLMs隨時間推理、解釋序列和與動態(tài)世界交互的能力至關(guān)重要。

圖片

通過在模擬器上進行嚴(yán)格測試獲得的廣泛實驗結(jié)果揭示了當(dāng)前MLLMs狀態(tài)的一個悖論。雖然這些模型在理解單個圖像方面顯示出強大的能力,但在將描繪動態(tài)行為的一系列幀合成連貫的敘述或邏輯方面卻存在顯著的困難。

這種缺陷在它們嘗試推理車輛運動時尤為明顯,比如識別一輛車是向前還是向后移動;例如,GPT-4V將所有生成的場景都預(yù)測為向前行駛,達(dá)到了50%的準(zhǔn)確率!在加速或減速方面,它達(dá)到了35%的準(zhǔn)確率(甚至低于隨機猜測?。?,并明顯偏向于減速,而在確定轉(zhuǎn)彎方向時,它達(dá)到了53%的準(zhǔn)確率,并且在右轉(zhuǎn)和左轉(zhuǎn)場景中都是隨機猜測的方式。在交通檢測方面,GPT-4V能夠達(dá)到75%的準(zhǔn)確率,但有一個明顯的限制,即它更可能報告沒有交通。最后,GPT-4V在識別超速車輛方面表現(xiàn)極差,它僅在30個包含超速車輛的場景中檢測到了兩個。這些結(jié)果在所有最先進的MLLMs中都是一致的,包括Claude3、LLaVa-1.6、InstructBLIP等。

此外,實驗研究中還提供了開放集推理實驗——仍然展示了當(dāng)前最先進的MLLMs的局限性??赡艿脑蚴荕LLMs訓(xùn)練數(shù)據(jù)中的偏差,因為通常車輛都是向前移動的,而且在駕駛中讓車輛減速比加速更安全??傊@些實驗突顯了模型在將離散視覺信息隨時間連接起來以推斷運動方面的關(guān)鍵差距,表明它們在當(dāng)前狀態(tài)下在理解現(xiàn)實世界動態(tài)中固有的流動性和連續(xù)性方面存在限制。

方法介紹

為了滿足實驗設(shè)置的要求,這需要一個受控環(huán)境和反事實測試(即生成與原始數(shù)據(jù)集不同的反事實數(shù)據(jù),而不是MLLMs的反事實推理),在nuScenes數(shù)據(jù)集的基礎(chǔ)上開發(fā)了一個數(shù)據(jù)驅(qū)動的模擬器。這種方法有效地平衡了傳感器逼真度、閉環(huán)模擬和場景設(shè)置可控性,使其成為我們用例的理想選擇。在隨后的部分中,將概述模擬器的關(guān)鍵特性,并闡述它們對我們理解駕駛場景中MLLMs推理過程的實證研究的重要性。

閉環(huán)傳感器合成與控制。實驗方法的核心涉及通過閉環(huán)執(zhí)行決策制定來探究MLLMs的推理過程,具體提出的問題包括:

? 如果車輛采取與數(shù)據(jù)集中不同的行動,結(jié)果會如何?

要解決這個問題,需要實施傳感器合成以適應(yīng)假設(shè)的“如果...會怎樣”的場景。從自車的初始位置開始,利用車輛動力學(xué)進行閉環(huán)控制,并將輸入空間特征化如下:(i)使用自行車模型表示加速和轉(zhuǎn)向速度,(ii)通過自行車模型的集成版本表示速度和轉(zhuǎn)向角,以及(iii)相對于局部坐標(biāo)系進行直接姿態(tài)調(diào)整(用于無動力學(xué)的運動規(guī)劃)。為了促進傳感器合成,結(jié)合實際傳感器測量和重仿真技術(shù),結(jié)合地圖信息(這對于后續(xù)部分中的對象/行為者合成和行為建模也至關(guān)重要)。從高層次上講,地圖信息包括相互連接的車道段和其他幾何元素,這些元素定義了各種道路組成部分,如停車線和交通標(biāo)志。沿著每個車道段,都有與傳感器測量值(如相機圖像)相關(guān)聯(lián)的樣本點。通過車輛動力學(xué)導(dǎo)出的姿態(tài)與地圖上的最近樣本點進行匹配,結(jié)合傳感器的方向,為渲染和行為建模提供了局部坐標(biāo)系。對于渲染,首先通過應(yīng)用于RGB圖像和稀疏LiDAR點的深度完成技術(shù)來獲取深度信息。隨后,使用針孔相機模型將RGB像素投影到3D空間中,創(chuàng)建一個可以從不同視點渲染的3D網(wǎng)格。利用基于局部坐標(biāo)系到用于重仿真的目標(biāo)RGB圖像和用戶定義的相機內(nèi)參計算出的外參,我們可以對最終圖像進行渲染。

場景中的對象和角色合成。'如果...會怎樣'實驗設(shè)置的另一個方面涉及處理如“如果一只鹿突然出現(xiàn)在路邊?”這樣的場景。這需要具備在場景中模擬合成對象或角色的能力?;谇懊婷枋龅?D重建流程,我們將所需對象和角色的3D網(wǎng)格無縫集成到場景中。這些網(wǎng)格可以高效地通過利用LLMs對Objaverse數(shù)據(jù)集上注釋的文本理解能力來獲取。例如,可以識別出表明相應(yīng)網(wǎng)格代表動物的注釋。利用地圖的幾何和語義信息,將網(wǎng)格放置在合理的位置和方向上。示例包括自車所在車道的旁邊、交通燈下方、停車線上方等。

角色的行為建模。在添加了合成角色之后,這些角色的行為或移動對于MLLMs的推理過程變得至關(guān)重要。這引入了探索以下場景的必要性:

? “如果一架飛機在頭頂飛過或降落在路上怎么辦?”或者 ? “如果汽車因為交通堵塞而減速怎么辦?”

對于地面車輛的行為,采用比例-積分-微分(PID)控制器進行轉(zhuǎn)向控制,以跟蹤從地圖或運動計劃中獲取的參考路徑;對于加速控制,使用智能駕駛員模型(IDM),該模型專注于在自車前方最近且可能導(dǎo)致與自車碰撞的移動物體。對于運動規(guī)劃,采用帶有五次多項式軌跡生成的狀態(tài)網(wǎng)格規(guī)劃器,其中目標(biāo)狀態(tài)網(wǎng)格被確定為在當(dāng)前車道或相鄰車道中自車前方特定距離的位置。為了模擬其他角色的行為,通過在預(yù)定義的起始和結(jié)束姿態(tài)之間進行樣條插值來創(chuàng)建軌跡。重點是模擬合成角色對自車、自身以及場景中其他已存在角色或?qū)ο蟮姆磻?yīng)行為,而不是已存在實體的行為。

實驗研究

這里展示了SOTA MLLMs(大規(guī)模語言模型)作為DR I V ESI M提出的關(guān)鍵場景中的世界模型的性能,這些場景與圖2中展示的類別相對應(yīng)。我們使用第I-A節(jié)中解釋的范式來測試MLLMs作為駕駛世界模型的能力,具體來說,測試它們確定自車運動的能力:車輛是前進還是后退?是在加速還是減速?是左轉(zhuǎn)還是右轉(zhuǎn)?所有這些都是以分類的方式進行的。然后,評估街道上其他因素的推理能力,以確定它是否檢測到超速車輛(是否有超速車輛?)或交通擁堵(是否有交通擁堵?)。此外,測試MLLMs在開放(甚至異常)環(huán)境(如提供突然出現(xiàn)動物或靜態(tài)物體甚至飛機降落的圖像)中的決策能力(自車是否能在同一車道內(nèi)繼續(xù)行駛?)。最后,可以測試MLLMs在嘗試保持在車道內(nèi)的同時選擇最佳軌跡繞過障礙物的能力(應(yīng)該遵循哪條軌跡?)。在表I中,展示了Claude3、GPT-4V、LLaVA-1.6、InstructBLIP和MiniGPT4-v2在這些情況下的表現(xiàn)。

視頻場景表示。我們的目標(biāo)是為模型提供由DR I V ESI M生成的視頻輸入,以模擬真實世界駕駛場景中的攝像頭視角。我們提供不同級別的視頻信息,以便評估時序推理。這種設(shè)置如圖6所示。使用模擬的視頻數(shù)據(jù)創(chuàng)建了一個視頻幀網(wǎng)格,其中每個幀之間相隔半秒。測試了不同數(shù)量的幀:三個、六個和九個。這種輸入格式是為了避免模型在采用多查詢方法解析圖像時可能遇到的問題,同時避免在提供大量幀時遇到上下文長度限制。

圖片

Prompting。除了這些幀之外,還必須提供一個適當(dāng)?shù)奈谋咎崾疽垣@得響應(yīng)。提示必須告知模型圖像的格式,即幀來自安裝在移動汽車上的攝像頭,并獲得對相關(guān)問題的響應(yīng)。這在圖6中的示例提示中有所展示,該提示詢問自車是否正在經(jīng)歷交通擁堵或無交通擁堵。當(dāng)提示自車動作和其他角色行為場景時,遵循類似的格式。要求描述每一幀中可能正在發(fā)生的事情,以確保模型理解它正在解析視頻并遵循正確的幀順序,然后可以手動驗證每一幀的解釋。

評估。將從MLLM獲得的結(jié)果與DRIVESI M提供的真實情況進行比較。為了進一步擴展表I中給出的這一評估過程的結(jié)果,深入探討了自車運動、其他角色行為、開放集和規(guī)劃推理的具體內(nèi)容。由于GPT-4V和Claude3作為當(dāng)前可用的最大模型之一以及在評估中觀察到的高水平推理能力,這里提供了一個更復(fù)雜的分析,重點關(guān)注這兩個模型。

圖片

1)自車運動推理

評估了高加速率、低加速率、高減速率和低減速率的情況

圖片

如表I所示,對于大多數(shù)模型,性能大約為50%,尤其是GPT-4V,表現(xiàn)較差,僅為32%。在圖4中探索了GPT-4V和Claude3的性能。這些混淆矩陣是在我們向模型提供高和低加速率以及減速率場景時得到的。請注意,在這些測試中,GPT-4V偏向于減速的響應(yīng)。有趣的是,與真實情況是加速相比,當(dāng)真實情況是減速時,模型預(yù)測為加速的情況更多。對于Claude3,雖然仍然偏向于減速,但其程度沒有GPT-4V那么極端。

圖片

2)他車運動推理

交通與無交通是基于其他道路使用者行為的一種常見情況。交通的產(chǎn)生主要有兩個來源:道路上的其他車輛數(shù)量以及給定其他車輛的情況下,自車能夠移動的速度。因此,幾何理解對于觀察場景中的其他車輛數(shù)量是必要的,而幾何和時序推理的結(jié)合則用于判斷交通流的速度。在我們的模擬器中,我們提供了四個級別的交通情況。(i) 最低級別,即無交通標(biāo)簽,表示與自車在同一車道上沒有其他車輛,允許自車自由行駛。(ii) 次低級別,同樣標(biāo)記為無交通,是指雖然有其他車輛與自車在同一車道上,但這些車輛的速度足夠快,不會阻礙自車的期望速度。(iii) 下一級別,我們將其標(biāo)記為交通,是指有大量其他車輛,但交通流是緩慢且穩(wěn)定的。(iv) 最高級別,我們也將其標(biāo)記為交通,是指大量車輛都以非常慢的速度移動。圖6展示了一個最高級別交通狀況的視頻。即使只是匆匆一瞥,由于其他車輛的密度和自車的緩慢移動,人類也能清晰地分辨出交通狀況的程度。

圖片

為了消除查詢模型時的歧義,我們必須明確“交通”的含義。因此,我們在提示的相應(yīng)部分中指定了:“是否有交通導(dǎo)致車輛減速?”(如圖6中的提示所示)。在使用此提示進行評估時,發(fā)現(xiàn)與自車運動案例相比,這種情況下的準(zhǔn)確率普遍更高,如表I所示。進一步在圖8中探索了GPT-4V和Claude3的結(jié)果,該圖顯示了當(dāng)我們將高低不同交通流量的場景提供給模型時,描述混淆矩陣的折線圖。預(yù)測總體上與交通水平呈正相關(guān),其中Claude3在識別高交通水平時更為成功,而GPT-4V在識別無交通時特別成功。盡管不是完美的,但模型在識別交通方面的能力是在自車運動和其他行為者場景中取得的最高成功率。

3)開集推理

場景中動物和靜態(tài)物體的看似隨機的放置是DRIVESIM能夠評估多語言大型模型(MLLMs)的開放集場景之一。作為人類駕駛員,你已經(jīng)準(zhǔn)備好應(yīng)對這些意外情況。如果靜態(tài)物體在路上,你會減速或避開它,但如果它不在路上,你的駕駛方式就不會改變。然而,對于動物來說,存在它是否會移動的不確定性,因此無論如何,你都必須減速或避開它。因此,從人類的角度來看,圖11中呈現(xiàn)的場景中應(yīng)該怎么做是很清楚的。我們可以看到,大型模型GPT-4V和Claude3在這些情況下的推理相當(dāng)成功,如表I所示,以及圖11中GPT-4V的響應(yīng)所示。

圖片

飛機著陸與頭頂飛過是一個我們能夠通過DRIVESIM探索的引人入勝的開放集場景。人類駕駛員可能不知道如何應(yīng)對這樣的極端情況,但我們可以觀察多語言大型模型(MLLMs)的行為。圖12中的幀展示了一個飛機著陸或頭頂飛過的場景。在用于編制表I結(jié)果的主要提示中,我們觀察到,無論飛機是否著陸,模型都建議你不能繼續(xù)行駛,因為存在風(fēng)險:這是一個合理的反應(yīng)。因此,我們探索了一些假設(shè)場景,這些場景真正考驗了模型對飛機運動的幾何和時序理解,這與其他駕駛場景完全不同。

4)規(guī)劃推理

最后,我們展示了我們的規(guī)劃實驗。通過DRIVESIM,我們能夠生成到地圖上某個點的規(guī)劃,并在相機視圖中進行可視化。我們還可以將靜態(tài)物體引入場景中,并評估多語言大型模型(MLLMs)是否能夠選擇繞過這些障礙物的規(guī)劃。在圖13中,我們展示了針對給定場景的四種規(guī)劃評估方法:(1) 無障礙物,(2) 物體不阻擋任何軌跡,(3) 物體阻擋中間和右側(cè)軌跡,(4) 物體阻擋中間和左側(cè)軌跡??紤]到保持在同一車道內(nèi)的目標(biāo),并且給出了三種軌跡選擇,人類駕駛員在每個例子中都會有明確的選擇:(1) 綠色,(2) 綠色,(3) 藍(lán)色,和(4) 紅色。為了運行評估,我們需要使用不同風(fēng)格的提示來在單張圖像中選擇軌跡。因此,我們使用了圖13中顯示的提示,其中我們還指定了保持在同一車道內(nèi)的目標(biāo),因此總是有一個正確的選擇。從表I中我們可以看到,較大的模型GPT-4V和Claude3的準(zhǔn)確率顯著優(yōu)于其他模型。然而,它們的成功率仍然只有大約50%,這對于旨在用于閉環(huán)規(guī)劃的模型來說并不理想。因此,需要進一步探究以找出限制的來源。我們通過在提示中添加“同時避開障礙物”將Claude3的性能從45%提高到55%。這一改進揭示了多語言大型模型作為世界模型在提高準(zhǔn)確率方面的失敗。

圖片

結(jié)論

這項工作展示了包括GPT-4V和Claude3在內(nèi)的當(dāng)前最先進的多語言大型模型(SOTA MLLMs)作為駕駛世界模型的現(xiàn)有能力。盡管它們在單個圖像分析方面表現(xiàn)出色,但通過我們廣泛的實驗結(jié)果,它們在跨多個駕駛場景幀進行推理方面的局限性已經(jīng)變得顯而易見。我們觀察到,無法處理各種場景明顯是由于預(yù)期車輛運動的偏差所致,例如在道路上行駛時的向前運動。盡管許多準(zhǔn)確率水平似乎隨機,但DRIVESIM允許我們深入探究預(yù)測背后的推理能力,揭示偏差的詳細(xì)信息。雖然在理解現(xiàn)實世界動態(tài)方面存在局限性,但明確的前進道路展示了如何改進它們。未來的工作可以利用DRIVESIM為微調(diào)MLLMs提供數(shù)據(jù),結(jié)合先進的仿真功能(如路徑規(guī)劃),以增強對下一代MLLMs的評估。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2019-12-19 14:17:11

以太坊去中心化加密貨幣

2025-01-08 08:21:16

2024-02-05 10:56:34

2018-02-25 05:45:35

2021-04-07 10:02:18

人工智能技術(shù)互聯(lián)網(wǎng)

2025-02-17 00:00:25

CSS工具樣式

2024-12-18 18:57:58

2009-07-06 18:43:13

VB指針

2013-05-22 14:05:18

2024-04-24 12:39:17

2023-08-30 13:23:00

模型訓(xùn)練

2014-03-11 23:02:00

2019-12-02 10:23:49

人工智能機器學(xué)習(xí)技術(shù)

2023-12-29 10:17:44

2013-10-09 14:30:36

2024-11-13 09:39:13

2023-12-07 19:01:25

2023-10-25 14:17:00

2023-07-18 10:38:09

點贊
收藏

51CTO技術(shù)棧公眾號