自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

直接干上車!DriveVLM:首個Orin部署的快慢雙系統(tǒng)智駕大模型

人工智能 智能汽車
今天為大家分享清華&理想最新的工作—DriveVLM,結(jié)合大視覺語言模型的自動駕駛新方案!

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

在目前自動駕駛領(lǐng)域,傳統(tǒng)的感知(perception)-預(yù)測(prediction)-規(guī)劃(planning)的常規(guī)端到端自動駕駛在處理常規(guī)場景時表現(xiàn)尚可,但在面對復(fù)雜場景或者長尾場景時會遇到較大的挑戰(zhàn)。論文作者認(rèn)為主要是因為目前常規(guī)模塊的設(shè)計缺乏“場景理解”能力所導(dǎo)致的,比如感知模塊常常只是檢測識別常見物體,忽略了長尾物體和物體特性的識別。鑒于近期大視覺語言模型(LVLMs)在視覺理解和推理展現(xiàn)出的強大能力,作者將VLM應(yīng)用在自動駕駛領(lǐng)域,并設(shè)計了一套特殊的CoT推理過程,同時提出了一種與傳統(tǒng)自動駕駛系統(tǒng)相結(jié)合的方法,提高了精度的同時又能確保實時性的部署。

論文鏈接:https://arxiv.org/abs/2402.12289

DriveVLM的主要貢獻

提出了一種將大視覺語言模型用于自動駕駛場景的方法DriveVLM,設(shè)計了場景描述、場景分析和層級規(guī)劃地遞進式思維鏈(CoT),分別對應(yīng)于傳統(tǒng)自動駕駛流程中的感知、規(guī)劃和控制三個模塊,期望借助大視覺語言模型的強大泛化和認(rèn)知能力,實現(xiàn)比傳統(tǒng)模塊更優(yōu)越的性能。

提出了一種大模型與傳統(tǒng)自動駕駛模塊相結(jié)合的方法DriveVLM-Dual,通過有選擇性地與傳統(tǒng)感知和規(guī)劃模塊進行交互,一方面將匹配的物體感知3D信息引入VLM一側(cè)實現(xiàn)更好地特征分析,另一方面VLM輸出的軌跡點可選擇地送入傳統(tǒng)規(guī)劃模塊,實現(xiàn)實時且更精細(xì)地軌跡規(guī)劃。

提出了一套挖掘復(fù)雜和長尾駕駛場景的數(shù)據(jù)挖掘流程,并以此構(gòu)建了多樣化地SUP-AD數(shù)據(jù)集。該數(shù)據(jù)挖掘流程依次包括長尾/挑戰(zhàn)性場景挖掘,人工篩選過濾,視頻關(guān)鍵幀選取,場景標(biāo)注,人工檢驗。

DriveVLM可視化結(jié)果

作者提供了幾個DriveVLM的可視化場景展示。在圖1中,DriveVLM在夜晚識別出前方慢速行駛的車輛,并提供了變道超車的駕駛決策。

在圖2中,DriveVLM識別了一個倒塌的樹木,并給出了稍微向右偏移的駕駛決策。

在圖3中,DriveVLM準(zhǔn)確的捕捉出交警示意繼續(xù)前行的手勢,展示了其對于物體行為理解的能力。

詳解DriveVLM

圖中是DriveVLM的模型pipeline,主要包括場景描述、場景分析、層級規(guī)劃三個主要模塊設(shè)計,下面將分別介紹。

一.場景描述

場景描述模塊的功能主要分為兩部分——環(huán)境描述和關(guān)鍵物體識別。其中環(huán)境描述主要是對共性的駕駛環(huán)境的描述,比如天氣和道路狀況等;關(guān)鍵物體識別則是為了找出對于當(dāng)前駕駛決策產(chǎn)生較大影響的關(guān)鍵物體。

環(huán)境描述.

環(huán)境描述共包括以下四個部分:天氣、時間、道路類型、車道線狀況。
天氣(E_weather):描述了當(dāng)前駕駛場景的天氣狀況,比如晴天或者下雪等。像雨雪或者霧天這種天氣狀況自然會需要更加謹(jǐn)慎地駕駛策略。
時間(E_time):描述當(dāng)前的時間段,比如白天還是夜間場景。像夜間場景由于能見度低也需要采取謹(jǐn)慎地駕駛策略。
道路類型(E_road):描述當(dāng)前駕駛所處路段的類型,比如城市、高速、鄉(xiāng)村等。不同路段可能存在不同類型的挑戰(zhàn),即需要不同地駕駛風(fēng)格。
車道線狀況(E_lane):提供了車道線狀況的描述,包括自車所處車道和潛在的車道線選擇。這些信息對于我們車道的選擇和安全變道至關(guān)重要。

關(guān)鍵物體識別

區(qū)別于傳統(tǒng)自動駕駛感知模塊將所有待檢測物體都檢出,DriveVLM借鑒了人類在駕駛時的思考過程,專注于識別當(dāng)前駕駛場景中最有可能影響自車駕駛決策的物體,稱之為關(guān)鍵物體。得益于海量數(shù)據(jù)的預(yù)訓(xùn)練,VLM相比于傳統(tǒng)3D目標(biāo)檢測器能夠更好的識別出長尾的關(guān)鍵物體,比如路面雜物或者非常見動物等。對于每個關(guān)鍵物體,DriveVLM會分別輸出其語義類別c和對應(yīng)的2D目標(biāo)框b。

二.場景分析

在傳統(tǒng)端到端自動駕駛流水線中,預(yù)測(prediction)模塊一般只輸出物體的未來軌跡,來輔助后續(xù)規(guī)劃模塊進行決策。但這種單一的軌跡預(yù)測不能全面體現(xiàn)物體對自車駕駛決策的影響,很多物體對自車產(chǎn)生的影響不單單限于其未來潛在軌跡這么簡單。得益于大視覺模型的發(fā)展,DriveVLM對當(dāng)前駕駛場景進行更加全面的場景分析。
關(guān)鍵物體分析。在之前得到駕駛場景中的關(guān)鍵物體后,DriveVLM對關(guān)鍵物體特征和其對自車潛在的駕駛影響進行分析。在這里,作者將物體特征分為3個方面——靜態(tài)屬性(Cs)、運動狀態(tài)(Cm)和特殊行為(Cp)。靜態(tài)屬性描述了物體固有的屬性,比如道路標(biāo)志中的標(biāo)號或者標(biāo)語,超出卡車車身長度的貨物等,這些屬性有助于自車確定一些潛在駕駛風(fēng)險或?qū)?yīng)的。
運動狀態(tài)(Cm),包括位置、方向和動作等,描述物體在一段時間內(nèi)的運動狀態(tài),與傳統(tǒng)軌跡預(yù)測模塊類似。特殊行為(Cp)則是指某些專屬于該物體做出的可能影響自車駕駛的特定行為或者手勢等,比如交警指揮交通的手勢,面前的人在使勁揮手示意等。在實際應(yīng)用中,作者并沒有強制DriveVLM對于所有關(guān)鍵物體都輸出這三方面的信息,而是使模型學(xué)會應(yīng)該自適應(yīng)地輸出某個物體在這三方面中可能包含的方面。

場景總結(jié)

在分析完所有關(guān)鍵物體后,DriveVLM會對當(dāng)前駕駛場景進行一個總結(jié),除去匯集之前的分析信息之外,還有一些場景級別的額外的場景級別的分析會在這里完成。之后,所有信息會作為上下文進行后續(xù)的分層級規(guī)劃。

層級規(guī)劃

DriveVLM提出了一種逐漸遞進地層級式規(guī)劃,依次推理對應(yīng)自車未來駕駛決策的元動作、決策描述、軌跡點三種規(guī)劃目標(biāo)。
元動作:每個“元動作”對應(yīng)駕駛決策的一個基本粒度的動作,一系列元動作的序列可以一定程度上描述未來短時間內(nèi)的駕駛決策。作者將元動作的類型歸為了17種,比如加速、等待、向左\右變道等。可以按照其特點歸為速度控制類、轉(zhuǎn)向類、車道線控制類這三大類別。

決策描述:相對于簡單動作粒度級別的“元動作”,“決策描述”包含了對于駕駛決策更加詳細(xì)多維地描述。一個完整的“決策描述“一般包含三個基本元素:動作A,主體S,以及持續(xù)時間D。動作類似之前的元動作,比如“加速”,”轉(zhuǎn)彎”,“等待”等。主體指的是自車動作所施加的物體,例如行人、交通信號或特定的車道等。持續(xù)時間表示動作的執(zhí)行時間,比如動作應(yīng)該持續(xù)多久或何時開始等。
文中提供了一個對應(yīng)“決策描述”示例的分析:等待(A)行人(S)通過街道,然后(D)開始加速(A),并且匯入右側(cè)車道(S)。這種結(jié)構(gòu)化的決策描述有助于VLM輸出規(guī)范且易于的駕駛指令。
軌跡點: 輸出較為詳細(xì)的軌跡描述后,DriveVLM接下來輸出相應(yīng)的軌跡點預(yù)測,記為W = {w1, w2, ..., wn}, wi = (xi , yi),代表未來固定時間間隔t時刻的位置。通過這種分層級設(shè)計,引導(dǎo)DriveVLM一步步地輸出由易到難地決策規(guī)劃,最后對應(yīng)的軌跡點可以送入專門的規(guī)控模塊進行進一步的改善和細(xì)化。

DriveVLM-Dual

盡管現(xiàn)有的大視覺語言模型在識別長尾物體和理解復(fù)雜場景方面表現(xiàn)優(yōu)越,但根據(jù)現(xiàn)有研究和作者的初步實驗表明,VLM有時在涉及到推理物體的細(xì)微運動狀態(tài)改變時表現(xiàn)不佳。另外,由于大語言模型巨大的參數(shù)量,導(dǎo)致模型的推理時間相比傳統(tǒng)自動駕駛系統(tǒng)往往具有較高的延遲,阻礙了其對環(huán)境的快速實時反應(yīng)。為此,作者提出了DriveVLM-Dual,一種VLM與傳統(tǒng)自動駕駛系統(tǒng)互相協(xié)作的解決方案。該方法包含兩個關(guān)鍵性設(shè)計,一是在3D感知信息融合,二是高頻軌跡細(xì)化操作。

3D感知信息融合

對于傳統(tǒng)自動駕駛系統(tǒng)3D檢測器檢測到的目標(biāo)物體,記為,其中表示第i個物體的3D目標(biāo)框,表示其對應(yīng)的語義類別。隨后將這些3D目標(biāo)框根據(jù)相機內(nèi)外參反投影回2D圖像坐標(biāo)系,得到相應(yīng)的2D目標(biāo)框表示。將其與VLM這一分支識別到的關(guān)鍵物體Cj對應(yīng)的目標(biāo)框之間進行一種近似的目標(biāo)框IoU匹配,將IoU得分超過一定閾值并且屬于同一大的語義類別的關(guān)鍵物體記為匹配的關(guān)鍵物體(matched critical object),對于那些不符合條件的,則歸為非匹配的關(guān)鍵物體。該過程可以用如下公式表示:

對于匹配的關(guān)鍵物體,將其在感知模塊中預(yù)測得到的歷史軌跡、朝向、中心點坐標(biāo)等作為語言prompt送入VLM中的關(guān)鍵物體分析模塊,用來輔助物體特征的推理。對于沒有匹配的關(guān)鍵物體,比如一些傳統(tǒng)3D感知模塊難以識別的長尾物體,也依舊進行關(guān)鍵物體分析,只不過不使用的3D感知信息作為輔助。通過這種設(shè)計,能使得DriveVLM更加準(zhǔn)確的理解關(guān)鍵物體的空間位置和細(xì)粒度的運動狀態(tài)變化等。

高頻軌跡優(yōu)化

與傳統(tǒng)規(guī)劃器相比,由于DriveVLM具有視覺語言模型(VLMs)固有的巨大參數(shù)量,在生成軌跡時速度顯著較慢。為了實現(xiàn)快速實時的推理能力,作者將它與傳統(tǒng)的planner相結(jié)合形成了一個快-慢雙系統(tǒng)設(shè)計。

在DriveVLM輸出一個規(guī)劃軌跡Wslow之后,將其作為一個參考軌跡送入經(jīng)典的規(guī)劃模塊進行一個二階段的軌跡優(yōu)化。具體來說,對于基于優(yōu)化的planner,Wslow作為優(yōu)化求解器的初始解;對于基于神經(jīng)網(wǎng)絡(luò)的planner,Wslow作為輸入query的形式,與原本planner的輸入特征f相結(jié)合,經(jīng)過網(wǎng)絡(luò)生成新的軌跡Wfast。在實際應(yīng)用時,該雙系統(tǒng)是異步運行的,VLM分支主要負(fù)責(zé)task-level的規(guī)劃,傳統(tǒng)分支中的planner主要負(fù)責(zé)motion-level的規(guī)劃,只在固定重疊時間接受來自VLM分支的軌跡輸入。

任務(wù)與數(shù)據(jù)集

SUP任務(wù)

為了更好地衡量大語言模型在處理復(fù)雜和長尾駕駛場景中的能力,作者定義了名為SUP(scene understanding for planning)的任務(wù)和相應(yīng)的評估指標(biāo)。
輸入數(shù)據(jù)包括來自周圍攝像頭的多視角視頻集V,以及可選的來自感知模塊的3D感知結(jié)果P,輸出包括場景描述E,場景分析S,元動作A,決策描述D,軌跡點W。對于軌跡點W可以采用位移誤差(DE)和碰撞率(CR)作為指標(biāo)來評估生成的好壞,但對于文本內(nèi)容的場景描述和分析,以及元動作序列的好壞并沒有已有的評估方法,于是作者分別提出了使用LLM和動態(tài)規(guī)劃的評估方法,詳細(xì)可參見附錄。

數(shù)據(jù)集構(gòu)建

針對之前定義的SUP任務(wù),作者提出了一種數(shù)據(jù)挖掘和標(biāo)注的方法。并以此為基礎(chǔ)構(gòu)建了一個超過40個場景類別的自動駕駛數(shù)據(jù)集SUP-AD。該方法流程圖如下所示,首先從海量自動駕駛數(shù)據(jù)中進行長尾目標(biāo)挖掘和挑戰(zhàn)性場景挖掘來收集樣本數(shù)據(jù),之后對于每個場景選擇一個關(guān)鍵幀,并進行相應(yīng)的場景信息標(biāo)注。

長尾目標(biāo)挖掘。 作者首先預(yù)定義了一系列長尾目標(biāo)類別,比如異形車輛、道路雜物和橫穿馬路的動物等。接下來,作者使用基于CLIP的搜索引擎從海量自動駕駛數(shù)據(jù)中挖掘這些長尾場景,該搜索引擎能夠使用語言 query 從大量的自動駕駛視頻數(shù)據(jù)中挖掘與類別相關(guān)的駕駛數(shù)據(jù)。在此之后進行人工檢查,以篩選出與指定類別不一致的場景。
挑戰(zhàn)性場景挖掘。 除了長尾物體外,作者同樣對具有挑戰(zhàn)性的駕駛場景進行了挖掘。在這些場景的數(shù)據(jù)中,需要根據(jù)不斷變化的駕駛條件調(diào)整自車(ego vehicle)的駕駛策略。這些場景一般是根據(jù)記錄的駕駛操作變化得到的,例如急剎車等。在得到相應(yīng)數(shù)據(jù)后,同樣會進行人工篩選來過濾出不滿足要求的數(shù)據(jù)。
關(guān)鍵幀選擇。 每個挖掘出來的駕駛場景都是一個十幾秒視頻片段,在這么長的時間跨度中,選取“關(guān)鍵幀”至關(guān)重要。在大多數(shù)具有挑戰(zhàn)性的場景中,關(guān)鍵幀是在需要顯著改變速度或方向之前的時刻。根據(jù)綜合測試,作者選擇在實際操作前0.5秒到1秒作為關(guān)鍵幀,以確保改變駕駛決策的最佳反應(yīng)時間。對于不涉及駕駛行為變化的場景,作者選擇與當(dāng)前駕駛情景相關(guān)的幀作為關(guān)鍵幀。
場景標(biāo)注。 對于選取好關(guān)鍵幀后的數(shù)據(jù),由一組標(biāo)注員進行場景標(biāo)注,包括任務(wù)提到的場景描述、場景分析和規(guī)劃等內(nèi)容信息。同時為了便于場景標(biāo)注,作者開發(fā)了一個視頻標(biāo)注工具,能夠比較方便的針對特定標(biāo)注內(nèi)容進行對應(yīng)的標(biāo)注和檢查。最終某個場景關(guān)鍵幀的標(biāo)注結(jié)果如下圖所示

實驗部分

Main Results

作者在提出的SUP-AD和nuScenes數(shù)據(jù)集上進行了相應(yīng)的實驗來驗證DriveVLM的有效性。其中SUP-AD按照  7.5:1:1.5的比例來劃分訓(xùn)練、驗證和測試集,按照上文提出的兩種評價指標(biāo)進行了評測。 在nuScenes數(shù)據(jù)集上,作者遵循之前的工作,采用位移誤差(DE)和碰撞率(CR)作為指標(biāo)來評估模型在驗證集上生成軌跡的性能。

其中在SUP-AD數(shù)據(jù)集上,作者展示了DriveVLM與幾種大型視覺-語言模型在之前的性能比較,并與GPT-4V進行了對比,如表1所示。

DriveVLM采用Qwen-VL作為其基座模型,由于其本身強大的模型性能,相較于其他開源VLMs,如Lynx和CogVLM取得了最佳性能。盡管GPT-4V在視覺和語言處理方面表現(xiàn)出強大的能力,但無法對其進行微調(diào),只能以in-context learning的方式來進行測試。作者提到這樣通常會導(dǎo)致在場景描述任務(wù)中生成無關(guān)信息,按照所提的評估方法,這些額外信息經(jīng)常被分類為幻覺信息,導(dǎo)致得分不高。

在nuScenes數(shù)據(jù)集上,作者將DriveVLM和DriveVLM-Dual與之前的經(jīng)典方法進行了對比,如表2所示。當(dāng)與VAD進行協(xié)同時,DriveVLM-Dual在規(guī)劃任務(wù)的L2和CR指標(biāo)下都取得了最先進的性能。雖然DriveVLM是為了理解復(fù)雜場景所設(shè)計的,但在nuScenes這種普通場景上也同樣表現(xiàn)出色。

Ablation Study

模型設(shè)計。 為了驗證每部分模塊設(shè)計的必要性,作者在nuScenes數(shù)據(jù)集上對不同模塊組合進行了消融實驗,如表3所示。其中“Base”表示只進行層級規(guī)劃,而不采用所提出的特殊的CoT推理設(shè)置;“CO”表示引入關(guān)鍵物體分析;“3D”表示引入匹配的3D感知結(jié)果作為額外的語言prompt。

可以看出,包含關(guān)鍵物體分析這一設(shè)計使得DriveVLM提高了決策的準(zhǔn)確性,從而實現(xiàn)更安全的導(dǎo)航。而引入3D感知結(jié)果后,DrvieVLM生成的軌跡在L2和CR上都會有比較明顯的下降,表明引入3D感知結(jié)果對于捕捉運動動態(tài)并改善軌跡預(yù)測至關(guān)重要。

推理速度。另外,作者還在NVIDIA Orin平臺上測試了DriveVLM和DrvieVLM-Dual的推理速度,如下表所示。

由于 LLM 的參數(shù)量巨大,DriveVLM 的推理速度比類似于 VAD 的傳統(tǒng)自動駕駛方法慢一個數(shù)量級,使得其很難在對實時性要求較高的車載環(huán)境中進行部署。然而,在與傳統(tǒng)自動駕駛 Pipeline 以異步的快-慢速協(xié)作模式配合后,整體延遲取決于快速分支的速度,使得 DriveVLM-Dual 成為了現(xiàn)實世界部署的理想解決方案。

原文鏈接:https://mp.weixin.qq.com/s/g32V4b5VGsgsMwg-5hMkRQ

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-02-17 08:54:57

2023-09-13 13:21:52

模型數(shù)據(jù)

2023-10-10 13:42:30

美圖秀秀AI工作流

2024-02-23 11:27:00

數(shù)據(jù)技術(shù)

2024-08-19 14:07:00

2024-08-08 09:30:00

2024-02-29 19:05:25

AI 大模型

2024-03-19 13:12:36

自動駕駛模型

2023-11-03 13:50:03

智駕方案

2023-04-26 09:37:25

智駕開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號