東京大學(xué)最新!CoVLA:用于自動駕駛的綜合視覺-語言-動作數(shù)據(jù)集
原標(biāo)題:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2408.10845
作者單位:Turing Inc. 東京大學(xué) University of Tsukuba Keio Research Institute at SFC National Institute of Informatics
論文思路:
自動駕駛,特別是在復(fù)雜和意外場景中的導(dǎo)航,要求具備復(fù)雜的推理和規(guī)劃能力。雖然多模態(tài)大語言模型(MLLMs)在這方面提供了一個有前途的途徑,但其應(yīng)用主要局限于理解復(fù)雜的環(huán)境上下文或生成高層次的駕駛指令,只有少數(shù)研究將其應(yīng)用擴(kuò)展到端到端路徑規(guī)劃。一個主要的研究瓶頸是缺乏包含視覺、語言和動作的大規(guī)模標(biāo)注數(shù)據(jù)集。為了解決這個問題,本文提出了CoVLA(Comprehensive Vision-Language-Action)數(shù)據(jù)集,這是一個包含超過80小時真實(shí)駕駛視頻的廣泛數(shù)據(jù)集。該數(shù)據(jù)集利用了一種基于自動數(shù)據(jù)處理和描述(caption)生成流程的新穎且可擴(kuò)展的方法,生成了與詳細(xì)自然語言描述的駕駛環(huán)境和操作相匹配的精確駕駛軌跡。這種方法利用了車內(nèi)傳感器的原始數(shù)據(jù),使其在規(guī)模和標(biāo)注豐富性上超越了現(xiàn)有的數(shù)據(jù)集。使用CoVLA,本文研究了能夠在各種駕駛場景中處理視覺、語言和動作的MLLMs的駕駛能力。本文的結(jié)果顯示了本文的模型在生成連貫的語言和動作輸出方面的強(qiáng)大能力,強(qiáng)調(diào)了視覺-語言-動作(VLA)模型在自動駕駛領(lǐng)域的潛力。通過提供一個全面的平臺用于訓(xùn)練和評估VLA模型,該數(shù)據(jù)集為構(gòu)建穩(wěn)健、可解釋和數(shù)據(jù)驅(qū)動的自動駕駛系統(tǒng)奠定了基礎(chǔ),助力于更安全和更可靠的自動駕駛車輛。
主要貢獻(xiàn):
- 本文介紹了CoVLA數(shù)據(jù)集,這是一個大規(guī)模數(shù)據(jù)集,提供了多種駕駛場景的軌跡目標(biāo),以及詳細(xì)的逐幀情境描述。
- 本文提出了一種可擴(kuò)展的方法,通過傳感器融合準(zhǔn)確估計(jì)軌跡,并自動生成關(guān)鍵駕駛信息的逐幀文本描述。
- 本文開發(fā)了CoVLA-Agent,這是一種基于CoVLA數(shù)據(jù)集的新型VLA模型,用于可解釋的端到端自動駕駛。本文的模型展示了持續(xù)生成駕駛場景描述和預(yù)測軌跡的能力,為更可靠的自動駕駛鋪平了道路。
論文設(shè)計(jì):
自動駕駛技術(shù)面臨的一個關(guān)鍵挑戰(zhàn)在于應(yīng)對多樣且不可預(yù)測的駕駛環(huán)境的“長尾”問題[35, 63]。自動駕駛車輛不僅需要在常見場景中導(dǎo)航,還必須應(yīng)對罕見和復(fù)雜的情況,這就需要廣泛的世界知識和高級推理能力[20]。這要求對環(huán)境有深刻的理解,并且具備超越物體識別的推理能力,能夠解釋其行為并據(jù)此規(guī)劃行動。視覺-語言-動作(VLA)模型通過無縫整合視覺感知、語言理解和動作規(guī)劃,已成為實(shí)現(xiàn)這一目標(biāo)的有前途的途徑。近期在VLA領(lǐng)域的進(jìn)展,特別是在機(jī)器人[4, 28, 40]和自動駕駛[45]方面,展示了其在實(shí)現(xiàn)更健壯和智能的駕駛系統(tǒng)方面的潛力。
然而,將VLA模型應(yīng)用于自動駕駛的一個主要障礙是缺乏有效結(jié)合視覺數(shù)據(jù)、語言描述和駕駛動作的大規(guī)模數(shù)據(jù)集?,F(xiàn)有的數(shù)據(jù)集在規(guī)模和全面標(biāo)注方面往往不足,尤其是語言方面,通常需要繁重的人工工作。這限制了能夠處理現(xiàn)實(shí)世界駕駛復(fù)雜性的健壯VLA模型的發(fā)展和評估。
本文介紹了CoVLA(Comprehensive Vision-Language-Action)數(shù)據(jù)集,這是一個旨在克服現(xiàn)有局限性的新型大規(guī)模數(shù)據(jù)集。CoVLA數(shù)據(jù)集利用可擴(kuò)展的自動化標(biāo)注和描述生成方法,創(chuàng)建了一個包含10,000個真實(shí)駕駛場景、總計(jì)超過80小時視頻的豐富數(shù)據(jù)集。每個30秒的場景都包含精確的駕駛路徑和詳細(xì)的自然語言描述,這些描述來源于同步的前置相機(jī)錄像和車內(nèi)傳感器數(shù)據(jù)。這個豐富的數(shù)據(jù)集允許對駕駛環(huán)境和代理行為進(jìn)行更深入的理解。為了展示其在推進(jìn)自動駕駛研究方面的有效性,本文開發(fā)了CoVLA-Agent,這是一種基于本文數(shù)據(jù)集進(jìn)行訓(xùn)練的VLA模型,用于軌跡預(yù)測和交通場景描述生成。本文的研究結(jié)果表明,即使在需要復(fù)雜和高級判斷的情況下,本文的VLA模型也能夠做出一致且精確的預(yù)測。
本節(jié)深入介紹了CoVLA數(shù)據(jù)集,詳細(xì)描述了其結(jié)構(gòu)、內(nèi)容以及用于創(chuàng)建這一寶貴自動駕駛研究資源的方法。本文重點(diǎn)介紹了其對多樣化真實(shí)世界駕駛場景的覆蓋、同步的多模態(tài)數(shù)據(jù)流(前置相機(jī)、車內(nèi)信號及其他傳感器)以及大規(guī)模標(biāo)注數(shù)據(jù):10,000個駕駛場景,總計(jì)超過80小時的視頻,每個場景都包含精確的逐幀軌跡和描述標(biāo)注。為了創(chuàng)建這個廣泛的VLA數(shù)據(jù)集,本文開發(fā)了一種新穎且可擴(kuò)展的方法,從原始數(shù)據(jù)中自動生成場景描述和真實(shí)軌跡。
圖1. CoVLA框架概述。本文開發(fā)了CoVLA數(shù)據(jù)集,這是一個用于自動駕駛的綜合數(shù)據(jù)集,包含獨(dú)特的10,000個視頻片段、描述駕駛場景的逐幀語言描述以及未來的軌跡動作。本文還展示了CoVLA-Agent,這是一種基于VLM的路徑規(guī)劃模型,能夠預(yù)測車輛的未來軌跡,并提供其行為和推理的文本描述。
表1. 含有語言和動作數(shù)據(jù)的駕駛數(shù)據(jù)集比較。
圖2. 數(shù)據(jù)集生成 pipeline 概述。本文自動標(biāo)注視頻幀和傳感器信號以生成軌跡和其他標(biāo)簽。此外,本文對視頻幀應(yīng)用自動描述生成,以生成行為和推理的描述。
圖3. CoVLA數(shù)據(jù)集的示例幀。顯示了估計(jì)的軌跡(綠色線)和由描述生成模型生成的描述。關(guān)鍵對象以藍(lán)色粗體文本突出顯示,而描述中的錯誤以紅色粗體文本顯示。
圖4. 車輛速度和轉(zhuǎn)向角的數(shù)據(jù)分布。紅色條表示采樣前的分布,而黃色條顯示采樣后的分布。請注意,為了清晰展示,(b)中使用了對數(shù)刻度。
在本節(jié)中,本文介紹了基線模型CoVLA-Agent的開發(fā)和評估方法,該模型利用CoVLA數(shù)據(jù)集的豐富性來完成自動駕駛?cè)蝿?wù)。本文詳細(xì)描述了實(shí)驗(yàn)設(shè)置,包括數(shù)據(jù)集、模型配置、訓(xùn)練過程和評估指標(biāo),并對結(jié)果進(jìn)行了分析。
架構(gòu):如圖5所示,CoVLA-Agent是一個為自動駕駛設(shè)計(jì)的VLA模型。本文使用預(yù)訓(xùn)練的Llama-2(7B)[52]作為語言模型,并使用CLIP ViT-L(224×224像素)[43]作為視覺編碼器。此外,本文的模型將自車速度作為輸入,通過多層感知器(MLP)轉(zhuǎn)換為嵌入向量。CLIP ViT-L提取的視覺特征與速度嵌入和文本嵌入拼接在一起,然后輸入到Llama-2模型中。對于軌跡預(yù)測,使用特殊的 tokens 作為軌跡查詢。這些軌跡查詢的輸出經(jīng)過MLP層處理,生成10個(x, y, z)坐標(biāo)的序列,表示車輛相對于當(dāng)前位置的預(yù)測軌跡,覆蓋三秒的時間范圍。
訓(xùn)練:基于這種架構(gòu),本文在兩個任務(wù)上訓(xùn)練CoVLA-Agent,分別是交通場景描述生成和軌跡預(yù)測。對于交通場景描述生成,本文使用交叉熵?fù)p失作為損失函數(shù);對于軌跡預(yù)測,本文采用均方誤差損失。最終,訓(xùn)練的目標(biāo)是最小化一個組合損失函數(shù),其中兩個損失被等權(quán)重對待。
圖5. CoVLA-Agent的架構(gòu)。
實(shí)驗(yàn)結(jié)果:
圖6. CoVLA-Agent在各種交通場景下的軌跡預(yù)測結(jié)果。紅線表示在預(yù)測描述條件下的預(yù)測軌跡,藍(lán)線表示在真實(shí)描述條件下的預(yù)測軌跡,綠線表示真實(shí)軌跡。
表2. 不同條件的定量比較。
表3. 平均ADE和FDE最大的前10個單詞。這些單詞對應(yīng)的是從單幀中難以估計(jì)的運(yùn)動。明確表示運(yùn)動的單詞以粗體顯示。
總結(jié):
本文介紹了CoVLA數(shù)據(jù)集,這是一個用于自動駕駛的VLA模型的新型數(shù)據(jù)集。通過利用可擴(kuò)展的自動化方法,本文構(gòu)建了一個大規(guī)模、全面的數(shù)據(jù)集,并豐富了詳細(xì)的語言標(biāo)注?;谶@個穩(wěn)健的數(shù)據(jù)集,本文開發(fā)了CoVLA-Agent,這是一種先進(jìn)的VLA自動駕駛模型。評估結(jié)果強(qiáng)調(diào)了該模型在生成連貫的語言和動作輸出方面的強(qiáng)大能力。這些發(fā)現(xiàn)突顯了VLA多模態(tài)模型的變革潛力,并為未來的自動駕駛研究創(chuàng)新鋪平了道路。