自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

六大數(shù)據(jù)集全部SOTA!最新DriveMM:自動駕駛一體化多模態(tài)大模型(美團&中山大學)

人工智能 新聞
今天為大家分享中山大學&美團最新的多模態(tài)大模型工作—DriveMM!全面邁向一體化,六大數(shù)據(jù)集全面SOTA。

寫在前面 & 筆者的個人理解

近年來,視覺-語言數(shù)據(jù)和模型在自動駕駛領域引起了廣泛關注。許多精心設計和標注的數(shù)據(jù)集用于微調多模態(tài)大模型,使模型不僅能理解視覺輸入并生成文本回答,更能適用于自動駕駛多種應用場景。由于駕駛場景的復雜多變以及駕駛行為的多樣性,現(xiàn)有的自動駕駛模型和數(shù)據(jù)往往專注于單一場景和任務。雖然這些方法表現(xiàn)出了顯著的性能,但模型的適用性局限于特定場景和任務,比如特定的輸入類型和數(shù)據(jù)集特定的任務。一方面,我們注意到不同數(shù)據(jù)集的收集方法是由其特定任務決定的。例如,專注于極端情況和特殊物體感知的數(shù)據(jù)集只需要前視圖圖像,而與車輛行為預測和自車決策相關的任務則需要多視角甚至視頻的輸入。另一方面,每個數(shù)據(jù)集都聚焦于特定子任務。因此,在單一數(shù)據(jù)集上訓練的專有模型缺乏處理現(xiàn)實世界中復雜多樣任務所需的通用能力和遷移至新場景新任務的泛化能力。為了解決這些問題,本文提出了DriveMM,一種通用的大型多模態(tài)模型,旨在處理多種數(shù)據(jù)輸入,如圖像和多視角視頻,同時執(zhí)行廣泛的自動駕駛任務,包括感知、預測和決策。

圖片

總結來說,本文的主要貢獻如下:

  • 提出了一種新型的一體化多模態(tài)大模型DriveMM,它具有執(zhí)行各種AD任務的通用能力和有效轉移到新數(shù)據(jù)集的泛化能力。
  • 介紹了評估自動駕駛LMM的綜合基準,其中包括六個公共數(shù)據(jù)集、四種輸入類型和十三個具有挑戰(zhàn)性的任務。據(jù)我們所知,這是首次使用多個基準來評估自動駕駛LLM。
  • 提出了一個大模型原則,用于對不同的多模態(tài)數(shù)據(jù)和AD數(shù)據(jù)進行預訓練和微調。DriveMM展示了最先進的性能,并在所有評估的基準測試中始終優(yōu)于在單個數(shù)據(jù)集上訓練的模型。

圖片

相關工作回顧

Vision-Language Driving Datasets

近年來,已經開發(fā)了許多視覺語言驅動數(shù)據(jù)集,旨在訓練和評估為AD場景設計的LMM。DRAMA、CODA-LM和DriveVLM專注于風險目標和極端情況學習。除了單視圖數(shù)據(jù)外,許多研究還基于nuScenes數(shù)據(jù)集構建了多視圖數(shù)據(jù)。例如,NuScenes QA為3D對象關系引入了自由形式的問答注釋。DriveLM、OmniDrive和NuInstruct使用原始標注和LLM生成視覺問答對,涵蓋感知、推理和計劃。此外,MAPLM集成了多視圖數(shù)據(jù)和LiDAR數(shù)據(jù)來分析和識別路面狀況。在這篇論文中,我們擴充和標準化了多個駕駛數(shù)據(jù)集,為不同的自動駕駛場景訓練了一個全面的LMM。

LMMs for Autonomous Driving

LMM在各種任務中表現(xiàn)出了令人印象深刻的表現(xiàn)。最近,研究人員開始探索LLM在AD領域的潛力。早期的工作,DiLu和GPT Driver試圖利用GPT-3.5和GPT-4作為駕駛規(guī)劃工具。隨后,DriveGPT4和RDA Driver引入了端到端的LMM,可以生成控制信號或軌跡。與通過語言處理駕駛操作的方法不同,LMDrive和DriveMLM使用解碼器從隱藏的嵌入中預測控制信號。為了提高感知和推理能力,有幾種方法旨在改進模型架構。Reason2Drive提出了一種先驗標記器來提取局部圖像特征,BEV-InMLLM將鳥瞰圖(BEV)表示注入到LMM中。OmniDrive使用Q-Former3D將2D預訓練知識與基本的3D空間理解相結合。ELM包含一個時間感知令牌選擇模塊,用于準確查詢時間線索。盡管這些方法已經證明了令人滿意的性能,但它們的適用性僅限于特定的場景和任務,例如特定的數(shù)據(jù)類型或特定于數(shù)據(jù)集的任務。有鑒于此,我們提出了一種一體化的LMM,旨在有效地處理AD中的各種駕駛場景和任務。

DriveMM方法詳解

概覽

本文提出的DriveMM是一種一體化的LMM,旨在有效地處理AD中的各種駕駛數(shù)據(jù)和任務。形式上,給定車輛傳感器捕獲的視覺信號Xv和用戶指令Xt,DriveMM F(·)提供了與駕駛相關的分析和建議:

圖片

Xv可以表示各種數(shù)據(jù)格式,包括單目、環(huán)視圖像或LiDAR捕獲的圖像、多圖像、視頻和多視頻,而Xt則包含與感知、預測、推理、決策等有關的問題。通過整合不同的數(shù)據(jù)和任務,DriveMM可以在廣泛的AD視覺語言數(shù)據(jù)上進行訓練,從而在不同的數(shù)據(jù)集和任務之間實現(xiàn)相互改進。此外,一旦經過訓練,DriveMM可以有效地部署在各種現(xiàn)實世界的AD場景中,例如不同的相機和雷達系統(tǒng)配置,以及各種AD任務。

在接下來的部分中,我們首先描述DriveMM的架構,它能夠處理不同傳感器捕獲的多種類型的數(shù)據(jù)。為了促進模型對AD場景的理解,我們收集了具有多種數(shù)據(jù)格式和任務的不同數(shù)據(jù)集,然后增強和標準化它們的問答對,以加強不同數(shù)據(jù)集之間的協(xié)作。為了在各種數(shù)據(jù)集和任務上有效地訓練DriveMM,我們采用了一種課程學習方法來逐步提高模型的能力。

Model Architecture

圖片

我們的目標是設計一個高效的模型架構,可以同步處理廣告場景中的單幅圖像、多幅圖像、單視圖視頻和多視圖視頻。如圖2所示,DriveMM遵循了LLaVA等主要LMM的設計。它由三個部分組成:視覺編碼器Fe(·)、投影儀Fp(·)和LLM Fl(·)。

視覺編碼器SigLIP:

圖片

之后,投影儀將圖像特征投影到單詞嵌入空間中:

圖片

基于視覺標記Hv和用戶指令Xt,LLM逐步計算目標單詞的概率:

圖片

視角感知提示。在方程式(4)中,典型的LMM[2,26]會使LLM輸入的視覺特征變平,無法區(qū)分視角(如前視圖或后視圖)和格式(如圖像或視頻)。為了解決這個問題,我們提出了一種感知視角的提示。如表2所示,我們使用不同的占位符(即image和video)進行圖像和視頻輸入,其中占位符在輸入LLM之前將被相應的令牌替換。我們還為具有不同視角的圖像/視頻分配了數(shù)字標簽,并在文中解釋了每種圖像/視頻的具體相機或激光雷達。為了提高計算效率,我們對視頻特征Hv應用2×2的空間池,然后將它們展平為視覺標記。DriveMM結合了視角和數(shù)據(jù)格式的信息,可以更好地解釋復雜的交通狀況,識別多個對象及其空間關系,并做出更明智的決策。

圖片

數(shù)據(jù)

在LMM的訓練中,數(shù)據(jù)在啟用和激活LLM理解多模態(tài)信息的能力方面發(fā)揮著至關重要的作用。為了提高DriveMM在多模態(tài)AD場景中的理解和推理能力,我們構建了三個不同的數(shù)據(jù)集:傳統(tǒng)多模態(tài)數(shù)據(jù)、感知數(shù)據(jù)和自動駕駛數(shù)據(jù)。

Conventional Multimodal Data

最近的研究表明,隨著數(shù)據(jù)量的增加,LMM可以實現(xiàn)更高的性能。然而,與在線可用的豐富圖像文本數(shù)據(jù)相比,AD圖像文本數(shù)據(jù)明顯有限。為了提高DriveMM的性能,我們使用廣泛的多模態(tài)數(shù)據(jù)預訓練了一個基礎模型,從而能夠使用單幅圖像、多幅圖像和視頻進行推理。

具體來說,我們構建了一個多模態(tài)數(shù)據(jù)集,其中包括圖像-文本對和各種視覺指令調整數(shù)據(jù)。圖像-文本對的目標是對齊視覺編碼器和LLM,使模型能夠對圖像有基本的理解。我們使用了多個數(shù)據(jù)集,包括LCS-558K、COCO118K、CC3M。為了增強模型處理各種傳感器配置(如單視圖和多視圖相機)中的視覺數(shù)據(jù)的能力,我們利用OneVision數(shù)據(jù)中的視覺指令調整數(shù)據(jù),包括圖像、多圖像和視頻。

Perception Data

為了使DriveMM具備AD感知能力,我們創(chuàng)建了一個全面的基礎數(shù)據(jù)集,包括各種數(shù)據(jù)格式。對于單幅圖像數(shù)據(jù),我們使用COCO和Object365數(shù)據(jù)集。我們從圖像中隨機選擇一個類別,并使用基礎提示(例如,“檢測圖像中的所有<category>”)來提示模型檢測該類別中的所有對象。我們用邊界框[xmin,ymin,xmax,ymax]或區(qū)域中心[xcenter,ycenter]表示對象的位置。基于圖像的大小,x和y值在0到100的范圍內進行歸一化。對于多視圖圖像和多視圖視頻,我們采用nuScenes[3]數(shù)據(jù)集。為了給模型注入空間意識,我們希望它不僅能預測物體邊界框,還能估計相機的視角。因此,我們用[cam,xmin,ymin,xmax,ymax]或[cam,xcenter,ycenter]表示對象的位置,其中cam表示相機視角,如“cam BACK”。圖3左下角展示了感知數(shù)據(jù)的一個示例。

圖片

Autonomous Driving Data

在這里,我們收集了不同的數(shù)據(jù)集來訓練一個一體化的LMM,該LMM可以同步處理不同場景中的各種AD任務。具體來說,我們使用了六個自動駕駛數(shù)據(jù)集:CODA-LM、MAPLM、DriveLM、LingoQA、OmniDrive和NuInstruct。表1顯示了六個數(shù)據(jù)集的詳細描述。這些數(shù)據(jù)集包括各種傳感器配置,如攝像頭和激光雷達,以及不同的AD任務,包括感知、預測和規(guī)劃。值得一提的是,不同的數(shù)據(jù)集可能會表現(xiàn)出不同的問題模態(tài)。為了促進協(xié)作增強,我們對問答對進行了如下擴充和標準化。問答增強。一些數(shù)據(jù)集僅限于一組固定的模板。例如,CODA-LM僅包含三個問題模板,而MAPLM則使用了五個。這阻礙了模型推廣的潛力。為了克服這一局限性,我們使用GPT-4o-mini來增強問答對并增加其多樣性。此外,很大一部分問題是開放式的。為了進一步增強多樣性,我們將一些開放式問題隨機轉換為多項選擇題。圖3右下角展示了一個增強示例。

問答標準化。不同的數(shù)據(jù)集可能在問答風格上表現(xiàn)出不一致。例如,DriveLM使用“<c6,CAM BACK,1088.3,497.5>”來表示一個對象,其中“c6”表示類ID。相比之下,NuInstruct使用“<car>[c6,139,343,1511,900]”的格式,其中“c6”表示相機ID。為了確??鐢?shù)據(jù)集的兼容性,我們標準化了對象的表示并明確指定了表示格式。此外,為了適應不同大小的圖像中的邊界框,我們根據(jù)圖像的大小將邊界框的坐標標準化為0到100的范圍。例如,對于NuInstruct數(shù)據(jù)集,我們將對象重新表示為“<car>[CAM BACK RIGHT,8.688,38.111,94.438,100.000]”,并在問題末尾添加格式化指令,如圖3右下角所示。

訓練

在本節(jié)中,我們將介紹一種課程學習方法,以逐步提高模型在各種AD數(shù)據(jù)和任務上的性能,從而形成一體化的自動駕駛模型DriveMM。具體來說,我們逐漸增加數(shù)據(jù)的復雜性,從單個圖像到多個視頻,以及從圖像字幕到駕駛推理的任務復雜性,以訓練DriveMM。如圖3所示,訓練過程分為四個步驟:

第一階段:語言圖像對齊。這一階段的目標是為預訓練的法學碩士提供多模態(tài)理解的基本能力。為了實現(xiàn)這一點,我們訓練投影儀與LLM的單詞嵌入空間對齊。我們凍結了視覺編碼器和LLM,只優(yōu)化了LCS-558K上的投影儀。

第二階段:單幅圖像預訓練。在這個階段,我們通過集體優(yōu)化整個模型來進一步增強模型理解單個圖像的能力。我們使用所概述的圖像-文本對并優(yōu)化模型的所有參數(shù),以提高LLM對多模態(tài)任務的適用性。

第三階段:多能力預訓練。為了獲得訓練AD系統(tǒng)的穩(wěn)健基礎模型,我們增強了模型在不同場景下的推理和感知能力。為此,我們利用所描述的視覺指令調優(yōu)數(shù)據(jù)來增強模型,以推理基本的視覺元素。此外,我們使用所描述的感知數(shù)據(jù)來促進模型的感知能力。值得注意的是,訓練數(shù)據(jù)包括多種數(shù)據(jù)格式,包括單圖像、單視頻、多視圖圖像和多視圖視頻。通過為模型配備處理各種數(shù)據(jù)和任務的能力,我們?yōu)橛柧氁惑w化AD模型奠定了基礎。

第四階段:Driving微調。為了使DriveMM能夠處理廣泛的AD任務,我們在不同的駕駛數(shù)據(jù)集上進一步微調了模型。具體來說,我們利用了六個增強和標準化的自動駕駛數(shù)據(jù)集。在這個階段,我們優(yōu)化了模型的所有參數(shù)。一旦經過訓練,所提出的一體化DriveMM可以有效地部署在各種AD場景中,例如不同的攝像頭和雷達系統(tǒng)配置,以及各種AD任務。

實驗結果

圖片圖片

結論

本文提出了一種一體化的大型多模態(tài)自動駕駛模型DriveMM,它可以處理各種類型的數(shù)據(jù),并在現(xiàn)實世界中執(zhí)行多種駕駛任務,表現(xiàn)出出色的通用性和魯棒性。據(jù)我們所知,我們是第一個開發(fā)AD綜合模型并在各種AD場景中跨多個數(shù)據(jù)集評估模型的公司。通過增強和標準化幾個開源數(shù)據(jù)集并設計與數(shù)據(jù)相關的提示,我們從頭開始對模型進行多步預訓練和微調。DriveMM在現(xiàn)實場景中的各種數(shù)據(jù)和任務中實現(xiàn)了最先進的性能。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-03-14 14:06:52

訓練模型

2024-04-11 07:09:43

大模型人工智能AI

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機器學習

2023-10-24 09:53:56

自動駕駛模型

2024-03-12 09:24:38

智能駕駛

2021-12-17 11:55:09

自動駕駛數(shù)據(jù)人工智能

2024-01-29 06:40:00

AI模型

2021-02-24 15:38:37

數(shù)據(jù)語言架構

2014-11-13 10:17:30

中山大學新炬網(wǎng)絡學院大數(shù)據(jù)技術

2024-12-18 18:57:58

2023-08-22 13:20:00

模型訓練

2023-12-08 10:10:56

模型論文調研

2024-07-10 08:52:17

2023-09-13 13:21:52

模型數(shù)據(jù)

2023-12-05 09:40:18

自動駕駛數(shù)據(jù)

2013-08-30 09:36:34

中間件虛擬化

2024-03-25 08:15:02

數(shù)據(jù)分析AI 一體化大數(shù)據(jù)

2009-05-19 11:46:21

2020-10-22 15:35:35

自動駕駛美團人工智能

2020-11-05 16:21:15

中山大學
點贊
收藏

51CTO技術棧公眾號