單卡就能訓(xùn)的VLM來(lái)了!中科院提出MiniDrive:各項(xiàng)指標(biāo)完爆當(dāng)前SOTA~
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面 & 筆者的個(gè)人理解
視覺(jué)語(yǔ)言模型(VLM)是自動(dòng)駕駛中的通用端到端模型,通過(guò)問(wèn)答交互實(shí)現(xiàn)預(yù)測(cè)、規(guī)劃和感知等子任務(wù)。然而大多數(shù)現(xiàn)有方法依賴于計(jì)算成本高昂的視覺(jué)編碼器和大型語(yǔ)言模型(LLM),這使得它們難以在現(xiàn)實(shí)世界場(chǎng)景和實(shí)時(shí)應(yīng)用中部署。同時(shí)大多數(shù)現(xiàn)有的VLM缺乏處理多幅圖像的能力,因此難以適應(yīng)自動(dòng)駕駛中的環(huán)視感知。為了解決這些問(wèn)題,我們提出了一個(gè)名為MiniDrive的新框架,該框架結(jié)合了我們提出的特征工程混合專家(FE-MoE)模塊和動(dòng)態(tài)指令適配器(DI-Adapter)。FE MoE在輸入到語(yǔ)言模型之前,有效地將2D特征映射到視覺(jué)標(biāo)記嵌入中。DI適配器使可視令牌嵌入能夠隨著指令文本嵌入而動(dòng)態(tài)變化,解決了以前方法中同一圖像的靜態(tài)可視令牌嵌入問(wèn)題。與之前的工作相比,MiniDrive在參數(shù)大小、浮點(diǎn)運(yùn)算和響應(yīng)效率方面實(shí)現(xiàn)了最先進(jìn)的性能,輕量版本僅包含83M個(gè)參數(shù)。
- 開(kāi)源鏈接:https://github.com/EMZucas/minidrive
總結(jié)來(lái)說(shuō),本文的主要貢獻(xiàn)如下:
- 本文開(kāi)發(fā)了自動(dòng)駕駛VLMs MiniDrive,它解決了自動(dòng)駕駛系統(tǒng)VLMs中高效部署和實(shí)時(shí)響應(yīng)的挑戰(zhàn),同時(shí)保持了出色的性能。該模型的訓(xùn)練成本降低,多個(gè)MiniDrive模型可以在具有24GB內(nèi)存的RTX 4090 GPU上同時(shí)進(jìn)行完全訓(xùn)練;
- MinDrive首次嘗試?yán)么笮途矸e核架構(gòu)作為自動(dòng)駕駛視覺(jué)語(yǔ)言模型的視覺(jué)編碼器骨干,并能夠更高效、更快地提取不同圖像級(jí)別的2D特征。我們提出了特征工程混合專家(FE-MoE),它解決了從多個(gè)角度將2D特征高效編碼到文本標(biāo)記嵌入中的挑戰(zhàn),有效地減少了視覺(jué)特征標(biāo)記的數(shù)量,并最大限度地減少了特征冗余;
- 本文通過(guò)殘差結(jié)構(gòu)引入了動(dòng)態(tài)指令適配器,解決了同一圖像在輸入到語(yǔ)言模型之前的固定視覺(jué)標(biāo)記問(wèn)題。DI適配器使視覺(jué)特征能夠動(dòng)態(tài)適應(yīng)不同的文本指令,從而增強(qiáng)跨模態(tài)理解;
- 我們?cè)贛iniDrive上進(jìn)行了廣泛的實(shí)驗(yàn),與Drive LM上具有多視圖圖像輸入的自動(dòng)駕駛VLM相比,實(shí)現(xiàn)了最先進(jìn)的性能。此外,我們?cè)贑ODA-LM上使用單幅圖像輸入的性能比普通開(kāi)源VLM(>7B)平均高出13.2分。
相關(guān)工作回顧
Vision-Language Models
Transformer架構(gòu)的成功推動(dòng)了LLM的發(fā)展。在計(jì)算機(jī)視覺(jué)領(lǐng)域,Dosovitskiy等人提出了ViT,它將圖像劃分為補(bǔ)丁,并根據(jù)transformer架構(gòu)對(duì)其進(jìn)行處理,成功地將其應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)。Transformer架構(gòu)可以有效地學(xué)習(xí)和表示圖像和自然語(yǔ)言。一項(xiàng)開(kāi)創(chuàng)性的工作是CLIP,它將對(duì)比學(xué)習(xí)用于圖像-文本對(duì)齊訓(xùn)練,展示了在圖像分類任務(wù)中優(yōu)越的零樣本能力。Llava凍結(jié)了CLIP的視覺(jué)編碼器(ViT),并在視覺(jué)編碼器和LLM之間添加了一個(gè)線性投影層,旨在將視覺(jué)輸出表示映射到文本空間中。同樣BLIP-2通過(guò)更復(fù)雜的Q-Former對(duì)齊視覺(jué)和文本表示。InstructBLIP以BLIP-2為基礎(chǔ),對(duì)公共視覺(jué)問(wèn)答數(shù)據(jù)集進(jìn)行指令微調(diào)。MiniGPT-4將凍結(jié)的視覺(jué)編碼器和Q-Former與類似凍結(jié)的LLM Vicuna相結(jié)合,將它們與單個(gè)投影層對(duì)齊。Llava-1.5v通過(guò)使用帶有多層感知器(MLP)投影層的CLIP-ViT-L-336px,并添加針對(duì)學(xué)術(shù)任務(wù)量身定制的VQA數(shù)據(jù),通過(guò)簡(jiǎn)單的響應(yīng)格式化提示,在11個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能,顯著提高了數(shù)據(jù)效率。Phi-3-mini具有默認(rèn)的4K上下文長(zhǎng)度,并引入了使用LongRope技術(shù)擴(kuò)展到128K上下文長(zhǎng)度的版本,同時(shí)采用了類似于Llama-2的塊結(jié)構(gòu)和相同的標(biāo)記器,實(shí)現(xiàn)了輕量級(jí)的多模式模型。盡管這些多模態(tài)大型模型具有強(qiáng)大的功能,并且有輕量化設(shè)計(jì)的趨勢(shì),但它們的參數(shù)數(shù)量超過(guò)10億,這使得在許多硬件平臺(tái)上的部署和實(shí)時(shí)使用具有挑戰(zhàn)性。因此,有必要研究和開(kāi)發(fā)具有較小參數(shù)大小和較低計(jì)算成本的高效視覺(jué)語(yǔ)言模型。
Autonomous Driving Based on LLMs
LLM有效地增強(qiáng)了自動(dòng)駕駛系統(tǒng)的可解釋性及其與人類的互動(dòng)。這些優(yōu)勢(shì)促使研究人員將自動(dòng)駕駛的多模態(tài)數(shù)據(jù)納入LLM的訓(xùn)練中,旨在為自動(dòng)駕駛構(gòu)建多模態(tài)大型模型。Chen等人將矢量化模態(tài)信息與LLaMA-7B對(duì)齊,以訓(xùn)練自動(dòng)駕駛的問(wèn)答模型。訓(xùn)練過(guò)程遵循兩階段方法:在第一階段,向量表示與凍結(jié)的LLaMA對(duì)齊,而在第二階段,LoRA用于微調(diào)語(yǔ)言模型。DriveGPT4也使用LLaMA作為其大型語(yǔ)言模型,使用CLIP作為視覺(jué)編碼器。它通過(guò)輸入視覺(jué)和文本信息來(lái)生成相應(yīng)的答案。DriveGPT4操縱ChatGPT/GPT-4生成指令數(shù)據(jù)集,并在此數(shù)據(jù)集上進(jìn)行訓(xùn)練。然而DriveGPT4僅使用單視角圖像,限制了其在自動(dòng)駕駛場(chǎng)景中處理更全面理解的能力。Wang等人開(kāi)發(fā)了DriveMLM,該模型使用LLaMA-7B作為基礎(chǔ)語(yǔ)言模型,ViT-g/14作為圖像編碼器。該模型處理多視圖圖像、激光雷達(dá)點(diǎn)云、交通規(guī)則和用戶命令,以實(shí)現(xiàn)閉環(huán)駕駛。受大型語(yǔ)言模型中的思維鏈方法的啟發(fā),Sha等人提出了一種用于駕駛場(chǎng)景的思維鏈框架,使用ChatGPT-3.5為自動(dòng)駕駛提供可解釋的邏輯推理。Mao等人介紹了GPT Driver,它使用ChatGPT-3.5為自動(dòng)駕駛汽車創(chuàng)建運(yùn)動(dòng)規(guī)劃器,GPT Driver通過(guò)將規(guī)劃器的輸入和輸出表示為語(yǔ)言令牌,將運(yùn)動(dòng)規(guī)劃作為語(yǔ)言建模任務(wù)進(jìn)行刷新。Sima等人發(fā)布了DriveLM數(shù)據(jù)集,這是一個(gè)圖形化的視覺(jué)問(wèn)答數(shù)據(jù)集,其中包含與感知、行為和自我車輛規(guī)劃相關(guān)的問(wèn)答對(duì),基于NuScenes數(shù)據(jù)集的多視圖圖像數(shù)據(jù)。為了建立基線,Li等人在這個(gè)新數(shù)據(jù)集上對(duì)BLIP-2進(jìn)行了微調(diào)。EM-VLM4AD引入了門控池注意力(GPA),它將多個(gè)圖像聚合到一個(gè)統(tǒng)一的嵌入中,并將其與文本嵌入連接作為L(zhǎng)LM的輸入,在DriveLM數(shù)據(jù)集上取得了有前景的結(jié)果。
雖然現(xiàn)有的工作提供了巨大的價(jià)值,并展示了強(qiáng)大的自動(dòng)駕駛能力,但大多數(shù)模型都有超過(guò)10億個(gè)參數(shù)。它們主要基于GPT-3.5和LLaMA等大規(guī)模語(yǔ)言模型,并依賴于基于ViT架構(gòu)構(gòu)建的視覺(jué)編碼器,如CLIP、ViT-g/14和ViT-B/32。這導(dǎo)致了高昂的計(jì)算成本,使這些模型不適合在線場(chǎng)景。盡管有開(kāi)發(fā)輕型自動(dòng)駕駛車型的趨勢(shì),但與大型車型相比,它們的性能仍然不足。
MinDrive方法詳解
MiniDrive是自動(dòng)駕駛領(lǐng)域的一種視覺(jué)語(yǔ)言模型,旨在執(zhí)行視覺(jué)問(wèn)答任務(wù)。它通過(guò)接收?qǐng)D像和用戶指令文本作為輸入來(lái)生成文本響應(yīng)。在本節(jié)中,我們首先詳細(xì)介紹MiniDrive的整體框架,然后具體解釋每個(gè)模塊的技術(shù)細(xì)節(jié)和原理,包括視覺(jué)編碼器、特征工程混合專家(FE-MoE)和動(dòng)態(tài)指令適配器(DI適配器)。
Model Architecture
圖2(a)展示了MiniDrive的整體結(jié)構(gòu)。在MiniDrive中,主要有兩個(gè)分支:視覺(jué)和文本。在視覺(jué)方面,給定來(lái)自車輛的n幅圖像作為視覺(jué)編碼器的輸入,每幅圖像都接收一組深度2D特征表示。然后,這些特征被輸入到FE-MoE中,在那里,多個(gè)專家沿著通道維度c壓縮信息,并沿著高度h和寬度w維度擴(kuò)展信息,以生成新的2D特征表示。在FE MoE中,Gate網(wǎng)絡(luò)確定哪些專家更適合處理每個(gè)圖像,為每個(gè)專家分配不同的權(quán)重值。最后,通過(guò)加權(quán)和來(lái)組合新的2D特征表示,以產(chǎn)生新的特征集Vmoe。壓扁Vmoe得到V。
Vision Encoder
如圖2(b)所示,視覺(jué)編碼器的骨干網(wǎng)絡(luò)基于大核神經(jīng)網(wǎng)絡(luò)UniRepLKNet(Ding等人,2024),該網(wǎng)絡(luò)在多種模態(tài)上表現(xiàn)出色。它有效地利用了大型內(nèi)核卷積的特性,無(wú)需深入網(wǎng)絡(luò)層即可實(shí)現(xiàn)廣泛的接受域。在保持高效計(jì)算的同時(shí),它在各種任務(wù)中也達(dá)到或超過(guò)了當(dāng)前最先進(jìn)技術(shù)的性能。這種通用性和效率使其成為一個(gè)強(qiáng)大的模型,在廣泛的感知任務(wù)中具有潛力。如圖3所示,對(duì)UniRepLKNet的整體架構(gòu)進(jìn)行簡(jiǎn)要回顧后發(fā)現(xiàn),它主要由多個(gè)順序連接的Stage層組成。每個(gè)階段主要由一系列Lark Block和Smak Block組成。在MiniDrive中,我們使用UniRepLKNet作為視覺(jué)網(wǎng)絡(luò)的骨干,其中輸入圖像并從最后階段n獲得輸出特征圖F1。
Feature Engineering Mixture of Experts
在圖2(b)中,我們展示了FE-MoE的具體結(jié)構(gòu),該結(jié)構(gòu)旨在處理來(lái)自多幅圖像的二維輸入特征。每個(gè)輸入圖像對(duì)應(yīng)于視覺(jué)編碼器輸出的特征圖F1。為了進(jìn)一步有效地處理每個(gè)圖像的2D特征表示,它們被輸入到FE-MoE中。首先,門網(wǎng)絡(luò)使用F1來(lái)獲得與樣本對(duì)應(yīng)的專家選擇權(quán)重。Gate網(wǎng)絡(luò)主要由卷積層、最大池化層和線性層組成,如下式所示:
每個(gè)專家網(wǎng)絡(luò)主要由解卷積層、ReLU層和卷積層組成。解卷積層首先執(zhí)行初始上采樣映射,增加特征圖寬度和高度的維度以擴(kuò)展信息量,從而促進(jìn)后續(xù)的映射學(xué)習(xí)。同時(shí),它減少了原始特征圖中的通道數(shù)量,以最小化數(shù)據(jù)冗余并選擇最重要的二維特征表示信息,從而顯著簡(jiǎn)化了后續(xù)視覺(jué)標(biāo)記的數(shù)量。卷積層進(jìn)一步變換特征,以提高專家的學(xué)習(xí)能力。公式如下:
在這種情況下,F(xiàn)2表示單個(gè)專家的輸出。假設(shè)圖像的第i個(gè)專家的權(quán)重為Wi,該專家的輸出為Fi,專家總數(shù)為N,則FE-MoE模型處理后的圖像特征Vmoe由以下公式表示:
Dynamic Instruction Adapter
在之前的視覺(jué)語(yǔ)言模型中,圖像表示在輸入語(yǔ)言模型之前是固定的,在進(jìn)入語(yǔ)言模型進(jìn)行計(jì)算之前,它們對(duì)應(yīng)于各種文本表示。為了使圖像表示在輸入到語(yǔ)言模型之前能夠根據(jù)不同的文本表示進(jìn)行動(dòng)態(tài)轉(zhuǎn)換,從而提高跨模態(tài)理解,我們引入了動(dòng)態(tài)指令機(jī)制并設(shè)計(jì)了動(dòng)態(tài)指令適配器。我們使用文本輸入序列T作為鍵(k)和值(v),使用圖像輸入序列v作為查詢(q)。通過(guò)交叉注意,我們計(jì)算了融合了文本上下文信息的融合序列V。公式如下:
殘差通道中的序列通過(guò)殘差連接與投影層的輸出序列連接,作為輸入到語(yǔ)言模型之前的視覺(jué)表示。附加語(yǔ)言模型輸出的培訓(xùn)見(jiàn)附錄。
實(shí)驗(yàn)結(jié)果
定量結(jié)果
在表1中,我們將MiniDrive的評(píng)估結(jié)果與之前在測(cè)試集上的工作進(jìn)行了比較,包括EM-VLM4AD和Drive Agent。就指標(biāo)的整體性能而言,MiniDrive224和MiniDrive384都優(yōu)于以前的方法,盡管DriveLM Agent在BLEU-4中覆蓋了我們,但它的參數(shù)計(jì)數(shù)明顯大于我們的,達(dá)到3.96B。
計(jì)算分析
本節(jié)主要比較MiniDrive和一系列現(xiàn)有視覺(jué)語(yǔ)言模型在參數(shù)計(jì)數(shù)、浮點(diǎn)運(yùn)算(FLOP)和內(nèi)存使用(GB)方面的差異。結(jié)果如表2所示。以224的輸入圖像分辨率為例,MiniDrive在所有三個(gè)方面都表現(xiàn)出了卓越的性能。
定性示例
在圖4中,我們展示了MiniDrive在三個(gè)不同任務(wù)中對(duì)看不見(jiàn)的樣本的實(shí)際響應(yīng)。為了對(duì)MiniDrive對(duì)多視圖圖像輸入的感知進(jìn)行可解釋性分析,我們分析了MiniDrive在各種場(chǎng)景下的激活圖。在圖4(a)中,MiniDrive演示了對(duì)多個(gè)圖像輸入的感知問(wèn)答,藍(lán)色框表示用戶指令中“左后”位置引用的圖像。紅色框?qū)?yīng)于MiniDrive的響應(yīng),主要關(guān)注該圖像,在指定位置識(shí)別“許多汽車、一輛卡車和一名行人”。在圖4(b)中,MiniDrive演示了如何為多個(gè)圖像輸入規(guī)劃問(wèn)答。根據(jù)用戶的指令和空間術(shù)語(yǔ)“CAM_FRONT”,MiniDrive會(huì)聚焦在相應(yīng)正面圖像左側(cè)的紅色框上。這種關(guān)注與人們?cè)谧龀鲆?guī)劃決策時(shí)考慮的因素相一致,包括行車道標(biāo)記和自我汽車左側(cè)的車輛。在圖4(c)中,MiniDrive演示了多個(gè)圖像輸入的預(yù)測(cè)性問(wèn)答。根據(jù)用戶預(yù)測(cè)“左前”位置行人運(yùn)動(dòng)的指令,MiniDrive會(huì)關(guān)注相應(yīng)位置圖像中的行人,并用紅色框突出顯示。綜上所述,MiniDrive在激活圖中關(guān)注的對(duì)象與人類駕駛員在駕駛過(guò)程中遵循的推理一致,表明MiniDrive具有一定程度的可靠性和可解釋性。
消融實(shí)驗(yàn)
為了驗(yàn)證每個(gè)模塊的有效性,我們?cè)O(shè)計(jì)了一系列消融實(shí)驗(yàn)。在表3中,我們研究了FE-MoE和動(dòng)態(tài)指令適配器(DI適配器)對(duì)MiniDrive的影響。當(dāng)FE-MoE和動(dòng)態(tài)指令適配器分別引入時(shí),各種指標(biāo)的結(jié)果都有所改善,當(dāng)兩個(gè)模塊同時(shí)引入時(shí),效果更好。這表明了模塊之間機(jī)制的有效性。其他消融實(shí)驗(yàn)的詳細(xì)信息見(jiàn)附錄。
進(jìn)一步分析
盡管MiniDrive被設(shè)計(jì)為用于接收多圖像輸入的自動(dòng)駕駛問(wèn)答模型,但它從多個(gè)圖像中提取、壓縮和重新學(xué)習(xí)信息,作為語(yǔ)言模型的文本令牌。然而它仍然可以用于單個(gè)圖像輸入任務(wù)。我們將其與CODA-LM上現(xiàn)有的主流開(kāi)源和閉源通用模型進(jìn)行了比較,如表4所示。很明顯,盡管MiniDrive只有83M個(gè)參數(shù),但它表現(xiàn)出了卓越的性能,優(yōu)于開(kāi)源模型,接近閉源模型的性能。由于訓(xùn)練數(shù)據(jù)的分布問(wèn)題,我們認(rèn)為這是MiniDrive識(shí)別“圓錐體”能力強(qiáng)的主要因素。
結(jié)論
本文介紹了MiniDrive,這是一種最先進(jìn)的自動(dòng)駕駛輕量級(jí)視覺(jué)語(yǔ)言模型。我們介紹了FE-MoE和DI-Adapter機(jī)制,提出了一種將2D卷積特征映射到語(yǔ)言模型的文本標(biāo)記中的新方法。我們的模型在DriveLM和CODA-LM兩個(gè)數(shù)據(jù)集上取得了出色的結(jié)果。未來(lái),我們的目標(biāo)是開(kāi)發(fā)一個(gè)具有視頻輸入的實(shí)時(shí)響應(yīng)模型,以進(jìn)一步推進(jìn)自動(dòng)駕駛技術(shù)。
限制
MiniDrive構(gòu)建了專用于自動(dòng)駕駛領(lǐng)域的VLM,并在當(dāng)前的主流基準(zhǔn)測(cè)試中取得了優(yōu)異的成績(jī)。然而它仍然缺乏一定程度的泛化能力,我們認(rèn)為這是由于訓(xùn)練樣本的局限性造成的。現(xiàn)有的自動(dòng)駕駛領(lǐng)域需要更多的公共數(shù)據(jù)集和開(kāi)發(fā)工作。此外,MiniDrive的培訓(xùn)主要集中在基于指令的數(shù)據(jù)集上,它仍然會(huì)遇到幻覺(jué)問(wèn)題。