HiLM-D:自動(dòng)駕駛多模態(tài)大語(yǔ)言模型玩出花了
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
筆者個(gè)人的一些思考
不得不說,最近大模型在學(xué)術(shù)界火起來(lái)了,基于圖文匹配的CLIP預(yù)訓(xùn)練模型成為近年來(lái)在多模態(tài)研究領(lǐng)域的經(jīng)典之作。除此之外,大語(yǔ)言模型的蓬勃發(fā)展也進(jìn)一步為多模態(tài)帶來(lái)了性能提升。自動(dòng)駕駛領(lǐng)域也有類似的數(shù)據(jù)(圖像/視頻+caption)用于車輛行為分析如BDD-X,最近也有新的工作直接構(gòu)建自動(dòng)駕駛場(chǎng)景下的QA,如DQA和DRIVEGPT4中使用chatgpt擴(kuò)展的BDD-X數(shù)據(jù)集,這些工作都為端到端自動(dòng)駕駛技術(shù)提供了可能;然而,現(xiàn)有多模態(tài)范式中輸入尺度較小(224x224),識(shí)別精度受限,因此在多模態(tài)的基礎(chǔ)上提出了高分辨率分支增強(qiáng)目標(biāo)很重要,尤其是風(fēng)險(xiǎn)目標(biāo)的識(shí)別能力用于——風(fēng)險(xiǎn)目標(biāo)定位和自車意圖以及建議預(yù)測(cè)(ROLISP),接下來(lái)我們一起看下具體是怎么實(shí)現(xiàn)的。
HiLM-D是怎么做的?
自動(dòng)駕駛系統(tǒng)通常采用針對(duì)不同任務(wù)的單獨(dú)模型,導(dǎo)致設(shè)計(jì)復(fù)雜。HiLM-D首次利用單一的多模態(tài)大語(yǔ)言模型(MLLMs)來(lái)整合來(lái)自視頻的多個(gè)自動(dòng)駕駛?cè)蝿?wù),即"Risk Object Localization and Intention and Suggestion Prediction(ROLISP)"任務(wù)。ROLISP使用自然語(yǔ)言同時(shí)識(shí)別和解釋風(fēng)險(xiǎn)目標(biāo),理解自動(dòng)駕駛車輛的意圖并提供運(yùn)動(dòng)建議,從而消除了需要特定任務(wù)架構(gòu)的必要性。然而,由于缺乏高分辨率(HR)信息,現(xiàn)有的MLLMs在應(yīng)用于ROLISP時(shí)通常會(huì)錯(cuò)過小物體(例如交通錐)并過分關(guān)注顯著的物體(例如大卡車)。本文提出了HiLM-D("Towards High-Resolution Understanding in MLLMs for Autonomous Driving"),這是一種有效的方法,將HR信息合并到MLLMs中,用于ROLISP任務(wù)。特別是,HiLM-D整合了兩個(gè)分支:(i)低分辨率推理分支,可以是任何MLLMs,處理低分辨率視頻以為風(fēng)險(xiǎn)目標(biāo)添加標(biāo)題并識(shí)別自動(dòng)駕駛車輛的意圖/建議;(ii)高分辨率感知分支(HR-PB),是HiLM-D的主要部分,攝入高分辨率圖像以通過捕獲具有視覺特定HR特征圖的高分辨率特征圖來(lái)增強(qiáng)檢測(cè),并優(yōu)先考慮所有潛在風(fēng)險(xiǎn),而不僅僅是顯著的目標(biāo)。HiLM-D的HR-PB作為即插即用模塊,可以無(wú)縫地適應(yīng)現(xiàn)有的MLLMs。在ROLISP基準(zhǔn)測(cè)試上的實(shí)驗(yàn)證明,HiLM-D在caption生成方面的BLEU-4得分提高了4.8%,在檢測(cè)方面的mIoU提高了17.2%,顯示了HiLM-D相對(duì)于主要MLLMs的顯著優(yōu)勢(shì)。
HiLM-D優(yōu)勢(shì)有哪些?
? 利用MLLMs通過自然語(yǔ)言范例來(lái)解決多個(gè)自動(dòng)駕駛?cè)蝿?wù),即ROLISP。
? 普遍的MLLMs通常在訓(xùn)練時(shí)輸入具有單一小尺寸(即224×224)的圖像。HiLM-D引入了HiLM-D(400x400)來(lái)生成豐富的包含視覺特定先驗(yàn)知識(shí)和突出高風(fēng)險(xiǎn)區(qū)域的高分辨率特征圖,這些特征圖可以與現(xiàn)有的MLLMs無(wú)縫集成并增強(qiáng)它們。
?在ROLISP基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn),以證明HiLM-D的卓越性能,例如在BLEU-4caption生成方面比最先進(jìn)的MLLMs提高了4.8%。
目前領(lǐng)域相關(guān)工作
多模態(tài)大語(yǔ)言模型
隨著大語(yǔ)言模型(LLMs)的出現(xiàn),自然語(yǔ)言處理取得了重大進(jìn)展,例如GPT系列,T5,LLaMA等。受LLMs的潛力激發(fā),許多多模態(tài)大語(yǔ)言模型(MLLMs),例如LLaVA,MiniGPT-4,Video-LLaMA和InstructBLIP,已被提出以將LLMs擴(kuò)展到多模式領(lǐng)域,即感知圖像/視頻輸入,并在多輪對(duì)話中與用戶交流。這些模型在大規(guī)模的圖像/視頻文本對(duì)上進(jìn)行了預(yù)訓(xùn)練,但這些模型僅能處理圖像級(jí)任務(wù),如圖像caption和問題回答。因此,一些作品如ContextDET,KOSMOS-2和Shikra已被提出,以實(shí)現(xiàn)MLLMs的基礎(chǔ)能力,產(chǎn)生邊界框。然而,所有當(dāng)前的MLLMs都在低分辨率的圖像文本對(duì)中訓(xùn)練模型,這在高分辨率自動(dòng)駕駛場(chǎng)景中限制了感知結(jié)果,
自動(dòng)駕駛
在自動(dòng)駕駛領(lǐng)域,傳統(tǒng)的自動(dòng)駕駛算法通常獨(dú)立處理不同的任務(wù),例如檢測(cè)、跟蹤、推理和預(yù)測(cè)。為了提取更豐富的跨任務(wù)信息,研究人員開始探索將多個(gè)任務(wù)集成到端到端的訓(xùn)練框架中。例如,一些作品如D&T展示了檢測(cè)和跟蹤的聯(lián)合訓(xùn)練,F(xiàn)aF進(jìn)一步將檢測(cè)器與軌跡預(yù)測(cè)器統(tǒng)一,取得了顯著的成果。UniAD脫穎而出,將全棧自動(dòng)駕駛?cè)蝿?wù)融合在一個(gè)統(tǒng)一的框架中,盡管仍然依賴于每個(gè)任務(wù)的不同子網(wǎng)絡(luò)。該領(lǐng)域中的一個(gè)新方向是將自然語(yǔ)言用作跨任務(wù)的統(tǒng)一輸出。例如,ADAPT使用單個(gè)caption來(lái)預(yù)測(cè)意圖并提供解釋,而DRAMA旨在檢測(cè)和解釋風(fēng)險(xiǎn)目標(biāo)。在HiLM-D中,比Drama和ADAPT更進(jìn)一步,即ROLISP,旨在識(shí)別、解釋和定位風(fēng)險(xiǎn)目標(biāo),同時(shí)預(yù)測(cè)其意圖并提供建議。
HiLM-D方法設(shè)計(jì)
Low-Resolution Reasoning Branch
低分辨率推理分支(LR-RB)利用MLLM來(lái)接收低分辨率(LR)視頻輸入,并以自然語(yǔ)言方式生成識(shí)別的風(fēng)險(xiǎn)目標(biāo)(包括原因)以及自車的意圖和建議,包括一個(gè)視覺編碼器和一個(gè)大語(yǔ)言模塊。
Visual Encoder.(凍結(jié)的ViT和Q-former+需訓(xùn)練的ST-Adapter) 視覺編碼器負(fù)責(zé)將視頻輸入轉(zhuǎn)換為視覺標(biāo)記,使大語(yǔ)言模型(LLM)能夠理解它們。它建立在預(yù)訓(xùn)練的圖像視覺變換器(ViT)和Q-former的基礎(chǔ)上,采用BLIP2(Li等人2023年)初始化,并在訓(xùn)練過程中保持凍結(jié)。為了處理圖像的時(shí)序性,該編碼器還包括一個(gè)時(shí)空適配器(ST-Adapter)(Pan等人2022年)。具體地,對(duì)于具有幀的視頻,ViT將每個(gè)幀映射到其第層特征,產(chǎn)生, 其中 是第幀的特征, 是patch的數(shù)量, 是緯度. 這些特征進(jìn)一步通過ST-Adapter和一個(gè)變換塊進(jìn)行處理,產(chǎn)生 . 最終的視頻表示為, , 通過將ViT的最后一層特征進(jìn)行平均池化和 -former. 一個(gè)可訓(xùn)練的線性層然后將投影到LLM的維度,生成。
Large Language Model (LLM).(凍結(jié),具體哪個(gè)模型似乎沒寫) 有了視覺標(biāo)記,就可以利用預(yù)訓(xùn)練的LLM來(lái)生成包括風(fēng)險(xiǎn)目標(biāo)的標(biāo)識(shí)以及解釋、意圖和建議在內(nèi)的caption,供自動(dòng)駕駛車輛使用。LLM的輸入由多模態(tài)標(biāo)記 的連接組成, 其中 表示從文本提示(例如“哪個(gè)目標(biāo)風(fēng)險(xiǎn)最高?然后預(yù)測(cè)自車的動(dòng)作和建議?!保┲袠?biāo)記的文本嵌入。預(yù)訓(xùn)練的LLM接收這些多模態(tài)標(biāo)記來(lái)自動(dòng)地生成語(yǔ)言。
其中是可訓(xùn)練參數(shù), 是生成的答案。
High-Resolution Perception Branch
高分辨率感知分支(HR-PB)專門設(shè)計(jì)用于整合來(lái)自高分辨率圖像的視覺特定信息以及與潛在高風(fēng)險(xiǎn)目標(biāo)相關(guān)的特征,以供LR-RB使用。
該分支由四個(gè)部分組成:
? HR空間提取器(HRSE),用于獲取HR幀的HR特征;
? 枚舉模塊,用于突出顯示所有潛在高風(fēng)險(xiǎn)目標(biāo);
? 整合模塊,將所有潛在風(fēng)險(xiǎn)目標(biāo)整合到LR-RB中;
? 查詢檢測(cè)頭,用于基于HR特征檢測(cè)目標(biāo)。
HR空間提取器(需訓(xùn)練的ResNet)
為了捕獲目標(biāo)檢測(cè)的視覺特定信息,HRSE改編自經(jīng)典的卷積網(wǎng)絡(luò)(CNN)ResNet。與當(dāng)前MLLM中的普通ViT相比,CNN具有許多優(yōu)勢(shì):減少內(nèi)存和計(jì)算資源,并為檢測(cè)任務(wù)(例如局部連接性和空間不變性)帶來(lái)視覺特定的先驗(yàn)知識(shí)。HiLM-D將提取的高分辨率空間特征圖表示為,其中 和 分別表示維度、寬度和高度。
枚舉模塊(凍結(jié)的GradCAM)
在自動(dòng)駕駛中,一些風(fēng)險(xiǎn)目標(biāo),如行人或交通錐,可能僅占整個(gè)圖像的一小部分,通常位于邊緣區(qū)域。然而,HiLM-D的實(shí)驗(yàn)發(fā)現(xiàn),現(xiàn)有的MLLM傾向于優(yōu)先考慮更顯眼的目標(biāo),如大型車輛,導(dǎo)致風(fēng)險(xiǎn)目標(biāo)的誤識(shí)別。為了解決這個(gè)問題,引入了一個(gè)枚舉模塊,確保模型關(guān)注所有潛在的高風(fēng)險(xiǎn)目標(biāo)區(qū)域,而不僅僅是主導(dǎo)的目標(biāo)。該模塊利用預(yù)訓(xùn)練的MLLM來(lái)測(cè)量圖像和位置提示之間的相似性,例如“車輛、紅綠燈/錐形標(biāo)識(shí)和人在哪里?”。隨后,使用GradCAM(Selvaraju等人,2017)生成一個(gè)強(qiáng)調(diào)這些高風(fēng)險(xiǎn)目標(biāo)區(qū)域的映射。將生成的強(qiáng)調(diào)地圖表示為 ,其中 與 分別表示強(qiáng)調(diào)地圖的寬度和高度,其值范圍從0到1。然后,將上采樣到與相等的大小,得到。最后,獲得了突出顯示的高分辨率圖像特征,其中表示逐元素相乘,.
整合模塊(需訓(xùn)練的交叉注意力)
整合模塊旨在讓從LR-RB學(xué)到的語(yǔ)義與所有潛在風(fēng)險(xiǎn)目標(biāo)的空間特征相融合,從而使LLM能夠比較和決定哪一個(gè)需要最多的關(guān)注。通過一個(gè)交叉注意力模塊來(lái)實(shí)現(xiàn)這一點(diǎn),該模塊將LR-RB第層的特征作為查詢,突出顯示的HR特征圖作為值和鍵。為了進(jìn)行高效的計(jì)算,只使用 中的cls標(biāo)記作為查詢,即。然后,交叉注意力可以表示為。將 添加到原始的后,獲得新的cls標(biāo)記,即,用于第個(gè)ST-Adapter和變壓器塊。是可學(xué)習(xí)的門控因子,用于自適應(yīng)地控制的重要性,其初始值為零,以避免在訓(xùn)練初期對(duì)原始ViT造成干擾。最后,整合后的視覺標(biāo)記由 獲得。
查詢檢測(cè)頭(需要訓(xùn)練的交叉注意力+MLP)。
為了獲得精確的邊界框,HiLM-D設(shè)計(jì)了一個(gè)查詢檢測(cè)頭,將找到的風(fēng)險(xiǎn)目標(biāo)的表示視為先驗(yàn)知識(shí),用于在HR特征I中找到邊界框。為實(shí)現(xiàn)這一點(diǎn),使用風(fēng)險(xiǎn)目標(biāo)的隱藏狀態(tài)作為查詢,突出顯示的HR空間特征作為值和鍵來(lái)計(jì)算交叉關(guān)注,可以表示為,其中 是與答案相關(guān)的語(yǔ)言標(biāo)記的隱藏狀態(tài),即找到的目標(biāo)。最后,被饋送到MLP以生成邊界框,即 。然后,預(yù)測(cè)的邊界框由進(jìn)行監(jiān)督, 是GT。
總損失定義如下:
其中 是超參數(shù)。
實(shí)驗(yàn)設(shè)置與分析
實(shí)施細(xì)節(jié)。提出的方法在PyTorch中實(shí)現(xiàn),使用一臺(tái)配備8個(gè)NVIDIA V100 GPU的單臺(tái)機(jī)器進(jìn)行訓(xùn)練。輸入視頻幀被調(diào)整大小并裁剪到尺寸為224×224的空間。從整個(gè)視頻中均勻采樣L = 5幀,并確保最后一幀用于生成邊界框。設(shè)置為2。使用AdamW(Loshchilov和Hutter,2017)作為優(yōu)化器,余弦退火調(diào)度器(Loshchilov和Hutter,2016)作為學(xué)習(xí)率調(diào)度器,低分辨率推理分支的初始學(xué)習(xí)率為1e-4,高分辨率感知分支的初始學(xué)習(xí)率為4e-4,全局批量大小為64。
數(shù)據(jù)集。DRAMA(Malla等人,2023)是一個(gè)評(píng)估駕駛場(chǎng)景中視覺推理的基準(zhǔn),包括17,785個(gè)兩秒交互式場(chǎng)景。然而,它只提供有關(guān)風(fēng)險(xiǎn)目標(biāo)的標(biāo)題,沒有提供有關(guān)自車意圖或建議的信息,這對(duì)于ROLISP至關(guān)重要。為了解決這個(gè)問題,增強(qiáng)了注釋,擴(kuò)展了DRAMA的標(biāo)題,包括自車意圖和建議,從而產(chǎn)生了DRAMA-ROLISP數(shù)據(jù)集。
評(píng)估指標(biāo)。ROLISP包括兩個(gè)任務(wù):(1)標(biāo)題以識(shí)別和解釋風(fēng)險(xiǎn)目標(biāo),同時(shí)預(yù)測(cè)自車意圖和動(dòng)作,以及(2)風(fēng)險(xiǎn)目標(biāo)檢測(cè)。標(biāo)題性能遵循標(biāo)準(zhǔn)指標(biāo)(Malla等人,2023),即BLEU-4(B4),METEOR(M),CIDER(C)和SPICE(S)。使用平均交并比(mIoU)來(lái)進(jìn)行檢測(cè)評(píng)估。此外,還提供了按物體大小分類的IoU分?jǐn)?shù):小型(IoUS),中型(IoUM)和大型(IoUL)。
與最先進(jìn)方法的比較 在DRAMA-ROLISP上進(jìn)行實(shí)驗(yàn),與基于圖像和視頻的MLLM進(jìn)行比較,包括BLIP-2,LLaVA,InstrutBLIP,Shikra,eP-ALM和Video-LLaMA;請(qǐng)注意,除了Shikra,其他模型都無(wú)法檢測(cè)物體。因此,將檢測(cè)頭(基于MLP的)整合到它們中以生成邊界框;
Main Results
最后總結(jié)一下
HiLM-D引入了一種新的方法,使用多模態(tài)大語(yǔ)言模型(MLLMs)來(lái)統(tǒng)一多個(gè)駕駛?cè)蝿?wù),稱為風(fēng)險(xiǎn)目標(biāo)定位和自車意圖以及建議預(yù)測(cè)(ROLISP)。進(jìn)一步提出了HiLM-D,以生成豐富的高分辨率特征圖,其中包含了視覺特定的先驗(yàn)信息,突出顯示高風(fēng)險(xiǎn)區(qū)域,這可以無(wú)縫地與現(xiàn)有的MLLM集成并增強(qiáng)其性能。
局限性。值得注意的是,HiLM-D的數(shù)據(jù)集固有的局限性,每個(gè)視頻只包含一個(gè)風(fēng)險(xiǎn)目標(biāo),這可能無(wú)法捕捉真實(shí)世界場(chǎng)景的復(fù)雜性。此外,該數(shù)據(jù)集缺乏如雨雪或霧等惡劣天氣條件,這對(duì)于全面的自動(dòng)駕駛評(píng)估至關(guān)重要。此外,提供的建議通常是簡(jiǎn)明的,例如“停車”或“讓行”,這可能過于簡(jiǎn)化了可能的行動(dòng)范圍。未來(lái)工作是創(chuàng)建一個(gè)更多樣化和具有挑戰(zhàn)性的數(shù)據(jù)集,進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展。
參考:
論文:https://arxiv.org/pdf/2309.05186.pdf
作者單位:The Hong Kong University of Science and Technology, Huawei Noah’s Ark Lab。
原文鏈接:https://mp.weixin.qq.com/s/OFGH64lO88sRuRou5K9HFA