全面超越OccWorld!Occ-LLM:Occ世界模型再度問鼎SOTA
寫在前面&出發(fā)點(diǎn)
大語言模型(LLMs)在機(jī)器人和自動(dòng)駕駛領(lǐng)域取得了重大進(jìn)展。本研究提出了首個(gè)基于占用的大語言模型(Occ-LLM),這是將大語言模型與一種重要表示方式相結(jié)合的開創(chuàng)性嘗試。為了有效地將占用信息編碼為大語言模型的輸入,并解決與占用相關(guān)的類別不平衡問題,研究提出了運(yùn)動(dòng)分離變分自編碼器(MS-VAE)。這種創(chuàng)新方法利用先驗(yàn)知識,在將動(dòng)態(tài)對象和靜態(tài)場景輸入定制的變分自編碼器(VAE)之前進(jìn)行區(qū)分。這種分離增強(qiáng)了模型專注于動(dòng)態(tài)軌跡的能力,同時(shí)有效地重建靜態(tài)場景。Occ-LLM在關(guān)鍵任務(wù)中的有效性得到了驗(yàn)證,包括4D占用預(yù)測、自車規(guī)劃和基于占用的場景問答。綜合評估表明,Occ-LLM顯著優(yōu)于現(xiàn)有的最先進(jìn)方法,在4D占用預(yù)測任務(wù)中,交并比(IoU)提高了約6%,平均交并比(mIoU)提高了4%。這些發(fā)現(xiàn)凸顯了Occ-LLM在重塑機(jī)器人和自動(dòng)駕駛當(dāng)前范式方面的變革潛力。
行業(yè)介紹
大語言模型發(fā)展迅速,已成為推動(dòng)各行業(yè)人工智能發(fā)展的重要力量。最初為自然語言處理設(shè)計(jì)的大語言模型,因其強(qiáng)大的泛化能力,在自動(dòng)駕駛等復(fù)雜領(lǐng)域也展現(xiàn)出了卓越的適應(yīng)性。這些能力對于目前缺乏泛化性的機(jī)器人或自動(dòng)駕駛系統(tǒng)而言至關(guān)重要。當(dāng)前,大語言模型在自動(dòng)駕駛中的應(yīng)用主要基于圖像輸入,但這種方式缺乏全面理解環(huán)境所需的空間感知能力。現(xiàn)有的基于視覺和基于激光雷達(dá)的方法,雖然增強(qiáng)了車輛導(dǎo)航和環(huán)境理解能力,但計(jì)算成本高,且中間推理過程往往缺乏透明度。
在自動(dòng)駕駛中,占用是一種極具表現(xiàn)力的模態(tài),它通過全面表示場景的前景和背景,提供豐富的空間和語義信息。這種通用表示方式有助于感知物體,無論其具體類別是已知還是未知。值得注意的是,像特斯拉這樣的領(lǐng)先汽車制造商,正逐步在其車輛中采用基于占用的系統(tǒng),這凸顯了向這種強(qiáng)大的環(huán)境解釋方法的轉(zhuǎn)變。
我們旨在利用大語言模型復(fù)雜的分析和泛化能力,開發(fā)一種用于自動(dòng)駕駛各種下游任務(wù)的基礎(chǔ)模型,以解釋和利用占用網(wǎng)格。然而,將占用表示直接集成到大語言模型中具有挑戰(zhàn)性,這是由于占用類別不平衡,以及代表空氣的體素占主導(dǎo)地位,導(dǎo)致學(xué)習(xí)效率低下和內(nèi)存問題。為了克服這些挑戰(zhàn),提出了一種名為運(yùn)動(dòng)分離變分自編碼器(MS-VAE)的新方法。該方法將占用場景中與可移動(dòng)物體(如汽車、行人)相關(guān)的體素,與不可移動(dòng)結(jié)構(gòu)(如街道、綠植)相關(guān)的體素分離。這樣做增強(qiáng)了模型對動(dòng)態(tài)對象軌跡的關(guān)注,并改善了靜態(tài)場景的重建,類似于殘差學(xué)習(xí)。這種分離顯著降低了學(xué)習(xí)難度,提高了模型的整體性能。
基于占用的大語言模型(Occ-LLM)經(jīng)過精心設(shè)計(jì),可滿足自動(dòng)駕駛領(lǐng)域的多種應(yīng)用需求。該模型的主要應(yīng)用包括4D占用場景預(yù)測、自車規(guī)劃和基于占用的場景問答,這些應(yīng)用對于提高自動(dòng)駕駛系統(tǒng)的安全性、效率和可靠性至關(guān)重要。為了驗(yàn)證模型的有效性,研究人員進(jìn)行了廣泛的評估,將Occ-LLM與其他最先進(jìn)的方法進(jìn)行比較。結(jié)果顯示,Occ-LLM性能卓越,在4D占用場景預(yù)測中,IoU達(dá)到32.52%,mIoU達(dá)到20.99%,顯著優(yōu)于最先進(jìn)模型(其IoU為26.63%,mIoU為17.14%,3秒平均值)。在自車規(guī)劃方面,該模型將3秒平均L2距離降至0.28米,而領(lǐng)先的替代模型為1.17米。此外,在基于占用的場景問答中,Occ-LLM始終能提供準(zhǔn)確可靠的回答,從而增強(qiáng)了自動(dòng)駕駛系統(tǒng)的決策能力。
主要貢獻(xiàn)如下:
- 引入了用于自動(dòng)駕駛的基于占用的大語言模型Occ-LLM,展示了卓越的場景理解能力。
- 提出運(yùn)動(dòng)分離變分自編碼器MS-VAE,通過區(qū)分可移動(dòng)和不可移動(dòng)元素來管理大量占用網(wǎng)格數(shù)據(jù),在各項(xiàng)指標(biāo)上提升了系統(tǒng)性能。
- 通過在4D占用場景預(yù)測、自車規(guī)劃和基于占用的場景問答中的應(yīng)用,展示了Occ-LLM的多功能性,說明了其在自動(dòng)駕駛多個(gè)維度上的優(yōu)越性。
- 通過接入現(xiàn)有的占用預(yù)測方法,展示了Occ-LLM的泛化能力,說明了其在自動(dòng)駕駛中的實(shí)用性。
相關(guān)工作
1)多模態(tài)大語言模型
多模態(tài)大語言模型的最新進(jìn)展引發(fā)了廣泛關(guān)注,它將大語言模型的先進(jìn)推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合。這些模型在零樣本和少樣本圖像分類、分割和目標(biāo)檢測等任務(wù)中表現(xiàn)出色,充分利用了視覺和文本數(shù)據(jù)之間的協(xié)同作用。在自動(dòng)駕駛領(lǐng)域,大語言模型彌補(bǔ)了關(guān)鍵差距,增強(qiáng)了場景理解能力,提供了更豐富的語義上下文,并促進(jìn)了當(dāng)前系統(tǒng)所缺乏的決策過程。已經(jīng)有幾種方法被提出,以在自動(dòng)駕駛中利用大語言模型?;谝曈X的方法,如DriveGPT4,通過解釋視頻輸入生成與駕駛相關(guān)的文本響應(yīng);而像HiLM-D這樣的模型,則通過高分辨率視覺數(shù)據(jù)增強(qiáng)危險(xiǎn)識別和意圖預(yù)測能力?;诩す饫走_(dá)的方法利用矢量化視覺嵌入,賦予大語言模型環(huán)境感知能力,實(shí)現(xiàn)對駕駛場景的詳細(xì)分析。
2)占用網(wǎng)絡(luò)
近年來,3D語義占用通過明確建模3D網(wǎng)格內(nèi)每個(gè)體素的占用狀態(tài),提供了對環(huán)境更詳細(xì)的表示。SSCNet率先引入語義場景補(bǔ)全任務(wù),整合了幾何和語義信息。隨后的研究通常利用具有明確深度信息的幾何輸入。MonoScene提出了第一種用于語義場景補(bǔ)全的單目方法,使用3D UNet來處理通過視線投影生成的體素特征?;谵D(zhuǎn)移架構(gòu)設(shè)計(jì)了各種網(wǎng)絡(luò)。此外,一些同期研究專注于提出用于3D語義占用預(yù)測的環(huán)視基準(zhǔn),推動(dòng)了占用領(lǐng)域的快速發(fā)展。OccWorld基于3D占用學(xué)習(xí)世界模型,因其可解釋性和效率備受關(guān)注。這里嘗試以大語言模型為橋梁,統(tǒng)一占用任務(wù)。
Occ-LLM方法
Occ-LLM框架將大語言模型與占用表示相結(jié)合,以改進(jìn)自動(dòng)駕駛系統(tǒng)。該框架增強(qiáng)了空間和語義理解能力,有助于場景解釋和決策制定。首先使用現(xiàn)有方法將多視圖圖像轉(zhuǎn)換為占用表示。下面首先介紹核心的運(yùn)動(dòng)分離變分自編碼器MS-VAE,它能夠區(qū)分動(dòng)態(tài)和靜態(tài)元素,降低計(jì)算負(fù)載并提高學(xué)習(xí)效率。MS-VAE的輸出經(jīng)過進(jìn)一步處理和展平,輸入到大語言模型中。Occ-LLM專為各種自動(dòng)駕駛?cè)蝿?wù)設(shè)計(jì),支持4D占用預(yù)測、自車規(guī)劃和基于占用的場景問答,提高了自動(dòng)駕駛的安全性和有效性。
1)運(yùn)動(dòng)分離變分自編碼器
基于已有的多模態(tài)大語言模型集成方法,研究旨在訓(xùn)練一個(gè)變分自編碼器,以促進(jìn)模態(tài)融合并降低計(jì)算成本。將占用表示直接集成到大語言模型中面臨挑戰(zhàn),因?yàn)檎加妙悇e不平衡,且空氣體素占主導(dǎo),導(dǎo)致數(shù)據(jù)表示稀疏且低效。為了克服這一問題,研究提出了運(yùn)動(dòng)分離變分自編碼器MS-VAE,它可以分離占用網(wǎng)格中的動(dòng)態(tài)和靜態(tài)組件。這提高了編碼效率,并將重點(diǎn)轉(zhuǎn)移到對自主導(dǎo)航至關(guān)重要的動(dòng)態(tài)元素上。因此,MS-VAE能夠更平衡、有效地集成到大語言模型框架中。
MS-VAE的核心概念是訓(xùn)練兩個(gè)不同的VQ-VAEs,分別對移動(dòng)和靜態(tài)占用體素進(jìn)行編碼和解碼。不過研究發(fā)現(xiàn),使用兩個(gè)不同的codebook分別處理移動(dòng)和靜態(tài)體素,同時(shí)保持單個(gè)編碼器和解碼器,也能獲得令人滿意的結(jié)果。為了清晰闡述,用數(shù)學(xué)公式描述該方法。
設(shè)表示輸入的占用表示,和分別表示移動(dòng)和靜態(tài)體素。編碼器將輸入映射到潛在空間。對于MS-VAE,為移動(dòng)和靜態(tài)體素定義兩個(gè)單獨(dú)的潛在變量和:
每個(gè)編碼后的潛在變量和在相應(yīng)的codebook和中搜索,并在輸入解碼器之前,被最相似的codebook entry替換。這個(gè)過程表示為:
解碼器從量化后的潛在變量和重建輸入:
為了便于在占用表示中分離運(yùn)動(dòng)和靜態(tài)元素,基于體素的分類進(jìn)行變換。設(shè)表示可移動(dòng)類別的集合。在修改后的占用表示中,定義運(yùn)動(dòng)和空氣填充的指示函數(shù)如下:
定義指示函數(shù),使得:
如果否則
則修改后的運(yùn)動(dòng)占用和靜態(tài)占用為:
其中,air表示靜態(tài)占用網(wǎng)格中空氣的表示,通常編碼為代表未占用空間的占位值。
為了重建原始占用表示,利用來區(qū)分活動(dòng)運(yùn)動(dòng)區(qū)域。重建后的占用將靜態(tài)和運(yùn)動(dòng)組件組合如下:
訓(xùn)練MS-VAE的總體損失函數(shù)結(jié)合了重建損失和承諾損失,以確保編碼后的潛在變量接近c(diǎn)odebook entries:
通過為移動(dòng)和靜態(tài)體素使用單獨(dú)的codebook,同時(shí)保持統(tǒng)一的編碼器和解碼器,并適當(dāng)?shù)靥幚碚加帽硎?,MS-VAE有效地捕捉了每種體素類型的獨(dú)特特征,從而改善了占用重建和泛化能力。
此外,整體VAE架構(gòu)參考了OccWorld實(shí)現(xiàn)中的方法,具體將占用視為具有16個(gè)通道的2D數(shù)據(jù),并使用2D VAE進(jìn)行編碼和解碼。然而,為了保留三維信息的完整性,在編碼器之前和解碼器之后都集成了一層輕量級3D卷積。這種修改尊重了占用表示固有的空間維度,顯著提高了重建占用的質(zhì)量。與傳統(tǒng)使用2D VAE相比,這種方法顯著提高了占用表示在三維空間中的保真度。
2)占用與大語言模型集成的預(yù)處理
Patchify:使用MS-VAE對原始占用表示進(jìn)行編碼后,得到的潛在表示仍然很大。為了解決這個(gè)問題,采用類似于視覺Transformer(ViT)的方法,將占用潛在空間劃分為小網(wǎng)格并展平。研究發(fā)現(xiàn),path大小對占用重建質(zhì)量有顯著影響。這是因?yàn)轭A(yù)測未來占用幀涉及感知和低級視覺任務(wù)。例如,感知任務(wù)通常受益于較大的patch大小,有助于更好地理解輸入數(shù)據(jù)的語義信息;相反,低級視覺任務(wù)通常采用較小的patch大小,以實(shí)現(xiàn)更高質(zhì)量的數(shù)據(jù)重建。通過消融研究確定,patch大小為10時(shí)可獲得最佳結(jié)果。
幀分離:研究發(fā)現(xiàn),每個(gè)幀展平后的占用潛在表示相對較長,直接連接多個(gè)幀展平后的占用潛在表示會(huì)導(dǎo)致生成的占用出現(xiàn)位置漂移。這種漂移表現(xiàn)為一個(gè)幀的部分占用出現(xiàn)在后續(xù)幀中,從而造成級聯(lián)錯(cuò)位。為了解決這個(gè)問題,提出了一個(gè)簡單但有效的解決方案:在每個(gè)占用潛在幀的開頭和結(jié)尾添加特定的文本標(biāo)記。具體來說,在開頭使用“”,在結(jié)尾使用“”。這些標(biāo)記在推理時(shí)界定了幀之間的間隔,有效地消除了漂移問題。
預(yù)融合:引入一種預(yù)融合方法,以更好地建立占用表示與自車動(dòng)作之間的聯(lián)系。該方法首先通過多個(gè)MLP層對自車動(dòng)作進(jìn)行編碼。類似于SE-Net的方法,然后使用編碼后的動(dòng)作潛在變量作為權(quán)重,對占用特征進(jìn)行調(diào)制。這種技術(shù)增強(qiáng)了占用表示與自車動(dòng)作之間的一致性,提高了模型的整體性能。
3)下游任務(wù)
Occ-LLM框架支持多種對增強(qiáng)自動(dòng)駕駛系統(tǒng)至關(guān)重要的下游任務(wù),包括4D占用預(yù)測、自車規(guī)劃和基于占用的場景問答。任務(wù)切換通過特定提示進(jìn)行管理:“<4-D occupancy forecasting and self-ego planning>”啟動(dòng)4D占用預(yù)測和自車規(guī)劃的組合任務(wù),而“”觸發(fā)問答任務(wù)。這些任務(wù)共同增強(qiáng)了態(tài)勢感知和決策能力。4D占用預(yù)測用于預(yù)測環(huán)境動(dòng)態(tài),這對于預(yù)測危險(xiǎn)至關(guān)重要。自車規(guī)劃利用這些預(yù)測實(shí)現(xiàn)安全、高效的導(dǎo)航。基于占用的場景問答用于解釋復(fù)雜情況,有助于做出明智的決策。這些能力共同顯著提高了自動(dòng)駕駛系統(tǒng)的安全性、可靠性和效率。
實(shí)驗(yàn)分析
我們展示了一系列廣泛的實(shí)驗(yàn),以評估所提出的Occ-LLM的性能。研究使用Llama2作為基礎(chǔ)模型。使用交并比(IoU)和平均交并比(mIoU)指標(biāo)評估4D占用預(yù)測。使用L2距離指標(biāo)評估自車規(guī)劃能力。
采用Nuscenes數(shù)據(jù)集,該數(shù)據(jù)集包含1000個(gè)場景。這些場景分為700個(gè)用于訓(xùn)練,150個(gè)用于驗(yàn)證,150個(gè)用于測試。每個(gè)場景包含大約50幀,對應(yīng)一個(gè)占用場景。占用表示的維度為(200, 200, 16),其中前兩個(gè)維度(200, 200)代表長度和寬度,16代表高度。這種數(shù)據(jù)集配置能夠在各種場景下全面評估和驗(yàn)證模型的性能。
1)與最先進(jìn)方法的比較
4D占用預(yù)測和自車規(guī)劃:表1將研究方法與4D占用預(yù)測和運(yùn)動(dòng)規(guī)劃領(lǐng)域的最先進(jìn)方法進(jìn)行了比較,提供了1秒、2秒和3秒間隔的IoU、mIoU和L2距離等指標(biāo)。研究方法在準(zhǔn)確性和一致性方面始終優(yōu)于最先進(jìn)方法。
評估的方法包括基于激光雷達(dá)的方法,如IL、NMP和FF,以及基于攝像頭的方法,如UniAD、VAD-Base和OccNet。研究還將預(yù)測的占用數(shù)據(jù)集成到Occ-LLM框架中,像BevFormer+Ours這樣的模型實(shí)現(xiàn)了更高的性能,平均IoU達(dá)到23.79%,mIoU達(dá)到10.21%,L2距離為0.43米。
與基于占用的方法相比,研究方法超越了OccWorld,平均IoU達(dá)到32.52%,mIoU達(dá)到20.99%,L2距離為0.28米,展示了在自動(dòng)駕駛中更高的準(zhǔn)確性和可靠性。
問答:研究提出的方法展示了專為自動(dòng)駕駛場景定制的先進(jìn)問答能力。如圖5所示,該系統(tǒng)有效地解釋多視圖相機(jī)輸入,以預(yù)測占用情況,并對有關(guān)駕駛環(huán)境的查詢提供準(zhǔn)確響應(yīng)。它可以識別場景中的關(guān)鍵對象,為自車推薦安全的操作,并描述潛在的危險(xiǎn),如準(zhǔn)備過馬路的行人。
為了定量評估系統(tǒng)的性能,使用標(biāo)準(zhǔn)指標(biāo)(即BLEU、ROUGE L、CIDEr和GPT Score),將該系統(tǒng)與DriveLM模型進(jìn)行了對比評估。研究模型在所有指標(biāo)上均優(yōu)于DriveLM,獲得了更高的分?jǐn)?shù)。這些結(jié)果證實(shí)了研究方法在自動(dòng)駕駛環(huán)境中提供準(zhǔn)確且上下文相關(guān)答案的有效性。
2)消融研究
OccWorld的VAE與MS-VAE的對比分析:表3比較了OccWorld的VAE與研究提出的MS-VAE,結(jié)果顯示MS-VAE在重建性能上有顯著提升。添加3D卷積層和運(yùn)動(dòng)分離策略提高了IoU和mIoU,MS-VAE的IoU達(dá)到62.74%,mIoU達(dá)到71.08%,而OccWorld的VAE分別為59.07%和60.50%。
Patchify中不同patch大小的對比分析:表4研究了不同patch大小對重建性能的影響。patch大小為10時(shí)表現(xiàn)最佳,在訓(xùn)練集上IoU為32.48%,mIoU為26.16%,在驗(yàn)證集上IoU為27.12%,mIoU為26.83%,能夠在細(xì)節(jié)捕捉和效率之間取得平衡。
Occ-LLM模塊的消融研究:表5展示了Occ-LLM模塊的消融研究?;€模型的IoU為20.