世界模型大一統(tǒng)?清華&復(fù)旦提出OccLLaMA:首個(gè)用于自動(dòng)駕駛多任務(wù)的具身世界模型
寫(xiě)在前面&筆者的個(gè)人理解
近年來(lái),整合了語(yǔ)言、圖像、音頻等各種模態(tài)的多模態(tài)大語(yǔ)言模型取得了重大的突破,極大的加快了具身人工智能領(lǐng)域技術(shù)的發(fā)展。雖然相關(guān)研究成果取得了較為不錯(cuò)的進(jìn)展,但是能夠處理現(xiàn)實(shí)世界中多項(xiàng)任務(wù)的通用智能體還并未出現(xiàn)。這本質(zhì)上是因?yàn)楝F(xiàn)有的多模態(tài)大型語(yǔ)言模型通過(guò)學(xué)習(xí)的方式從感知到動(dòng)作的直接映射來(lái)執(zhí)行相應(yīng)動(dòng)作,忽略了世界的動(dòng)態(tài)特性以及運(yùn)動(dòng)與世界動(dòng)態(tài)之間的關(guān)系。相比之下,人類(lèi)擁有使他們能夠基于3D內(nèi)部視覺(jué)表征模擬未來(lái)狀態(tài)并據(jù)此規(guī)劃行動(dòng)的視覺(jué)模型。因此,探索如何構(gòu)建智能體的世界模型對(duì)于具身智能的進(jìn)步至關(guān)重要。
自動(dòng)駕駛作為具身人工智能的一項(xiàng)非常具有代表性的應(yīng)用,在世界范圍內(nèi)得到了廣泛的討論和研究,但是目前的自動(dòng)駕駛世界模型專(zhuān)注于傳感器相關(guān)的任務(wù),如點(diǎn)云、視覺(jué)以及柵格預(yù)測(cè)任務(wù),無(wú)法同時(shí)實(shí)現(xiàn)預(yù)測(cè)場(chǎng)景演變、語(yǔ)言推理和與現(xiàn)實(shí)世界的交互等內(nèi)容。因此,我們希望提出一個(gè)能夠統(tǒng)一視覺(jué)、語(yǔ)言和動(dòng)作的模型,具有類(lèi)似人類(lèi)的能力。
考慮到最近提出的柵格預(yù)測(cè)網(wǎng)絡(luò)可以作為一種通用的3D視覺(jué)任務(wù),更加準(zhǔn)確的描述細(xì)粒度的3D結(jié)構(gòu),同時(shí)還包含了高級(jí)語(yǔ)義信息,非常適合對(duì)齊空間和語(yǔ)義。同時(shí),基于自回歸語(yǔ)言模型的視覺(jué)生成的可行性已得到徹底驗(yàn)證,其性能可與擴(kuò)散模型相當(dāng)。
因此,在本文中,我們提出了統(tǒng)一的3D占用-語(yǔ)言-動(dòng)作生成世界模型,該模型統(tǒng)一了VLA相關(guān)任務(wù),包括但不限于場(chǎng)景理解、規(guī)劃和 4D占用預(yù)測(cè),我們將提出的模型稱(chēng)之為OccLLaMA,其整體效果如下圖所示。
OccLLaMA支持包括場(chǎng)景理解和推理、4D占用預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃
網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理
在詳細(xì)介紹本文提出的OccLLaMA算法模型之前,下圖展示了OccLLaMA算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu)。
OccLLaMA算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu)
通過(guò)上圖可以看出,OccLLaMA算法模型的核心組件包括Scene Tokenizer、Occupancy-Language-Action生成世界模型以及為了實(shí)現(xiàn)多任務(wù)引入的三階段訓(xùn)練方案。具體而言,為了使OccLLaMA具有理解和生成視覺(jué)模態(tài)的能力,我們選擇Occupancy作為通用的視覺(jué)表示,并引入一種新穎的Scene Tokenizer來(lái)有效地構(gòu)建離散場(chǎng)景詞匯,同時(shí)考慮到稀疏性和類(lèi)別不平衡。通過(guò)結(jié)合場(chǎng)景詞匯、語(yǔ)言詞匯和動(dòng)作詞匯,我們?yōu)閂LA任務(wù)構(gòu)建了一個(gè)統(tǒng)一的多模態(tài)詞匯,為在一個(gè)模型中集成VLA奠定了基礎(chǔ)。
Scene Tokenizer
受到點(diǎn)云處理任務(wù)的啟發(fā),我們?cè)诰幋a器當(dāng)中引入了一種稀疏的編碼策略。同時(shí)我們將非占用類(lèi)別與其他語(yǔ)義類(lèi)別分離,從而實(shí)現(xiàn)更高效的場(chǎng)景重建。
編碼器
解碼器
由于量化后BEV的特征圖中的高度信息丟失,解碼器通過(guò)堆疊卷積塊和上采樣層來(lái)恢復(fù)密集的3D體素特征。具體來(lái)說(shuō),為了解決類(lèi)別不平衡問(wèn)題,我們分別實(shí)例化輕量級(jí)體素頭和分類(lèi)頭,以解碼占用的幾何和語(yǔ)義信息。值得注意的是,體素頭為分類(lèi)頭提供了一個(gè)占用掩碼,使我們能夠僅監(jiān)督占用體素的語(yǔ)義。
Generative World Model
統(tǒng)一詞匯
場(chǎng)景預(yù)測(cè)
我們觀(guān)察到語(yǔ)言和動(dòng)作都是時(shí)間序列,這使得這些序列中的token自然適合具有原始的因果掩碼和下一個(gè)token預(yù)測(cè)機(jī)制的時(shí)間注意力。具體而言,我們?cè)谂c場(chǎng)景token對(duì)應(yīng)的位置實(shí)現(xiàn)空間注意力,以更好地捕捉場(chǎng)景內(nèi)的空間關(guān)系。相應(yīng)地,我們初始化可學(xué)習(xí)的場(chǎng)景查詢(xún)用于預(yù)測(cè)整個(gè)完整的場(chǎng)景,從而實(shí)現(xiàn)場(chǎng)景內(nèi)token之間的更好交互并顯著減少推理時(shí)間。在算法1中,詳細(xì)解釋了執(zhí)行場(chǎng)景預(yù)測(cè)機(jī)制的算法流程,如下圖所示。
場(chǎng)景預(yù)測(cè)的整體算法流程
訓(xùn)練階段
我們的訓(xùn)練方案包括三個(gè)階段,分別是scene tokenizer的訓(xùn)練過(guò)程,3D Occupancy-Language-Action的預(yù)訓(xùn)練過(guò)程,以及指令微調(diào)過(guò)程。
- scene tokenizer的訓(xùn)練過(guò)程:我們首先專(zhuān)注于場(chǎng)景codebook的學(xué)習(xí),以將占用率表示為離散的標(biāo)記,并計(jì)算相關(guān)的loss損失進(jìn)行優(yōu)化。在優(yōu)化后,scene tokenizer在整個(gè)流程的后續(xù)階段始終保持不變。
- 3D Occupancy-Language-Action的預(yù)訓(xùn)練過(guò)程:在這個(gè)階段,我們專(zhuān)注于對(duì)齊occupancy-language-action。我們使用世界模型目標(biāo)和場(chǎng)景標(biāo)題目標(biāo)進(jìn)行全參數(shù)預(yù)訓(xùn)練,前者監(jiān)督占用和動(dòng)作之間的對(duì)齊以學(xué)習(xí)世界的演變,后者監(jiān)督占用和語(yǔ)言之間的對(duì)齊以學(xué)習(xí)3D場(chǎng)景的語(yǔ)義理解。
- 指令微調(diào)過(guò)程:在這個(gè)階段,我們根據(jù)LoRA針對(duì)不同場(chǎng)景理解和規(guī)劃任務(wù)的提示指令對(duì)模型進(jìn)行微調(diào)。
實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)
為了展示我們提出的算法模型在4D占用預(yù)測(cè)、運(yùn)動(dòng)規(guī)劃以及視覺(jué)問(wèn)答任務(wù)中的性能,我們分別針對(duì)三個(gè)任務(wù)展開(kāi)了一系列的相關(guān)實(shí)驗(yàn)。
4D占用預(yù)測(cè)任務(wù)
4D占用預(yù)測(cè)任務(wù)旨在根據(jù)一些歷史占用輸入預(yù)測(cè)未來(lái)的3D占用場(chǎng)景。具體來(lái)說(shuō),我們使用2秒的歷史幀信息來(lái)預(yù)測(cè)接下來(lái)的3秒,并使用 mIoU和IoU作為主要的評(píng)估指標(biāo)。相關(guān)的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)在下表當(dāng)中。
我們?cè)趦煞N設(shè)置下將提出的OccLLaMA與最先進(jìn)的方法OccWorld進(jìn)行了比較:一種是使用真實(shí)3D占用信息(-O),另外一種是使用基于相機(jī)模型FBOCC的預(yù)測(cè)結(jié)果(-F)。
首先,我們觀(guān)察到我們的scene tokenizer展現(xiàn)出了卓越的場(chǎng)景重建能力。此外,我們提出的OccLLaMA可以在1秒內(nèi)實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的預(yù)測(cè)結(jié)果,并且在更長(zhǎng)時(shí)間內(nèi)明顯優(yōu)于OccWorld算法模型,凸顯了我們提出的算法模型其更強(qiáng)的長(zhǎng)期預(yù)測(cè)能力。
此外,OccLLaMA-F可以被視為端到端的檢測(cè)流程,因?yàn)樗韵鄼C(jī)為輸入。盡管任務(wù)很復(fù)雜,但OccLLaMA始終表現(xiàn)出強(qiáng)大的預(yù)測(cè)性能。為了更加直觀(guān)的展示我們算法模型的有效性,我們也進(jìn)行了相關(guān)的可視化,如下圖所示。
4D柵格預(yù)測(cè)任務(wù)的可視化結(jié)果
運(yùn)動(dòng)規(guī)劃任務(wù)
我們將提出的OccLLaMA算法模型的運(yùn)動(dòng)規(guī)劃能力與利用各種輸入和監(jiān)督的幾個(gè)強(qiáng)基線(xiàn)算法模型進(jìn)行了比較,相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示。
我們還將提出的算法模型與OccWorld算法模型在不同設(shè)置下進(jìn)行了比較,例如4D占用率預(yù)測(cè)任務(wù)中的設(shè)置。我們觀(guān)察到UniAD算法模型提供了最佳的表現(xiàn)性能,而監(jiān)督標(biāo)記限制了其對(duì)大規(guī)模數(shù)據(jù)集的可擴(kuò)展性。作為替代方案,OccLLaMA僅依靠3D語(yǔ)義占用就實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的表現(xiàn)性能,展示了其作為自動(dòng)駕駛基礎(chǔ)模型的擴(kuò)展?jié)摿?。與使用占用作為輸入的方法相比,OccLLaMA的表現(xiàn)明顯優(yōu)于OccNet算法模型,進(jìn)一步凸顯了其自回歸架構(gòu)的優(yōu)越性。此外,超越自回歸的最先進(jìn)的方法OccWorld算法模型,也從側(cè)面證明了我們提出各個(gè)模塊的有效性。此外,通過(guò)集成現(xiàn)有方法實(shí)現(xiàn)的卓越性能,展示了我們方法的通用性。值得注意的是,輸出軌跡而不交替場(chǎng)景預(yù)測(cè)會(huì)導(dǎo)致性能下降,這表明世界模型范式具有更大的潛力。
視覺(jué)問(wèn)答任務(wù)
據(jù)我們所知,我們是第一個(gè)利用占用數(shù)據(jù)和文本指令作為輸入并在自動(dòng)駕駛中實(shí)現(xiàn)一系列3D任務(wù)的多模態(tài)大型語(yǔ)言模型。我們選擇在NuScenes-QA基準(zhǔn)上最先進(jìn)的算法模型Lidar-LLM,作為我們的主要比較基線(xiàn)。此外,我們分別使用深度圖像和原始圖像作為輸入,在 NuScenes-QA基準(zhǔn)上評(píng)估了強(qiáng)大的2D LLM。我們使用Top-1準(zhǔn)確度指標(biāo)評(píng)估模型的性能,并對(duì)不同類(lèi)型的問(wèn)題進(jìn)行單獨(dú)評(píng)估。
為了確保公平性,我們?cè)贚LaMA2-7b下實(shí)現(xiàn)了我們的整體算法模型,這是與LiDAR-LLM和LLaVA相同的基礎(chǔ)模型。相關(guān)的實(shí)驗(yàn)結(jié)果匯總在如下的表格當(dāng)中。
我們觀(guān)察到提出的OccLLaMA算法模型總體上提供了最佳的表現(xiàn)性能。與LiDAR-LLM相比,提出的OccLLaMA算法模型可以更好地捕獲3D空間中的語(yǔ)義信息,這對(duì)于與目標(biāo)相關(guān)的問(wèn)題至關(guān)重要。此外,OccLLaMA算法模型將空間信息作為輸入,并自然地對(duì)齊語(yǔ)義和空間數(shù)據(jù),這對(duì)涉及空間關(guān)系的問(wèn)題很有幫助。
相關(guān)消融對(duì)比實(shí)驗(yàn)
此外我們也對(duì)提出的各個(gè)模塊進(jìn)行了相關(guān)的消融對(duì)比實(shí)驗(yàn),用于驗(yàn)證我們提出的各個(gè)模塊的有效性。
下表展示了不同超參數(shù)對(duì)scene tokenizer重建性能的影響,包括空間分辨率、特征維度和codebook的大小。
較大的codebook會(huì)導(dǎo)致算法模型的過(guò)度擬合和codebook的利用率下降。較小的codebook和特征維度無(wú)法有效地模擬場(chǎng)景分布。分辨率與重建能力呈正相關(guān),影響最為顯著。然而,分辨率越大,重建場(chǎng)景所需的token數(shù)量就越多,從而增加了預(yù)測(cè)的負(fù)擔(dān)。
我們也比較了生成模型的不同組成部分對(duì)預(yù)測(cè)和規(guī)劃性能的影響,相關(guān)實(shí)驗(yàn)結(jié)果匯總在下表當(dāng)中。
沒(méi)有空間注意力意味著一個(gè)場(chǎng)景中的標(biāo)記基于扁平序列順序保持其原始因果注意力。沒(méi)有動(dòng)作token化意味著航點(diǎn)由原始語(yǔ)言詞匯中的標(biāo)記連接而成。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,使用特定于動(dòng)作的標(biāo)記,而不是依賴(lài)語(yǔ)言詞匯,可以提高預(yù)測(cè)和規(guī)劃的性能。這種改進(jìn)可以歸因于特定于動(dòng)作的標(biāo)記保留了航點(diǎn)的物理先驗(yàn),同時(shí)避免了語(yǔ)言詞匯中的歸納偏差。此外,我們發(fā)現(xiàn)使用空間注意力來(lái)模擬場(chǎng)景內(nèi)的空間依賴(lài)關(guān)系對(duì)于預(yù)測(cè)至關(guān)重要。然而,它會(huì)導(dǎo)致規(guī)劃性能略有下降,我們將其歸因于空間注意力在局部擾亂了全局因果注意力。
結(jié)論
在本文中,我們提出了OccLLaMA算法模型,一種用于多任務(wù)的自動(dòng)駕駛3D占用語(yǔ)言動(dòng)作生成世界模型。通過(guò)對(duì)4D占用預(yù)測(cè)、運(yùn)動(dòng)規(guī)劃和視覺(jué)問(wèn)答等任務(wù)的大量實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)結(jié)果證明了我們提出的OccLLaMA算法模型在多任務(wù)上的有效性。未來(lái),我們將增加數(shù)據(jù)多樣性,以進(jìn)一步增強(qiáng)OccLLaMA算法模型的功能。