大火的World Model是什么?DriveDreamer:首個(gè)真實(shí)世界驅(qū)動(dòng)的自動(dòng)駕駛世界模型
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
1.背景意義
世界模型(World Models)由于其理解環(huán)境、和環(huán)境交互的能力,正在自動(dòng)駕駛領(lǐng)域引起廣泛關(guān)注。世界模型具有生成高質(zhì)量駕駛視頻和用于端到端駕駛的巨大潛力。然而,目前在自動(dòng)駕駛領(lǐng)域的世界模型研究主要關(guān)注游戲環(huán)境或模擬環(huán)境,缺乏對(duì)真實(shí)世界駕駛情景的表現(xiàn)。因此,我們引入了DriveDreamer,這是一個(gè)完全源自真實(shí)世界駕駛情境的開創(chuàng)性世界模型??紤]到在復(fù)雜駕駛場(chǎng)景中對(duì)世界進(jìn)行建模涉及龐大的搜索空間,我們提出使用強(qiáng)大的擴(kuò)散模型來(lái)構(gòu)建對(duì)復(fù)雜環(huán)境的表征。此外,我們引入了一個(gè)兩階段的訓(xùn)練流程。在初始階段,DriveDreamer獲得了對(duì)結(jié)構(gòu)化交通約束的深刻理解,而隨后的階段則賦予了它預(yù)測(cè)未來(lái)狀態(tài)的能力。所提出的DriveDreamer是首個(gè)建立在真實(shí)世界駕駛情境之上的世界模型。我們?cè)诰哂刑魬?zhàn)性的nuScenes基準(zhǔn)上實(shí)例化了DriveDreamer,并進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了DriveDreamer能夠?qū)崿F(xiàn)精確可控的視頻生成,忠實(shí)地捕捉了真實(shí)世界交通情景的結(jié)構(gòu)約束。此外,DriveDreamer使得生成逼真和合理的駕駛策略成為可能,為互動(dòng)和實(shí)際應(yīng)用開辟了途徑。
圖1. 所提出的DriveDreamer展示了對(duì)自動(dòng)駕駛場(chǎng)景的全面理解。它在可控駕駛視頻生成方面表現(xiàn)出色,能夠與文本提示和結(jié)構(gòu)化交通約束完美配合。DriveDreamer還可以與駕駛場(chǎng)景互動(dòng),并根據(jù)輸入的駕駛動(dòng)作預(yù)測(cè)不同的未來(lái)駕駛視頻。此外,DriveDreamer還擴(kuò)展了其實(shí)用性,可以預(yù)測(cè)未來(lái)的駕駛動(dòng)作。
2. 相關(guān)工作
2.1 擴(kuò)散模型(Diffusion Models)
擴(kuò)散模型代表了一類概率生成模型的家族,它們逐漸引入噪聲到數(shù)據(jù)中,隨后學(xué)習(xí)逆轉(zhuǎn)這一過(guò)程,以生成樣本。這些模型最近引起了廣泛關(guān)注,因?yàn)樗鼈冊(cè)诟鞣N應(yīng)用中表現(xiàn)出卓越性能,為圖像合成、視頻生成和三維內(nèi)容生成設(shè)定了新的基準(zhǔn)。ControlNet、GLIGEN、T2I-Adapter和Composer等文章進(jìn)一步引入了額外的學(xué)習(xí)參數(shù)來(lái)增強(qiáng)可控生成能力。它們利用了各種控制輸入,包括深度圖、分割圖、Canny邊緣和草圖。同時(shí),BEVControl和CityDreamer加入了布局條件來(lái)增強(qiáng)圖像生成?;跀U(kuò)散的生成模型的基本本質(zhì)在于它們理解和理解世界的復(fù)雜性。借助這些擴(kuò)散模型的力量,DriveDreamer旨在理解復(fù)雜的自動(dòng)駕駛場(chǎng)景。
2.2 Video Generation
視頻生成和視頻預(yù)測(cè)是理解視覺世界的有效方法。在視頻生成領(lǐng)域,已經(jīng)采用了幾種標(biāo)準(zhǔn)架構(gòu),包括變分自編碼器(VAEs)、自回歸模型、基于流的模型和生成對(duì)抗網(wǎng)絡(luò)(GANs)。最近,新興的擴(kuò)散模型也已擴(kuò)展到視頻生成領(lǐng)域,展示了更高質(zhì)量的視頻生成能力,能夠生成逼真的幀和幀之間的連續(xù)過(guò)渡,同時(shí)提供可控的視頻生成能力。視頻預(yù)測(cè)模型代表了視頻生成模型的一種專門形式,它們共享許多相似之處。具體而言,視頻預(yù)測(cè)涉及根據(jù)歷史視頻觀察來(lái)預(yù)測(cè)未來(lái)視頻變化。DriveGAN通過(guò)指定未來(lái)的駕駛策略,建立了駕駛動(dòng)作和像素之間的關(guān)聯(lián),從而預(yù)測(cè)未來(lái)的駕駛視頻。相比之下,DriveDreamer將結(jié)構(gòu)化交通條件、文本提示和駕駛動(dòng)作作為輸入,實(shí)現(xiàn)了與真實(shí)世界駕駛情景緊密對(duì)齊的精確、逼真的視頻和動(dòng)作生成。
2.3 World Models
世界模型已在基于模型的模仿學(xué)習(xí)中得到廣泛探討,并在各種應(yīng)用中取得了顯著的成功。這些方法通常利用VAE和LSTM來(lái)建模轉(zhuǎn)換動(dòng)態(tài)和渲染功能。世界模型的目標(biāo)是建立環(huán)境的動(dòng)態(tài)模型,使代理能夠?qū)ξ磥?lái)有預(yù)測(cè)能力。在自動(dòng)駕駛領(lǐng)域,這一方面至關(guān)重要,因?yàn)閷?duì)未來(lái)的精確預(yù)測(cè)對(duì)安全操控至關(guān)重要。然而,在自動(dòng)駕駛中構(gòu)建世界模型面臨著獨(dú)特的挑戰(zhàn),主要是由于真實(shí)世界駕駛?cè)蝿?wù)中固有的高樣本復(fù)雜性。為了解決這些問題,ISO-Dream引入了對(duì)視覺動(dòng)態(tài)的明確解纏分為可控狀態(tài)和不可控狀態(tài)。MILE 將世界建模融入BEV語(yǔ)義分割空間中,通過(guò)模仿學(xué)習(xí)增強(qiáng)了世界建模。SEM2 將Dreamer框架擴(kuò)展到BEV分割圖中,采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。盡管在世界模型方面取得了進(jìn)展,但相關(guān)研究的一個(gè)關(guān)鍵局限性在于其主要關(guān)注模擬仿真環(huán)境。轉(zhuǎn)向真實(shí)世界駕駛情景仍然是一個(gè)未充分探索的領(lǐng)域。
3. DriveDremear方法設(shè)計(jì)
DriveDreamer的總體框架如下圖所示??蚣苁加诔跏紖⒖紟捌鋵?duì)應(yīng)的道路結(jié)構(gòu)信息(即HDMap和3D框)。DriveDreamer利用提出的ActionFormer來(lái)在潛在空間中預(yù)測(cè)即將到來(lái)的道路結(jié)構(gòu)特征。這些預(yù)測(cè)的特征作為條件提供給Auto-DM,后者生成未來(lái)的駕駛視頻。同時(shí),利用文本提示允許對(duì)駕駛情景風(fēng)格進(jìn)行動(dòng)態(tài)調(diào)整(例如,天氣和時(shí)間)。此外,DriveDreamer還結(jié)合了歷史行動(dòng)信息和從Auto-DM中提取的多尺度潛在特征,這些特征組合在一起生成合理的未來(lái)駕駛動(dòng)作。
圖2. DriveDreamer框架圖
DriveDreamer集成了多模態(tài)輸入,以生成未來(lái)的駕駛視頻和駕駛策略,從而提升了自動(dòng)駕駛系統(tǒng)的能力。關(guān)于在真實(shí)世界駕駛情景中建立世界模型的龐大搜索空間,我們引入了DriveDreamer的兩階段訓(xùn)練策略。這個(gè)策略旨在顯著提高采樣效率并加速模型的收斂速度。兩階段訓(xùn)練如下圖所示。在第一階段訓(xùn)練中有兩個(gè)步驟。第一步涉及使用單幀結(jié)構(gòu)化條件,引導(dǎo)DriveDreamer生成駕駛場(chǎng)景圖像,促進(jìn)其理解結(jié)構(gòu)性交通約束。第二步將其理解擴(kuò)展到視頻生成。利用交通結(jié)構(gòu)條件,DriveDreamer輸出駕駛場(chǎng)景視頻,進(jìn)一步增強(qiáng)了其對(duì)運(yùn)動(dòng)過(guò)渡的理解。在第二階段,訓(xùn)練的重點(diǎn)是使DriveDreamer能夠與環(huán)境互動(dòng)并有效地預(yù)測(cè)未來(lái)狀態(tài)。這個(gè)階段將初始幀圖像及其對(duì)應(yīng)的結(jié)構(gòu)化信息作為輸入。同時(shí),提供了順序駕駛動(dòng)作,模型被期望生成未來(lái)的駕駛視頻和未來(lái)的駕駛動(dòng)作。這種互動(dòng)賦予了DriveDreamer預(yù)測(cè)和操控未來(lái)駕駛情景的能力。在接下來(lái)的章節(jié)中,我們將深入探討模型架構(gòu)和訓(xùn)練流程的具體細(xì)節(jié)。
圖3. 兩階段訓(xùn)練流程圖
3.1 一階段訓(xùn)練
在DriveDreamer中,我們引入了Auto-DM,用于從真實(shí)世界駕駛視頻中建模和理解駕駛情景。值得注意的是,僅從像素空間理解駕駛場(chǎng)景在真實(shí)世界駕駛情景中存在挑戰(zhàn),因?yàn)樗阉骺臻g非常廣泛。為了緩解這一問題,我們明確地將結(jié)構(gòu)化交通信息作為條件輸入。Auto-DM的總體結(jié)構(gòu)如下圖所示,結(jié)構(gòu)化交通條件被投影到圖像平面上,生成HDMap條件,以及3D框條件,還有框的類別。為了實(shí)現(xiàn)可控性,HDMap條件被2D卷積編碼后與由前向擴(kuò)散過(guò)程生成的嘈雜的潛在特征進(jìn)行串聯(lián)處理。對(duì)于3D框條件,我們利用Gated Self-attention(參考GLIGEN)進(jìn)行控制條件的嵌入。為了進(jìn)一步增強(qiáng)Auto-DM對(duì)駕駛動(dòng)態(tài)的理解能力,我們引入了Temporal-attention,這些層增強(qiáng)了生成的駕駛視頻中的幀的連貫性:首先,我們將視覺信號(hào)從N×C×H×W重塑為RC×NHW的形狀。這種形狀變換有助于后續(xù)的自注意力層學(xué)習(xí)幀間的動(dòng)態(tài)關(guān)系。此外,還使用了Cross-attention來(lái)促進(jìn)文本輸入和視覺信號(hào)之間的特征交互,使文本描述能夠影響駕駛場(chǎng)景屬性,如天氣和時(shí)間。
圖4. Auto-DM框架圖
3.2 二階段訓(xùn)練
目前一階段的Auto-DM可以基于序列結(jié)構(gòu)信息生成駕駛視頻。然而,在視頻預(yù)測(cè)任務(wù)中,超過(guò)當(dāng)前時(shí)間戳的未來(lái)交通結(jié)構(gòu)條件是不可用的。為了解決這個(gè)挑戰(zhàn),我們?cè)诘诙A段的訓(xùn)練中引入了ActionFormer,它利用駕駛動(dòng)作來(lái)迭代預(yù)測(cè)未來(lái)的結(jié)構(gòu)條件。ActionFormer的總體架構(gòu)如下圖所示。首先,初始結(jié)構(gòu)條件被編碼并展平為1D特征。該特征特征通過(guò)自注意力和MLP層進(jìn)行串聯(lián)和匯總,生成隱藏狀態(tài)h0。隨后,利用交叉注意力層構(gòu)建了隱藏狀態(tài)和駕駛動(dòng)作之間的關(guān)聯(lián)。為了預(yù)測(cè)未來(lái)的隱藏狀態(tài),我們使用門控循環(huán)單元(GRUs)進(jìn)行迭代更新:這些隱藏狀態(tài)與動(dòng)作特征進(jìn)行串聯(lián),然后被解碼為未來(lái)的交通結(jié)構(gòu)條件。值得注意的是,ActionFormer在特征級(jí)別預(yù)測(cè)未來(lái)的交通結(jié)構(gòu)條件,這有助于減輕像素級(jí)別的噪音干擾,從而產(chǎn)生更魯棒的預(yù)測(cè)。除了ActionFormer生成的交通結(jié)構(gòu)條件和文本提示條件外,我們參考Video-LDM處理初始的圖像觀測(cè)。最后,我們將得到的交通結(jié)構(gòu)化條件、初始幀圖像條件、以及文本條件一起作為Auto-DM的輸入。在二階段訓(xùn)練中,視頻預(yù)測(cè)和動(dòng)作預(yù)測(cè)部分可以被建模為高斯分布和拉普拉斯分布。因此,我們使用均方差誤差和L1損失來(lái)優(yōu)化視頻預(yù)測(cè)的訓(xùn)練。對(duì)于駕駛策略的預(yù)測(cè),我們首先從Auto-DM中池化多尺度UNet特征。然后,將這些特征與歷史動(dòng)作特征串聯(lián)在一起,然后通過(guò)MLP層解碼生成未來(lái)的駕駛動(dòng)作。基于這兩階段的訓(xùn)練,DriveDreamer已經(jīng)獲得了對(duì)駕駛世界的全面理解,包括交通結(jié)構(gòu)的結(jié)構(gòu)約束、未來(lái)駕駛狀態(tài)的預(yù)測(cè)以及與已建立的世界模型進(jìn)行互動(dòng)。
圖5. ActionFormer結(jié)構(gòu)圖
4. 實(shí)驗(yàn)結(jié)果
4.1 可控視頻生成
如圖6所示,DriveDreamer在生成各種各樣嚴(yán)格遵循結(jié)構(gòu)化交通條件(包括HD地圖和3D框等元素)的駕駛場(chǎng)景視頻方面表現(xiàn)出效果。重要的是,我們還可以操控文本提示來(lái)誘發(fā)生成視頻的變化,包括天氣和一天中時(shí)間的變化。這種增強(qiáng)的適應(yīng)性顯著提高了生成視頻輸出的多樣性。除了利用結(jié)構(gòu)化交通條件生成駕駛視頻外,DriveDreamer還具備通過(guò)適應(yīng)不同駕駛動(dòng)作來(lái)增加生成的駕駛視頻多樣性的能力。如圖7所示,從初始幀及其對(duì)應(yīng)的結(jié)構(gòu)信息開始,DriveDreamer可以基于各種駕駛動(dòng)作生成不同的視頻,例如顯示左轉(zhuǎn)和右轉(zhuǎn)的視頻??傊?,DriveDreamer在生成廣泛范圍的駕駛場(chǎng)景視頻方面表現(xiàn)出色,具有高度可控性和多樣性。因此,DriveDreamer在培訓(xùn)自動(dòng)駕駛系統(tǒng)上具有巨大潛力,涵蓋了各種任務(wù),甚至包括邊際情況和長(zhǎng)尾場(chǎng)景。為了量化我們的兩階段訓(xùn)練方法的優(yōu)勢(shì),我們提供了定量評(píng)估(如表1所示),與DriveGAN相比,我們的方法在沒有第一階段訓(xùn)練的情況下獲得了更高的FID和FVD分?jǐn)?shù)。此外,我們的研究結(jié)果表明,經(jīng)過(guò)第一階段訓(xùn)練后的DriveDreamer表現(xiàn)出對(duì)駕駛場(chǎng)景中的結(jié)構(gòu)化信息的理解能力提高,從而生成更高質(zhì)量的視頻。最后,我們觀察到,所提出的ActionFormer有效地利用了第一階段訓(xùn)練期間獲得的交通結(jié)構(gòu)信息知識(shí)。進(jìn)一步提高了生成視頻的質(zhì)量。
圖6. 使用結(jié)構(gòu)化交通條件(HDMap和3D框)生成駕駛視頻,其中利用文本提示來(lái)調(diào)整駕駛情景的風(fēng)格(例如,天氣和時(shí)間)。
圖7. 基于駕駛策略生成未來(lái)駕駛視頻,不同的駕駛動(dòng)作(例如,左轉(zhuǎn),右轉(zhuǎn))可以產(chǎn)生相應(yīng)的駕駛視頻。
表1. 在nuScenes驗(yàn)證集上的視頻生成性能評(píng)測(cè)。
4.2 駕駛策略生成
除了生成可控的駕駛視頻外,DriveDreamer還展示了預(yù)測(cè)合理駕駛動(dòng)作的能力。如圖8所示,給定初始幀條件和過(guò)去的駕駛動(dòng)作,DriveDreamer可以生成與真實(shí)世界情景相符的未來(lái)駕駛動(dòng)作。與相應(yīng)的實(shí)際視頻進(jìn)行的生成動(dòng)作的比較分析表明,即使在復(fù)雜情況下,如十字路口、遵守交通信號(hào)燈和執(zhí)行轉(zhuǎn)彎,DriveDreamer仍然能夠一致地預(yù)測(cè)合理的駕駛動(dòng)作。此外,我們進(jìn)行了預(yù)測(cè)準(zhǔn)確性的定量評(píng)估。在nuScenes數(shù)據(jù)集上進(jìn)行的開環(huán)評(píng)估結(jié)果如表2所示。值得注意的是,僅使用歷史駕駛動(dòng)作作為輸入,DriveDreamer在預(yù)測(cè)未來(lái)駕駛動(dòng)作方面實(shí)現(xiàn)了高準(zhǔn)確性。偏航角的平均預(yù)測(cè)誤差僅為0.49°,速度預(yù)測(cè)誤差僅為0.15 m/s。此外,通過(guò)將多尺度UNet特征與歷史駕駛動(dòng)作結(jié)合使用,我們進(jìn)一步提高了預(yù)測(cè)準(zhǔn)確性。需要注意的是,開環(huán)評(píng)估具有固有的限制,限制了駕駛動(dòng)作預(yù)測(cè)的上限。因此,我們未來(lái)的工作將集中在閉環(huán)評(píng)估上,以進(jìn)一步驗(yàn)證和增強(qiáng)DriveDreamer的性能。
圖8. 預(yù)測(cè)未來(lái)駕駛動(dòng)作的可視化,以及相應(yīng)的實(shí)際駕駛視頻。
表2.在nuScenes驗(yàn)證集上的駕駛策略預(yù)測(cè)性能評(píng)測(cè)。
5. 總結(jié)和展望
DriveDreamer代表了在自動(dòng)駕駛領(lǐng)域中世界模型的重要探索,通過(guò)專注于真實(shí)世界的駕駛情境,并利用擴(kuò)散模型的能力,DriveDreamer展示了其理解復(fù)雜環(huán)境、生成高質(zhì)量駕駛視頻和預(yù)測(cè)駕駛策略的能力。未來(lái)的工作將包括使用由DriveDreamer生成的數(shù)據(jù)來(lái)訓(xùn)練駕駛的foundation model。此外,我們計(jì)劃擴(kuò)展DriveDreamer的能力,以進(jìn)行長(zhǎng)時(shí)間和高分辨率的視頻生成。此外,我們打算在閉環(huán)場(chǎng)景中評(píng)估DriveDreamer。這些努力將共同有助于增強(qiáng)世界建模在自動(dòng)駕駛應(yīng)用中的實(shí)用性。
原文鏈接:https://mp.weixin.qq.com/s/igon7SWjxqVL_gjGNm0H8A