直接干到未來!DriveDreamer-2:世界首個(gè)自定義駕駛場(chǎng)景流生成,提升50%!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
世界車型在自動(dòng)駕駛方面表現(xiàn)出了優(yōu)勢(shì),尤其是在多視圖駕駛視頻的生成方面。然而,在生成自定義駕駛視頻方面仍然存在重大挑戰(zhàn)。在本文中,我們提出了DriveDreamer-2,它建立在DriveDreamer的框架上,并結(jié)合了一個(gè)大語言模型(LLM)來生成用戶定義的駕駛視頻。具體來說,LLM接口最初被合并以將用戶的查詢轉(zhuǎn)換為代理軌跡。隨后,根據(jù)軌跡生成符合交通規(guī)則的HDMap。最終,我們提出了統(tǒng)一多視圖模型,以增強(qiáng)生成的駕駛視頻的時(shí)間和空間連貫性。DriveDreamer-2是世界上第一款生成自定義駕駛視頻的世界模型,它可以以用戶友好的方式生成不常見的駕駛視頻(例如,車輛突然駛?cè)耄4送?,?shí)驗(yàn)結(jié)果表明,生成的視頻增強(qiáng)了駕駛感知方法(如3D檢測(cè)和跟蹤)的訓(xùn)練。此外,DriveDreamer-2的視頻生成質(zhì)量超過了其他最先進(jìn)的方法,F(xiàn)ID和FVD得分分別為11.2和55.7,相對(duì)提高了~30%和~50%。
- 開源鏈接:https://drivedreamer2.github.io/
總結(jié)來說,本文的主要貢獻(xiàn)如下:
- 我們推出DriveDreamer-2,這是世界上第一款以用戶友好的方式生成虛擬駕駛視頻的車型。
- 我們提出了一種僅使用文本提示作為輸入的交通仿真管道,可用于生成用于駕駛視頻生成的各種交通條件。
- UniMVM旨在無縫集成視圖內(nèi)和視圖間的空間一致性,提高生成的駕駛視頻的整體時(shí)間和空間一致性。
- 大量實(shí)驗(yàn)表明,DriveDreamer-2可以制作各種定制的駕駛視頻。此外,DriveDreamer-2與以前性能最好的方法相比,可將FID和FVD提高約30%和約50%。此外,DriveDreamer-2生成的駕駛視頻增強(qiáng)了對(duì)各種駕駛感知方法的訓(xùn)練。
相關(guān)工作回顧
世界模型
世界方法的主要目標(biāo)是建立動(dòng)態(tài)環(huán)境模型,賦予主體對(duì)未來的預(yù)測(cè)能力。在早期的探索中,變分自動(dòng)編碼器(VAE)和長(zhǎng)短期記憶(LSTM)被用于捕捉過渡動(dòng)力學(xué)和排序功能,在不同的應(yīng)用中顯示出顯著的成功。構(gòu)建駕駛世界模型帶來了獨(dú)特的挑戰(zhàn),主要源于現(xiàn)實(shí)世界駕駛?cè)蝿?wù)固有的高樣本復(fù)雜性。為了應(yīng)對(duì)這些挑戰(zhàn),ISO Dream引入了將視覺動(dòng)力學(xué)明確分解為可控和不可控狀態(tài)的方法。MILE戰(zhàn)略性地將世界建模納入鳥瞰圖(BEV)語義分割空間。最近,DriveDreamer、GAIA-1、ADriver-I和Drive-WM探索了利用強(qiáng)大的擴(kuò)散模型或自然語言模型在現(xiàn)實(shí)世界中訓(xùn)練駕駛世界模型。然而,這些方法中的大多數(shù)在很大程度上依賴于結(jié)構(gòu)化信息(例如,3D框 、HDMaps和光流)作為條件。這種獨(dú)立性不僅限制了互動(dòng)性,也限制了世代的多樣性。
視頻生成
視頻生成和預(yù)測(cè)是理解視覺世界的關(guān)鍵技術(shù)。在視頻生成的早期階段,探索了變分自動(dòng)編碼器(VAE)、基于流的模型和生成對(duì)抗網(wǎng)絡(luò)(GANs)等方法。語言模型也用于復(fù)雜的視覺動(dòng)力學(xué)建模。最近的進(jìn)展表明,擴(kuò)散模型對(duì)視頻生成的影響越來越大。值得注意的是,視頻擴(kuò)散模型在生成具有逼真幀和平滑過渡的高質(zhì)量視頻方面表現(xiàn)出卓越的能力,提供了增強(qiáng)的可控性。這些模型無縫地適應(yīng)各種輸入條件,包括文本、canny、草圖、語義圖和深度圖。在自動(dòng)駕駛領(lǐng)域,DriveDreamer-2利用強(qiáng)大的擴(kuò)散模型學(xué)習(xí)視覺動(dòng)力學(xué)。
交通仿真
駕駛仿真器是自動(dòng)駕駛開發(fā)的基石,旨在提供一個(gè)仿真真實(shí)世界條件的受控環(huán)境。LCTGen使用LLM將詳細(xì)的語言描述編碼為向量,然后使用生成器生成相應(yīng)的仿真場(chǎng)景。這種方法需要高度詳細(xì)的語言描述,包括代理的速度和方向等信息。TrafficGen理解交通場(chǎng)景中的固有關(guān)系,從而能夠在同一地圖內(nèi)生成多樣化和合法的交通流。CTG通過采用符合交通約束的手動(dòng)設(shè)計(jì)的損失函數(shù)來生成交通仿真。CTG++進(jìn)一步擴(kuò)展了CTG,利用GPT-4將用戶語言描述轉(zhuǎn)換為損失函數(shù),該函數(shù)指導(dǎo)場(chǎng)景級(jí)條件擴(kuò)散模型生成相應(yīng)的場(chǎng)景。在DriveDreamer-2中,我們構(gòu)建了一個(gè)函數(shù)庫來微調(diào)LLM,以實(shí)現(xiàn)用戶友好的文本到流量仿真,消除了復(fù)雜的損失設(shè)計(jì)或復(fù)雜的文本提示輸入。
詳解DriveDreamer-2
圖2展示了DriveDreamer-2的總體框架。首先提出了一種定制的交通仿真來生成前臺(tái)代理軌跡和后臺(tái)HDMaps。具體而言,DriveDreamer-2利用微調(diào)后的LLM將用戶提示轉(zhuǎn)換為代理軌跡,然后引入HDMap生成器,使用生成的軌跡作為條件來仿真道路結(jié)構(gòu)。DriveDreamer-2利用定制的流量仿真管道,能夠?yàn)楹罄m(xù)視頻生成生成生成各種結(jié)構(gòu)化條件。在DriveDreamer架構(gòu)的基礎(chǔ)上,提出了UniMVM框架,以統(tǒng)一視圖內(nèi)和視圖間的空間一致性,從而增強(qiáng)生成的駕駛視頻的整體時(shí)間和空間一致性。在接下來的章節(jié)中,我們將深入研究定制交通fang'zhen和UniMVM框架的細(xì)節(jié)。
自定義交通仿真
在所提出的定制交通仿真管道中,構(gòu)建了一個(gè)軌跡生成函數(shù)庫來微調(diào)LLM,這有助于將用戶提示轉(zhuǎn)移到不同的代理軌跡中,包括切入和掉頭等動(dòng)作。此外,該管道包含HDMap生成器,用于仿真背景道路結(jié)構(gòu)。在此階段,先前生成的代理軌跡充當(dāng)條件輸入,確保生成的HDMap符合流量約束。在下文中,我們將詳細(xì)介紹LLM的微調(diào)過程和HDMap生成器的框架。
用于軌跡生成的微調(diào)LLM以前的交通仿真方法需要復(fù)雜的參數(shù)規(guī)范,包括代理的速度、位置、加速度和任務(wù)目標(biāo)等細(xì)節(jié)。為了簡(jiǎn)化這一復(fù)雜的過程,我們建議使用構(gòu)建的軌跡生成函數(shù)庫對(duì)LLM進(jìn)行微調(diào),從而將用戶友好的語言輸入有效地轉(zhuǎn)換為全面的交通仿真場(chǎng)景。如圖3所示,構(gòu)建的函數(shù)庫包括18個(gè)函數(shù),包括代理函數(shù)(轉(zhuǎn)向、等速、加速度和制動(dòng))、行人函數(shù)(行走方向和速度)以及其他實(shí)用函數(shù),如保存軌跡。在這些函數(shù)的基礎(chǔ)上,文本到Python腳本對(duì)是手動(dòng)策劃的,用于微調(diào)LLM(GPT-3.5)。腳本包括一系列基本場(chǎng)景,如變道、超車、跟隨其他車輛和執(zhí)行掉頭。此外,我們還包括更不常見的情況,如行人突然橫穿馬路,車輛駛?cè)胲嚨馈R杂脩糨斎氲能囕v切入為例,相應(yīng)的腳本包括以下步驟:首先生成切入軌跡(agent.cut_in()),然后生成相應(yīng)的ego-car軌跡(agent.forward());最后利用實(shí)用程序的保存功能,以數(shù)組形式直接輸出ego-car和其他代理的軌跡。有關(guān)更多詳細(xì)信息,請(qǐng)參閱補(bǔ)充材料。在推理階段,我們將提示輸入擴(kuò)展到預(yù)定義的模板,微調(diào)后的LLM可以直接輸出軌跡陣列。
HDMap生成綜合交通仿真不僅需要前臺(tái)代理的軌跡,還需要生成后臺(tái)HDMap元素,如車道和人行橫道。因此,提出了HDMap生成器,以確保背景元素與前景軌跡不沖突。在HDMap生成器中,我們將背景元素生成公式化為條件圖像生成問題,其中條件輸入是BEV軌跡圖,目標(biāo)是BEV HDMap。與以前主要依賴于輪廓條件(邊緣、深度、方框、分割圖)的條件圖像生成方法不同,所提出的HDMap生成器探索前景和背景交通元素之間的相關(guān)性。具體地,HDMap生成器是在圖像生成擴(kuò)散模型上構(gòu)建的。為了訓(xùn)練生成器,我們對(duì)HDMap數(shù)據(jù)集進(jìn)行軌跡規(guī)劃。在軌跡圖中,指定不同的顏色來表示不同的代理類別。同時(shí),目標(biāo)HDMap包括三個(gè)通道,分別表示車道邊界、車道分隔線和行人交叉口。在HDMap生成器中,我們使用2D卷積層的堆棧來合并軌跡圖條件。然后,使用將生成的特征圖無縫集成到擴(kuò)散模型中(有關(guān)其他架構(gòu)詳細(xì)信息,請(qǐng)參見補(bǔ)充)。在訓(xùn)練階段,擴(kuò)散正向過程逐漸將噪聲ε添加到潛在特征中,從而產(chǎn)生噪聲潛在特征。然后我們訓(xùn)練εθ來預(yù)測(cè)我們添加的噪聲,并且HDMap生成器φ通過:
如圖4所示,利用所提出的HDMap生成器,我們可以基于相同的軌跡條件生成不同的HDMap。值得注意的是,生成的HDMaps不僅遵守交通約束(位于車道分隔帶兩側(cè)的車道邊界和十字路口的人行橫道),而且與軌跡無縫集成。
UniMVM
利用定制交通仿真生成的結(jié)構(gòu)化信息,可以通過DriveDreamer的框架生成多視圖駕駛視頻。然而,在以前的方法中引入的視圖關(guān)注并不能保證多視圖的一致性。為了緩解這個(gè)問題,采用圖像或視頻條件來生成多視圖駕駛視頻。雖然這種方法增強(qiáng)了不同觀點(diǎn)之間的一致性,但它是以降低發(fā)電效率和多樣性為代價(jià)的。在DriveDreamer-2中,我們?cè)贒riveDreamer框架中引入了UniMVM。UniMVM旨在統(tǒng)一多視圖駕駛視頻的生成,無論是否具有相鄰視圖條件,這確保了時(shí)間和空間的一致性,而不會(huì)影響生成速度和多樣性。
多視圖視頻聯(lián)合分布可以通過以下方式獲得:
如圖5所示,我們將UniMVM的范式與DriveDreamer[56]和Drive-WM[59]的范式進(jìn)行了比較。與這些同行相比,UniMVM將多個(gè)視圖統(tǒng)一為一個(gè)完整的視頻生成補(bǔ)丁,而不引入跨視圖參數(shù)。此外,可以通過調(diào)整掩碼m來完成各種驅(qū)動(dòng)視頻生成任務(wù)。特別地,當(dāng)m被設(shè)置為掩碼未來的T?1幀時(shí),UniMVM基于第一幀的輸入啟用未來視頻預(yù)測(cè)。將m配置為屏蔽{FL、FR、BR、B、BL}視圖,使UniMVM能夠利用前視圖視頻輸入實(shí)現(xiàn)多視圖視頻輸出。此外,當(dāng)m被設(shè)置為屏蔽所有視頻幀時(shí),UniMVM可以生成多視圖視頻,并且定量和定性實(shí)驗(yàn)都驗(yàn)證了UniMVM能夠以增強(qiáng)的效率和多樣性生成時(shí)間和空間相干的視頻。
視頻生成基于UniMVM公式,可以在DriveDreamer[56]的框架內(nèi)生成駕駛視頻。具體來說,我們的方法首先統(tǒng)一了交通結(jié)構(gòu)化條件,這導(dǎo)致了HDMaps和3D盒子的序列。注意,3D框的序列可以從代理軌跡導(dǎo)出,并且3D框的大小是基于相應(yīng)的代理類別來確定的。與DriveDreamer不同,DriveDreamer-2中的3D盒子條件不再依賴于位置嵌入和類別嵌入。相反,這些框被直接投影到圖像平面上,起到控制條件的作用。這種方法消除了引入額外的控制參數(shù),如[56]中所述。我們采用三個(gè)編碼器將HDMaps、3D框和圖像幀嵌入到潛在空間特征yH、yB和yI中。然后,我們將空間對(duì)齊的條件yH,yB與Zt連接起來,以獲得特征輸入Zin,其中Zt是通過前向擴(kuò)散過程從yI生成的噪聲潛在特征。對(duì)于視頻生成器的訓(xùn)練,所有參數(shù)都通過去噪分?jǐn)?shù)匹配進(jìn)行優(yōu)化[26](詳見補(bǔ)充)。
實(shí)驗(yàn)
用戶自定義駕駛視頻生成
DriveDreamer-2提供了一個(gè)用戶友好的界面,用于生成駕駛視頻。如圖1a所示,用戶只需要輸入文本提示(例如,在雨天,有一輛汽車駛?cè)耄?。然后DriveDreamer-2生成與文本輸入對(duì)齊的多視圖駕駛視頻。圖6展示了另外兩個(gè)自定義駕駛視頻。上圖描繪了白天ego汽車向左變道的過程。下圖展示了一個(gè)意想不到的行人在夜間橫穿馬路,促使ego汽車剎車以避免碰撞。值得注意的是,生成的視頻展示了非凡的真實(shí)感,我們甚至可以觀察到遠(yuǎn)光燈在行人身上的反射。
生成視頻的質(zhì)量評(píng)估
為了驗(yàn)證視頻生成質(zhì)量,我們將DriveDreamer-2與nuScenes驗(yàn)證集上的各種駕駛視頻生成方法進(jìn)行了比較。為了進(jìn)行公平的比較,我們?cè)谌N不同的實(shí)驗(yàn)設(shè)置下進(jìn)行了評(píng)估——無圖像條件、有視頻條件和第一幀多視圖圖像條件。實(shí)驗(yàn)結(jié)果如表1所示,表明DriveDreamer-2在所有三種設(shè)置中都能始終如一地獲得高質(zhì)量的評(píng)估結(jié)果。具體而言,在沒有圖像條件的情況下,DriveDreamer-2的FID為25.0,F(xiàn)VD為105.1,顯示出比DriveDreamer的顯著改進(jìn)。此外,盡管僅限于單視圖視頻條件,但與使用三視圖視頻條件的DriveWM相比,DriveDreamer-2在FVD方面表現(xiàn)出39%的相對(duì)改善。此外,當(dāng)提供第一幀多視圖圖像條件時(shí),DriveDreamer-2實(shí)現(xiàn)了11.2的FID和55.7的FVD,大大超過了以前的所有方法。
更多可視化:
結(jié)論和討論
本文介紹了DriveDreamer-2,這是DriveDreamer框架的創(chuàng)新擴(kuò)展,開創(chuàng)了用戶自定義駕駛視頻的生成。DriveDreamer-2利用大型語言模型,首先將用戶查詢轉(zhuǎn)移到前臺(tái)代理軌跡中。然后,可以使用所提出的HDMap生成器生成背景交通狀況,并將代理軌跡作為條件。生成的結(jié)構(gòu)化條件可以用于視頻生成,我們提出了UniMVM來增強(qiáng)時(shí)間和空間的一致性。我們進(jìn)行了廣泛的實(shí)驗(yàn)來驗(yàn)證DriveDreamer-2可以生成不常見的駕駛視頻,例如車輛的突然機(jī)動(dòng)。重要的是,實(shí)驗(yàn)結(jié)果展示了生成的視頻在增強(qiáng)駕駛感知方法訓(xùn)練方面的效用。此外,與最先進(jìn)的方法相比,DriveDreamer-2顯示出卓越的視頻生成質(zhì)量,F(xiàn)ID和FVD得分分別為11.2和55.7。這些分?jǐn)?shù)代表了大約30%和50%的顯著相對(duì)改進(jìn),肯定了DriveDreamer-2在多視圖駕駛視頻生成方面的功效和進(jìn)步。