自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

魔法降臨!港中文MagicDriveDiT:暴力提升生成質(zhì)量40%!

人工智能 智能汽車
今天為大家分享港中文&華為最新的工作—MagicDriveDiT!自動駕駛場景生成最新SOTA。

寫在前面 & 筆者的個人理解

擴(kuò)散模型的快速發(fā)展極大地改善了視頻合成,特別是在可控視頻生成方面,這對自動駕駛等應(yīng)用至關(guān)重要。然而,現(xiàn)有的方法受到可擴(kuò)展性和控制條件集成方式的限制,無法滿足自動駕駛應(yīng)用對高分辨率和長視頻的需求。本文介紹了一種基于DiT架構(gòu)的新方法MagicDriveDiT,并解決了這些挑戰(zhàn)。我們的方法通過流匹配增強(qiáng)了可擴(kuò)展性,并采用漸進(jìn)式訓(xùn)練策略來管理復(fù)雜的場景。通過結(jié)合時空條件編碼,MagicDriveDiT實現(xiàn)了對時空延遲的精確控制。綜合實驗表明,它在生成具有更高分辨率和更多幀的逼真街道場景視頻方面具有優(yōu)越的性能。Magic-DriveDiT顯著提高了視頻生成質(zhì)量和時空控制,擴(kuò)大了其在自動駕駛各種任務(wù)中的潛在應(yīng)用。

  • 項目主頁:https://gaoruiyuan.com/magicdrivedit/

圖片

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  • 本文設(shè)計了一個高效的框架MagicDriveDiT,利用漸進(jìn)式引導(dǎo)來實現(xiàn)高質(zhì)量的高分辨率長視頻生成。
  • 為目標(biāo)位置、道路語義和相機(jī)軌跡開發(fā)了新的時空控制,同時保持了多幀、多視圖的一致性。
  • MagicDriveDiT通過混合分辨率和持續(xù)時間訓(xùn)練,從圖像到視頻生成都得到了很好的推廣,具有外推能力,大大超過了之前工作中的分辨率和幀數(shù)。

相關(guān)工作回顧

自動駕駛中的視頻生成。視頻生成對于自動駕駛至關(guān)重要,可應(yīng)用于訓(xùn)練感知模型、測試和場景重建。它需要廣闊的視野和動態(tài)目標(biāo)運動處理,需要生成模型可控性和具有更多幀和多相機(jī)視角的高分辨率視頻制作。擴(kuò)散模型改進(jìn)了可控多視圖視頻生成,但現(xiàn)有模型缺乏足夠的分辨率和幀數(shù),無法用于數(shù)據(jù)引擎應(yīng)用和策略測試。如表1所示,我們的工作MagicDriveDiT在自動駕駛視頻生成方面實現(xiàn)了前所未有的分辨率和幀數(shù)。

圖片

擴(kuò)散模型和DiT架構(gòu)。擴(kuò)散模型通過學(xué)習(xí)從高斯噪聲到樣本的去噪步驟來生成數(shù)據(jù),廣泛應(yīng)用于圖像和視頻生成。從建模的角度來看,流匹配簡化了擴(kuò)散模型的建模,提高了訓(xùn)練和推理的效率。從實現(xiàn)的角度來看,由于更好的可擴(kuò)展性,擴(kuò)散模型的架構(gòu)從UNet轉(zhuǎn)變?yōu)镈iT,特別是對于高分辨率任務(wù)。我們的MagicDriveDiT還利用流匹配和DiT來擴(kuò)展到高分辨率和長視頻生成。

圖片

有條件生成。條件生成對于使用生成模型的各種應(yīng)用程序至關(guān)重要。LDM和ControlNet的網(wǎng)格形控制信號加性編碼的交叉關(guān)注層是可控擴(kuò)散生成的領(lǐng)先方法。在街景生成中,MagicDrive和MagicDrive3D集成了3D邊界框、BEV地圖、自車軌跡和相機(jī)姿態(tài),用于多視圖街景合成。然而,這些方法僅限于空間編碼,并不直接適用于時空VAE延遲,如圖2所示。MagicDriveDiT為時空壓縮的VAE延遲提供了一種新的控制范式,使高分辨率長視頻的生成可控。

MagicDriveDiT方法詳解

圖片

對于圖3所示的模型架構(gòu),MagicDriveDiT引入了一種基于DiT的新型擴(kuò)散模型,用于可控街景生成,,該模型利用STDiT-3塊。這些塊具有單獨的空間和時間模塊,以增強(qiáng)信息處理。

架構(gòu)設(shè)計包含兩個重大修改。首先為了促進(jìn)多視圖生成,多視圖DiT(MVDiT)塊集成了一個跨視圖注意力層,如圖3左側(cè)所示。其次,考慮到需要處理多個控制元素,MagicDriveDiT對文本、框、相機(jī)視圖和軌跡采用交叉注意力,同時對地圖采用額外的分支來輸入控制信號。

然而如圖2所示,控制信號的空間編碼與時空潛伏期不兼容。因此,每個控制信號的編碼器都被重新制定,如圖3右側(cè)的時空框編碼器所示。

此外,MagicDriveDiT采用漸進(jìn)式引導(dǎo)訓(xùn)練策略,從圖像過渡到低分辨率和短視頻,最終過渡到高分辨率和長視頻,以增強(qiáng)擴(kuò)散模型的收斂性。最后的訓(xùn)練階段包含可變長度和分辨率的視頻,使模型能夠生成不同分辨率的圖像和視頻,并推斷出訓(xùn)練設(shè)置之外的更長幀數(shù)。

Design for High-Resolution Long Video

DiT和3D VAE。用于高分辨率和長視頻生成的訓(xùn)練擴(kuò)散模型是計算密集型的,需要大量的GPU內(nèi)存。DiT和3D VAE在這些方面對擴(kuò)散模型的縮放至關(guān)重要。

正如Peebles和Xie所指出的那樣,模型Gflops和FID之間存在很強(qiáng)的負(fù)相關(guān)關(guān)系,這使得DiT在計算效率方面優(yōu)于UNet等架構(gòu)。對于GPU內(nèi)存,3D VAE提供時間降采樣。典型的2D VAE在高度和寬度上都將圖像壓縮8倍,達(dá)到64倍的壓縮比。相比之下,3D VAE將時間信息壓縮了4倍,得到了256倍的壓縮比,顯著減少了壓縮后的潛在序列長度和內(nèi)存消耗,這對轉(zhuǎn)換器特別有利。此外,架構(gòu)統(tǒng)一的趨勢允許DiT利用先進(jìn)的并行化方法,例如序列并行,來克服單個GPU內(nèi)存的限制,從而促進(jìn)更高的分辨率和更長的視頻生成。

采用3D VAE的一個主要挑戰(zhàn)是幾何控制。如圖2所示,幾何控制在空間上管理每幀內(nèi)容。使用2D VAE,T幀被編碼為T延遲。使用T幾何描述符,視頻幾何控制降級為對圖像的空間控制,因為控制信號和延遲在時間上是對齊的。然而,3D VAE會產(chǎn)生T/f延遲(其中f是時間壓縮比),使控制信號與延遲不匹配,并使之前的控制技術(shù)無效。

Spatial-Temporal Conditioning Techniques。對于MagicDriveDiT中的幾何控制,我們引入了時空編碼來將控制信號與時空延遲對齊。這涉及重新對齊場景描述符中的貼圖、框和軌跡。以網(wǎng)格數(shù)據(jù)表示的地圖易于管理。通過擴(kuò)展ControlNet的設(shè)計,我們利用3D VAE中具有新可訓(xùn)練參數(shù)的時間下采樣模塊來對齊控制塊和基塊之間的特征,如圖4(a)所示。

圖片

對于3D框,填充應(yīng)用于不可見的框,以保持視圖和幀之間框序列長度的一致性,如圖3右側(cè)所示。我們使用帶有時間變換器和RoPE的下采樣模塊來捕獲時間相關(guān)性,創(chuàng)建與視頻延遲對齊的時空嵌入,如圖4(b)所示。通過用相機(jī)姿勢的MLP替換盒子的MLP,盒子的時空編碼器也可以適應(yīng)自車軌跡。所有下采樣比都與采用的3D VAE對齊,即分別以8n或8n+1作為輸入,2n或2n+1作為輸出。

Progressive Bootstrap Training

為了在訓(xùn)練過程中加快模型收斂,我們根據(jù)單次訓(xùn)練迭代的持續(xù)時間來調(diào)度訓(xùn)練數(shù)據(jù)。具體來說,我們采用三階段訓(xùn)練方法:最初使用低分辨率圖像進(jìn)行引導(dǎo)訓(xùn)練,過渡到低分辨率短視頻,最終采用高分辨率長視頻訓(xùn)練。

這種訓(xùn)練策略基于兩個觀察結(jié)果。首先,在可控生成中,我們注意到,在學(xué)習(xí)可控性之前,該模型最初會針對更高的內(nèi)容質(zhì)量進(jìn)行優(yōu)化,Gao等人也觀察到了這種模式。從頭開始訓(xùn)練模型需要多次迭代才能收斂。我們的漸進(jìn)過渡方法使模型能夠更快地獲得可控性。其次,在階段轉(zhuǎn)換期間,我們發(fā)現(xiàn)與長視頻可控性相比,該模型更快地適應(yīng)高分辨率。因此,我們從第一階段開始訓(xùn)練可控性,并專注于用(短)視頻而不是圖像優(yōu)化更多的迭代。

Variable Length and Resolution Adaptation

如前文所述,我們采用三階段訓(xùn)練流程。在最后兩個階段,我們將不同分辨率和長度的視頻用于訓(xùn)練。具體來說,在第二階段,我們使用長度不超過65幀、最大分辨率為424×800的視頻混合進(jìn)行訓(xùn)練。在第三階段,我們混合了高達(dá)241幀(數(shù)據(jù)集的最大幀數(shù))和高達(dá)848×1600(數(shù)據(jù)集最大分辨率)的視頻。

與單一分辨率和長度的訓(xùn)練相比,這種混合方法使模型能夠快速理解分辨率和幀數(shù)維度的信息。因此,我們的最終模型支持生成各種分辨率(224×400、424×800、848×1600)和幀數(shù)(1-241幀)。它還支持跨兩個維度的外推,允許在訓(xùn)練配置之外進(jìn)行采樣,例如129幀時的848×1600或241幀時的424×800。

實驗

結(jié)果和分析

生成質(zhì)量。MagicDriveDiT在視頻和圖像生成任務(wù)方面都表現(xiàn)出色。在視頻任務(wù)中,與MagicDrive相比,它顯著降低了FVD(表2),這是由于DiT架構(gòu)增強(qiáng)了幀間一致性和時空條件編碼,用于精確控制目標(biāo)運動和定位。如圖6所示,MagicDriveDiT生成的高分辨率視頻不僅可以提高質(zhì)量,還可以包含更復(fù)雜的細(xì)節(jié),與真實相機(jī)拍攝的鏡頭非常相似。這一增強(qiáng)是通過我們對可變長度和分辨率的高級訓(xùn)練實現(xiàn)的,可以實現(xiàn)更真實和詳細(xì)的輸出。

圖片圖片

MagicDriveDiT也受益于混合訓(xùn)練方法,能夠生成圖像。如表3所示,MagicDriveDiT在多視圖街景任務(wù)中與基線性能相匹配,在車輛分割mIoU和目標(biāo)檢測mAP中超越了基線。這展示了我們時空條件編碼的強(qiáng)大泛化能力。

圖片圖片

可控性。表2和表3中的定量結(jié)果表明,MagicDriveDiT生成的圖像和視頻有效地反映了控制條件。此外,圖8提供了可視化結(jié)果,表明多個控制條件可以獨立影響生成的內(nèi)容。例如,天氣可以通過文本輸入(從晴天到雨天)來改變,同時保持道路結(jié)構(gòu)以及其他車輛和自車的軌跡。通過改變條件的組合,MagicDriveDiT能夠制作各種高質(zhì)量的街景視頻。

圖片

消融實驗

圖片

街道景觀的VAE比較。在訓(xùn)練擴(kuò)散模型之前,我們評估了開源3D VAE(即CogVAE和Open Sora)在街景上的性能,并與2D SD VAE進(jìn)行了比較。如圖7所示,CogVAE在重建能力方面始終優(yōu)于同行。此外,如附錄E所示,CogVAE在較長的視頻序列上表現(xiàn)出最小的性能下降,使其特別適合長視頻生成任務(wù)。此外,我們發(fā)現(xiàn)所有VAE都表現(xiàn)出隨著分辨率的提高而提高的重建能力。這種見解有助于通過專注于更高分辨率的輸出來提高我們的模型生成高質(zhì)量圖像和視頻的能力。

圖片

時空Conditioning。我們通過過擬合實驗中的驗證損失(圖9)和可視化比較(圖10)證明了時空編碼器的有效性。我們比較了兩種基線:全局時間維度縮減(Reduce)和時間維度插值(Interp.)進(jìn)行對齊。在16個樣本的過擬合訓(xùn)練中,4×下采樣技術(shù)(我們的4×下)加速了收斂,并實現(xiàn)了最低的最終驗證損失,如圖9所示。此外,圖10顯示,與全局縮減基線不同,4×down可以減少偽影并保持精確的運動軌跡。這些結(jié)果證實了時空編碼器利用時空延遲增強(qiáng)數(shù)據(jù)編碼和提高視頻生成性能的能力。

圖片

漸進(jìn)式Bootstrap訓(xùn)練。與直接的第3階段訓(xùn)練相比,三階段漸進(jìn)訓(xùn)練方法顯著提高了模型訓(xùn)練效率。表4顯示,例如,在4天內(nèi),階段1執(zhí)行的迭代次數(shù)比階段3多約60倍,階段2實現(xiàn)的迭代次數(shù)多約7倍。漸進(jìn)式訓(xùn)練對于受控生成模型至關(guān)重要,可控生成模型需要大量迭代才能有效收斂。漸進(jìn)式策略能夠快速獲得高質(zhì)量的視頻生成能力,在早期階段利用更快的迭代來增強(qiáng)收斂性和加快學(xué)習(xí)速度。

圖片

可變長度和分辨率訓(xùn)練。MagicDriveDiT采用了一種混合不同長度和分辨率視頻的訓(xùn)練策略。我們的消融研究證明了這一策略的有效性。如表5所示,當(dāng)僅使用低分辨率視頻(17×224×400)時,VAE的局限性是顯而易見的,與其他設(shè)置相比,F(xiàn)VD較差,mAP和mIoU評分較低。合并較長的視頻可以提高模型的可控性(mAP和mIoU都更高),而合并高分辨率視頻可以提高整體質(zhì)量(所有三個指標(biāo)都得到了顯著改善)。

圖片

盡管混合不同的幀長度會略微降低FVD,但這對于使模型能夠生成各種長度的視頻并推斷出看不見的長度至關(guān)重要(見第6節(jié))。因此,我們結(jié)合了分辨率和幀長,有效地平衡了視頻質(zhì)量、可控性和模型功能之間的權(quán)衡。

圖片

結(jié)論和討論

在這篇論文中,我們介紹了MagicDriveDiT,這是一個具有精確控制的高分辨率和長視頻合成的創(chuàng)新框架,專門為自動駕駛等應(yīng)用量身定制。通過利用DiT架構(gòu)和流匹配,MagicDriveDiT有效地解決了視頻生成中可擴(kuò)展性和幾何控制的挑戰(zhàn)。我們的方法引入了新穎的時空條件編碼和具有可變長度和分辨率自適應(yīng)的漸進(jìn)自舉策略,增強(qiáng)了模型的泛化能力。大量實驗表明,MagicDriveDiT可以生成保持空間和時間連貫性的逼真視頻,在分辨率和幀數(shù)方面大大超過了以前的方法。這項工作推進(jìn)了視頻合成,并為自動駕駛中的模擬和其他應(yīng)用開辟了新的可能性。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2025-04-09 09:10:00

AI生成模型

2022-03-25 09:22:42

代碼開發(fā)

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2025-01-14 11:00:00

視覺生成模型

2020-09-07 14:15:16

AI 數(shù)據(jù)人工智能

2009-05-07 08:48:16

iPhone蘋果移動OS

2024-12-03 09:49:07

2024-12-12 10:20:00

自動駕駛生成

2017-01-20 09:45:20

JavaScript代碼質(zhì)量

2024-09-11 09:36:13

2022-01-06 16:05:16

戴爾

2024-12-30 13:40:00

2021-12-02 09:54:11

Python 開發(fā)編程語言

2025-03-04 00:00:33

2024-11-05 13:40:00

2022-07-17 13:07:26

模型開源

2017-05-26 10:45:49

云計算公有云質(zhì)量
點贊
收藏

51CTO技術(shù)棧公眾號