突破自動(dòng)駕駛視頻生成極限:港中文&港科大&華為聯(lián)手推出MagicDriveDiT
可控視頻生成,對于自動(dòng)駕駛技術(shù)而言,同樣非常重要。
比如,生成高質(zhì)量、長時(shí)間且可控的高質(zhì)量街景視頻,可以滿足開發(fā)自動(dòng)駕駛應(yīng)用的數(shù)據(jù)缺口。
現(xiàn)在,香港中文大學(xué)、香港科技大學(xué)和華為聯(lián)手向這一長期挑戰(zhàn)發(fā)起了沖鋒:推出MagicDriveDiT,重新定義自動(dòng)駕駛視頻生成的標(biāo)準(zhǔn)。
目前該工作同時(shí)支持昇騰Ascend NPU以及NVIDIA GPU訓(xùn)練和推理。
具體而言,MagicDriveDiT基于DiT架構(gòu)設(shè)計(jì)。通過流匹配技術(shù)和漸進(jìn)式訓(xùn)練策略,MagicDriveDiT不僅提升了系統(tǒng)的擴(kuò)展能力,還能有效生成復(fù)雜場景。這一方法極大地提高了視頻生成的質(zhì)量,尤其是在生成高分辨率和長時(shí)間視頻方面表現(xiàn)突出。
精確場景控制
先來看MagicDriverDiT的生成效果。
通過精確的場景控制,MagicDriveDiT可以生成許多少見的行駛路況。
比如無信號燈路口讓行:
路邊起步變道:
以及夜間行車等。
值得一提的是,MagicDriveDiT既支持單個(gè)物體的精確控制:
也支持復(fù)雜的自車3D軌跡控制。
MagicDriveDiT的整體設(shè)計(jì)框架
架構(gòu)設(shè)計(jì)方面,首先,MagicDriveDiT將跨視角一致性模塊引入STDiT3的基礎(chǔ)模塊中,提出了MVDiT模塊來處理多視角視頻合成。
其次,對于自動(dòng)駕駛場景中常見的多種控制,MagicDriveDiT在STDiT3的基礎(chǔ)上采用額外的控制分支以及交叉注意力分別處理不同的控制種類信號。
此前的視頻生成都是基于2DVAE編碼實(shí)現(xiàn)的,控制條件的空間編碼模塊并不適用于3DVAE的時(shí)空潛變量。針對現(xiàn)有方法在可擴(kuò)展性和控制條件整合方面的不足,MagicDriveDiT采用空間-時(shí)間條件編碼技術(shù),實(shí)現(xiàn)了對時(shí)空潛變量的精確控制。這種方法使得生成的視頻在視覺效果上更加逼真,能夠滿足自動(dòng)駕駛應(yīng)用對高質(zhì)量街景視頻的需求。
以下視頻空間編碼和時(shí)空編碼對比,此前的視頻控制方法并不適用于3DVAE的時(shí)空潛變量:
MagicDriveDiT提出的條件時(shí)空編碼模塊:
訓(xùn)練方法上,MagicDriveDiT發(fā)現(xiàn),提高視頻分辨率對于生成內(nèi)容的質(zhì)量提升最明顯。
因此,MagicDriveDiT采用了分辨率優(yōu)先的漸進(jìn)式的訓(xùn)練策略,加速模型訓(xùn)練收斂,并且逐漸適配更高分辨率和更長的視頻。此外,通過混合數(shù)據(jù)訓(xùn)練,MagicDriveDiT還實(shí)現(xiàn)了視頻長度外推的能力,可以直接生成超越訓(xùn)練長度的視頻。
△MagicDriveDiT 采用的漸進(jìn)式訓(xùn)練策略
實(shí)驗(yàn)結(jié)果顯示,MagicDriveDiT在生成真實(shí)街景視頻方面的表現(xiàn)優(yōu)于現(xiàn)有的其他方法,不僅在分辨率上有所突破,還在幀數(shù)上實(shí)現(xiàn)了顯著提升,實(shí)現(xiàn)了前所未有的視頻生成效果。
與相關(guān)工作的分辨率、時(shí)長對比結(jié)果如下:
更多內(nèi)容請見論文:https://arxiv.org/abs/2411.13807
項(xiàng)目地址:https://github.com/flymin/MagicDriveDiT