千幀長(zhǎng)視頻時(shí)代到來(lái)!MIT全新擴(kuò)散算法讓任意模型突破時(shí)長(zhǎng)極限
進(jìn)入到 2025 年,視頻生成(尤其是基于擴(kuò)散模型)領(lǐng)域還在不斷地「推陳出新」,各種文生視頻、圖生視頻模型展現(xiàn)出了酷炫的效果。其中,長(zhǎng)視頻生成一直是現(xiàn)有視頻擴(kuò)散的痛點(diǎn)。
近期,MIT 團(tuán)隊(duì)火遍外網(wǎng)的新論文《History-guided Video Diffusion》提出了一種全新算法 Diffusion Forcing Transformer(DFoT),在不改動(dòng)原有架構(gòu)的情況下就能讓模型穩(wěn)定輸出比之前近 50 倍、近千幀長(zhǎng)的視頻。
- 論文地址:https://arxiv.org/abs/2502.06764
- 項(xiàng)目主頁(yè):https://boyuan.space/history-guidance/
該算法生成的視頻如此之長(zhǎng),以至于只能截短并降低幀率才能放下。我們先來(lái)一睹生成視頻的效果。
在現(xiàn)有的視頻擴(kuò)散模型中,無(wú)分類(lèi)器引導(dǎo)(Classifier-free Guidance, CFG) 已被廣泛應(yīng)用于提升采樣質(zhì)量。然而,目前的視頻模型通常只使用第一幀進(jìn)行引導(dǎo),而忽略了其他歷史幀的重要性。作者的研究發(fā)現(xiàn):歷史信息才是提升視頻生成質(zhì)量的關(guān)鍵因素!
因此,通過(guò)在去噪過(guò)程中混合長(zhǎng)歷史模型和短歷史模型的不同預(yù)測(cè),論文提出了一系列「歷史引導(dǎo)」算法 (History Guidance),顯著提升了視頻擴(kuò)散模型的質(zhì)量、生成長(zhǎng)度、魯棒性與可組合性。
在 X 上,論文共同一作 Boyuan Chen 的論文推介收獲了十幾萬(wàn)的閱讀量、近千的點(diǎn)贊量。
該工作剛一推出便受到了大量網(wǎng)友的贊譽(yù),尤其看到了 DFoT 算法對(duì)視頻擴(kuò)散模型的影響。
谷歌研究科學(xué)家、3d gaussian splating 一作 George Kopanas 轉(zhuǎn)達(dá)并評(píng)論道,「一年前,連續(xù)的長(zhǎng)期視頻看起來(lái)是不可能的。而現(xiàn)在可以做到了!這項(xiàng)工作令人印象深刻,也提供了一個(gè)非常有趣的潛在想法?!?/span>
方法概覽
論文提出首先要訓(xùn)練一個(gè)能根據(jù)不同部分的歷史進(jìn)行去噪預(yù)測(cè)的視頻模型。作者把不同歷史定義如下:
- 不同長(zhǎng)度的歷史
- 歷史的不同子集
- 特定頻率域的歷史。
這樣的模型能夠靈活地應(yīng)對(duì)不同場(chǎng)景,例如圖生視頻或是延長(zhǎng)已有的視頻。遺憾的是,目前的視頻擴(kuò)散模型架構(gòu)并不具備這種靈活性。如果簡(jiǎn)單地把歷史幀編碼后喂給 AdaLN 層并使用無(wú)分類(lèi)器引導(dǎo)常見(jiàn)的隨機(jī)丟棄法進(jìn)行訓(xùn)練,實(shí)際效果會(huì)非常差。
相反,作者提出了一個(gè)極其簡(jiǎn)潔的算法 Diffusion Forcing Transformer (DFoT),在不改變架構(gòu)的情況下就可以實(shí)現(xiàn)以上目標(biāo)。
具體來(lái)說(shuō),作者提出把熱門(mén)前作 Diffusion Forcing 中提出的噪聲掩碼 (noise as masking) 概念帶入到視頻生成架構(gòu)中 —— 訓(xùn)練擴(kuò)散模型時(shí)可以對(duì)每一幀使用不同的噪聲強(qiáng)度。某一幀無(wú)噪聲時(shí)相當(dāng)于直接把該幀作為條件信息,而最強(qiáng)的噪聲相當(dāng)于完全移除這一幀的信息。給定一個(gè)既有的傳統(tǒng) DiT 架構(gòu),DFoT 只需要控制噪聲掩碼就可以訓(xùn)練任意子序列的預(yù)測(cè)任務(wù)。
作者提到,這樣做保留了把現(xiàn)有模型直接微調(diào)成 DFoT 的可行性,并且 Adobe 公司已經(jīng)在他們的視頻大模型 CausVid 上驗(yàn)證過(guò)了 Diffusion Forcing 微調(diào)。
圖(左):傳統(tǒng)的視頻模型要需要把歷史信息編碼進(jìn) AdaLN 層來(lái)兼容多歷史幀。圖(右):DFoT 架構(gòu)僅用噪聲掩碼來(lái)區(qū)分歷史幀和預(yù)測(cè)幀。
DFoT 一旦訓(xùn)練好就可以進(jìn)行極其靈活的采樣。如下圖所示,如果要把前四幀作為條件,可以控制噪聲掩碼給前四幀 0 噪聲(第一行);如果要進(jìn)行無(wú)條件生成,可以把所有歷史幀設(shè)為白噪聲(第二行);如果要把短歷史作為條件,可以掩碼較早的歷史幀。
DFoT 的采樣和歷史引導(dǎo)。
基于這種能力,作者引出了一系列「歷史引導(dǎo)」算法。歷史引導(dǎo)擴(kuò)展了無(wú)分類(lèi)起引導(dǎo)的概念,不僅在采樣過(guò)程中組合有條件模型和無(wú)條件模型,還能通過(guò)加權(quán)去噪組合多重不同的歷史條件。其中最簡(jiǎn)單的版本 (HG-v) 已經(jīng)能大幅提高視頻的質(zhì)量,較為先進(jìn)一點(diǎn)的跨時(shí)間歷史采樣 (Temporal History Guidance) 和跨頻率域歷史采樣 (Fractional History Guidance) 更是分別增強(qiáng)了魯棒性和動(dòng)作幅度。
實(shí)驗(yàn)結(jié)果
作者進(jìn)行了一系列實(shí)驗(yàn)來(lái)分別驗(yàn)證 DFoT 架構(gòu)和歷史引導(dǎo)。
首先,在經(jīng)典的 Kinetics 600 數(shù)據(jù)集上,DFoT 超過(guò)了所有同架構(gòu)下的視頻擴(kuò)散算法,并僅使用學(xué)術(shù)屆的計(jì)算就和谷歌閉源大模型的結(jié)果打成平手。
不光如此,DFoT 是可以用任意長(zhǎng)度的歷史生成視頻的,并不像其他算法一樣在訓(xùn)練時(shí)就要指定特定歷史長(zhǎng)度。作者還特意驗(yàn)證了從經(jīng)典擴(kuò)散算法微調(diào)而來(lái)的 DFoT 模型,發(fā)現(xiàn)一樣能獲得出色的效果。
無(wú)歷史引導(dǎo)下 DFoT 的效果。
接下來(lái),作者開(kāi)始驗(yàn)證結(jié)合了歷史引導(dǎo)的 DfoT。
在 kinetics600 上,原有的任務(wù)是給定前 6 幀預(yù)測(cè)下面 11 幀。由于 DFoT 極其穩(wěn)定,作者直接把 11 幀拓展到了 64 幀,并在 FVD 和 vBench 上大幅超過(guò)了之前的模型。同時(shí),文中提出的 HG-f 可以在保持穩(wěn)定性的情況下避免模型生成靜止的畫(huà)面。
kinetics 上的對(duì)比。
在 RealEstate10K 數(shù)據(jù)集上,論文更是斷崖式領(lǐng)先:在此之前,大部分算法只能在該數(shù)據(jù)集上做到給定開(kāi)頭結(jié)尾去插值中間幀,兩個(gè)最強(qiáng)閉源模型 LVSM 和 4DiM 的在給定第一幀預(yù)測(cè)視頻的情況下最多只能生成二三十幀。
而 Diffusion Forcing Transformer 和歷史引導(dǎo)直接做到了單圖生成近一千幀,并且提供了全套開(kāi)源和 Huggingface 展示。
DFoT 可以在 RealEstate10K 上單圖生成近千幀。
總結(jié)
論文提出了 Diffusion Forcing Transformer (DFoT),一個(gè)能用任何歷史幀作為條件的視頻擴(kuò)散架構(gòu)。DFoT 讓歷史引導(dǎo) (History Guidance) 成為了可能,使得視頻質(zhì)量和長(zhǎng)度都大幅增加。論文還涉及了大量其他內(nèi)容,例如數(shù)學(xué)證明,魯棒性,組合性和機(jī)器人實(shí)驗(yàn)等近四十頁(yè)。
作者提供的開(kāi)源實(shí)現(xiàn)詳細(xì)提供了復(fù)現(xiàn)的所有步驟,并且在 Huggingface 上提供了在線體驗(yàn),感興趣的讀者可以直接根據(jù)論文主頁(yè)的鏈接在瀏覽器里直接驗(yàn)證論文效果。
Huggingface 地址:https://huggingface.co/spaces/kiwhansong/diffusion-forcing-transformer
此外,為了方便讀者們進(jìn)一步學(xué)習(xí)了解該論文,我們邀請(qǐng)到了論文共同一作、MIT計(jì)算機(jī)系四年級(jí)博士生陳博遠(yuǎn)于北京時(shí)間2月27日20:00直播解讀該研究,歡迎感興趣的讀者預(yù)約觀看。