自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng) 精華

發(fā)布于 2024-6-7 10:28
瀏覽
0收藏

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2405.18991
開源地址:https://github.com/aigc-apps/EasyAnimate

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)


阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)

今天和大家一起學(xué)習(xí)下EasyAnimate,這是一種用于視頻生成的高級方法,利用Transformer架構(gòu)的強大性能實現(xiàn)高效成果。擴展了最初設(shè)計用于2D圖像合成的DiT框架,通過引入運動模塊以適應(yīng)3D視頻生成的復(fù)雜性。該模塊用于捕捉時間動態(tài),從而確保幀的一致性和運動過渡的平滑性。運動模塊可以適應(yīng)各種DiT基線方法,以生成不同風(fēng)格的視頻。在訓(xùn)練和推理階段,它還能夠生成具有不同幀速率和分辨率的視頻,適用于圖像和視頻。


此外,還引入了slice VAE,這是一種壓縮時間軸的創(chuàng)新方法,方便生成長時間的視頻。目前,EasyAnimate能夠生成144幀的視頻?;贒iT提供了一個全面的視頻制作生態(tài)系統(tǒng),涵蓋數(shù)據(jù)預(yù)處理、VAE訓(xùn)練、DiT模型訓(xùn)練(包括基線模型和LoRA模型)以及端到端的視頻推理。目前仍在不斷努力提高我們方法的性能。

介紹

人工智能在文本、圖像和聲音的創(chuàng)意內(nèi)容生成方面已經(jīng)決定性地擴展了其應(yīng)用范圍。在視覺領(lǐng)域,擴散模型被廣泛用于圖像生成和修改。開源項目如Stable Diffusion在文本轉(zhuǎn)圖像方面取得了顯著進(jìn)展。然而,在視頻生成方面,當(dāng)前模型仍面臨一些挑戰(zhàn),如質(zhì)量欠佳、視頻長度有限以及運動不自然,這表明該技術(shù)還有很大的進(jìn)步空間。


一些開創(chuàng)性的研究在利用Stable Diffusion方法進(jìn)行視頻合成方面取得了進(jìn)展,重點是用于去噪過程的UNet架構(gòu)。最近,Sora 展現(xiàn)了非凡的視頻生成能力,能夠生成長達(dá)一分鐘的高保真視頻。這一進(jìn)步顯著提升了現(xiàn)實世界模擬的真實性,相比其前輩有了很大的提高。此外,這揭示了Transformer架構(gòu)在視頻生成中的關(guān)鍵作用,促使開源社區(qū)以新的熱情深入探討Transformer結(jié)構(gòu)的復(fù)雜性。


在此背景下,研究者們推出了EasyAnimate,一個簡單而強大的視頻生成基線。該框架提供了一個易于訪問的訓(xùn)練流程,涵蓋了VAE、DiT的訓(xùn)練,并促進(jìn)了文本到圖像和文本到視頻生成的混合訓(xùn)練。值得注意的是,設(shè)計了一種切片機制以支持長時間視頻生成。為VAE實施了兩階段訓(xùn)練策略,以增強解碼效果。


在DiT方面,通過引入時空運動模塊塊來探索視頻生成的時間信息。此外,從UViT引入的長連接豐富了我們的架構(gòu)。DiT的訓(xùn)練分為三個階段:最初進(jìn)行圖像訓(xùn)練以適應(yīng)新訓(xùn)練的VAE;隨后在大規(guī)模數(shù)據(jù)集上訓(xùn)練運動模塊以生成視頻;最后,整個DiT網(wǎng)絡(luò)在高分辨率視頻和圖像上進(jìn)行訓(xùn)練。此外,還提出了一套全面的數(shù)據(jù)預(yù)處理協(xié)議,旨在策劃高質(zhì)量的視頻內(nèi)容及其對應(yīng)的字幕。期望EasyAnimate能作為未來視頻合成研究的強大且高效的基線,進(jìn)一步推動創(chuàng)新、進(jìn)步和探索。

模型架構(gòu)

下圖1展示了EasyAnimate的概述。是基于PixArt-α構(gòu)建了EasyAnimate。它包括一個文本編碼器、視頻VAE(視頻編碼器和視頻解碼器)以及Diffsuion Transformer(DiT)。使用T5編碼器作為文本編碼器。

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)

視頻VAE

在早期的研究中,基于圖像的變分自編碼器(VAE)被廣泛用于視頻幀的編碼和解碼,例如AnimateDiff、ModelScopeT2V和OpenSora。一種流行的圖像VAE實現(xiàn)(Stability-AI),如在Stable Diffusion中使用的那樣,將每個視頻幀編碼為一個單獨的潛在特征,大大縮小了幀的空間維度至寬度和高度的八分之一。這種編碼技術(shù)忽視了時間動態(tài),將視頻降解為靜態(tài)圖像表示。傳統(tǒng)基于圖像的VAE的一個顯著局限是其無法壓縮時間維度。因此,細(xì)微的幀間時間關(guān)系未能被充分捕捉,導(dǎo)致潛在特征較大,CUDA內(nèi)存需求急劇增加。這些挑戰(zhàn)顯著阻礙了此類方法在長視頻創(chuàng)建中的實用性。因此,主要挑戰(zhàn)在于如何在視頻編碼器和解碼器中有效壓縮時間維度。


此外,在使VAE能夠同時使用圖像和視頻進(jìn)行訓(xùn)練。先前的研究(Blattmann)表明,將圖像整合到視頻訓(xùn)練流程中可以更有效地優(yōu)化模型架構(gòu),從而改進(jìn)其文本對齊并提高輸出質(zhì)量。


一個著名的視頻VAE例子是MagViT,據(jù)信它被用于Sora框架。為了提高時間維度的壓縮效率,在MagViT中引入了切片機制,并提出了Slice VAE。Slice VAE的架構(gòu)見下圖2。

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)

MagViT:最初在EasyAnimate中采用了MagViT。它采用了因果3D卷積塊。該塊在應(yīng)用普通3D卷積之前,在時間軸上引入了一種前置時間填充方式,從而確保幀利用先前信息增強時間因果關(guān)系,同時不受后續(xù)幀的影響。此外,MagViT還允許模型處理圖像和視頻。通過將圖像訓(xùn)練與視頻訓(xùn)練結(jié)合,它能夠利用豐富且易獲取的圖像,這已被證明在DiT的訓(xùn)練過程中可以增強文本-圖像對齊,從而顯著改善視頻生成結(jié)果。盡管MagViT在視頻編碼和解碼方面有其優(yōu)雅的處理方式,但在極長視頻序列的訓(xùn)練中面臨挑戰(zhàn),主要是由于內(nèi)存限制。具體而言,所需內(nèi)存通常超過A100 GPU的可用內(nèi)存,使得無法一步解碼大視頻(如1024x1024x40)。這個挑戰(zhàn)突顯了需要批處理以實現(xiàn)增量解碼,而不是嘗試在一步中解碼整個序列的必要性。


Slice VAE:為了實現(xiàn)批處理,首先在空間維度上實驗了切片機制。然而,這導(dǎo)致了不同批次之間的輕微照明不一致。隨后,我們轉(zhuǎn)向在時間維度上進(jìn)行切片。通過這種方法,一組視頻幀被分為若干部分,每部分分別進(jìn)行編碼和解碼,如前面圖2(a)所示。然而,不同批次之間的信息分布是不均衡的。例如,由于MagViT中的前向填充過程,第一批次包含一個實際特征和額外的填充特征,信息量較少。這種不均衡的信息分布是一個顯著的方面,可能會阻礙模型優(yōu)化。此外,這種批處理策略也會影響視頻處理過程中的壓縮率。


另一種方法是實現(xiàn)跨不同批次的特征共享,如前面圖2(b)所示。在解碼過程中,特征與其前后的特征(如果有的話)進(jìn)行連接,從而產(chǎn)生更一致的特征并實現(xiàn)更高的壓縮率。這涉及通過SpatialTemporalDownBlock(在編碼器中標(biāo)記為淺橙色)對特征進(jìn)行壓縮,目標(biāo)是空間和時間維度。通過這種方式,編碼特征包含時間信息,從而節(jié)省計算資源并同時提高生成結(jié)果的質(zhì)量。

視頻Diffsuion Transformer

Diffsuion Transformer的架構(gòu)如下圖3所示。該模型基于PixArt-α,并通過引入如圖3(b)所示的運動模塊,使其從2D圖像合成擴展到3D視頻生成。此外,還集成了UViT的連接,如圖3(c)所示,以增強訓(xùn)練過程的穩(wěn)定性。

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)

運動模塊:運動模塊專門設(shè)計用于利用幀長度中嵌入的時間信息。通過在時間維度上整合注意力機制,模型獲得了同化這些時間數(shù)據(jù)的能力,這對于生成視頻運動至關(guān)重要。同時,采用網(wǎng)格重塑操作來增加注意力機制的輸入token池,從而增強對圖像中空間細(xì)節(jié)的利用,最終實現(xiàn)更優(yōu)異的生成性能。值得注意的是,與AnimateDiff類似,訓(xùn)練好的運動模塊可以適應(yīng)各種DiT基線模型,以生成不同風(fēng)格的視頻。


U-VIT:在訓(xùn)練過程中,觀察到深層的DITs趨于不穩(wěn)定,表現(xiàn)為模型的損失急劇增加,從0.05到0.2,最終上升到1.0。為了加強模型優(yōu)化過程并避免在通過DIT層進(jìn)行反向傳播時的梯度崩潰,在相應(yīng)的transformer塊之間使用了長跳躍連接,這對于基于UNet框架的Stable Diffusion模型非常有效。為了在現(xiàn)有的Diffsuion Transformer架構(gòu)中無縫集成這一修改,而無需全面重新訓(xùn)練,初始化了幾個權(quán)重為零的全連接層(前面圖3(c)中的灰色塊)。

數(shù)據(jù)預(yù)處理

EasyAnimate的訓(xùn)練包括圖像數(shù)據(jù)和視頻數(shù)據(jù)。本節(jié)詳細(xì)介紹視頻數(shù)據(jù)處理方法,包括三個主要階段:視頻拆分、視頻過濾和視頻字幕。這些步驟對于篩選出具有詳細(xì)字幕的高質(zhì)量視頻數(shù)據(jù),以便能夠概括視頻內(nèi)容的精髓至關(guān)重要。

視頻拆分

對于較長的視頻拆分,首先使用PySceneDetect來識別視頻中的場景變化,并根據(jù)這些過渡進(jìn)行場景剪切,以確保視頻片段的主題一致性。剪切后,僅保留長度在3到10秒之間的片段用于模型訓(xùn)練。

視頻過濾

從三個方面過濾視頻數(shù)據(jù),即運動評分、文本區(qū)域評分和美學(xué)評分。


運動過濾:在訓(xùn)練視頻生成模型時,確保視頻展示出運動感以區(qū)分于靜態(tài)圖像至關(guān)重要。同時,保持運動的一定一致性也很重要,因為過于不穩(wěn)定的運動會影響視頻的整體連貫性。為此,使用RAFT (Teed and Deng, 2020) 在指定的每秒幀數(shù)(FPS)之間計算幀之間的運動評分,并根據(jù)適當(dāng)?shù)倪\動評分過濾視頻,以微調(diào)運動的動態(tài)性。


文本過濾:視頻數(shù)據(jù)中通常包含特定的文本信息(例如字幕),這不利于視頻模型的學(xué)習(xí)過程。為了解決這個問題,使用光學(xué)字符識別(OCR)確定視頻中文本區(qū)域的比例。OCR在采樣幀上進(jìn)行,以表示視頻的文本評分。然后,仔細(xì)過濾掉任何文本區(qū)域超過視頻幀面積1%的視頻片段,確保剩下的視頻對模型訓(xùn)練是最優(yōu)的。


美學(xué)過濾:此外,互聯(lián)網(wǎng)上有許多低質(zhì)量的視頻。這些視頻可能缺乏主題焦點或因過度模糊而受到影響。為了提高訓(xùn)練數(shù)據(jù)集的質(zhì)量,我們計算美學(xué)評分并保留高評分的視頻,從而獲得視覺上吸引人的訓(xùn)練集用于視頻生成。

視頻字幕

視頻字幕的質(zhì)量直接影響生成視頻的效果。對幾種大型多模態(tài)模型進(jìn)行了全面比較,權(quán)衡了它們的性能和操作效率。經(jīng)過仔細(xì)考慮和評估,選擇了VideoChat2和VILA來進(jìn)行視頻數(shù)據(jù)的字幕生成,因為它們在我們的評估中表現(xiàn)出色,特別是在實現(xiàn)包含細(xì)節(jié)和時間信息的視頻字幕方面非常有前途。

訓(xùn)練過程

總共使用了大約1200萬張圖像和視頻數(shù)據(jù)來訓(xùn)練視頻VAE模型和DiT模型。我們首先訓(xùn)練視頻VAE,然后使用三階段的粗到細(xì)訓(xùn)練策略將DiT模型適應(yīng)新的VAE。

視頻VAE

MagViT:使用Adam優(yōu)化器,beta=(0.5, 0.9),學(xué)習(xí)率為1e-4進(jìn)行訓(xùn)練,總共訓(xùn)練了350k步。總批量大小為128。


Slice VAE:從前述的MagViT初始化Slice VAE的權(quán)重。如下圖4所示,Slice VAE分兩階段訓(xùn)練。首先,我們在200k步內(nèi)訓(xùn)練整個VAE,使用Adam優(yōu)化器,beta=(0.5, 0.9),批量大小為96,學(xué)習(xí)率為1e-4。接下來,按照Stable Diffusion(Rombach et al., 2021)的程序,在第二階段僅訓(xùn)練解碼器100k步,以更好地提高解碼視頻的保真度。

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)

視頻Diffsuion Transformer

如下圖5所示,DiT模型的訓(xùn)練分為三個階段。首先,在引入新的視頻VAE后,我們通過僅使用圖像數(shù)據(jù)來對齊DiT參數(shù)與該VAE。隨后,我們使用大規(guī)模視頻數(shù)據(jù)集與圖像數(shù)據(jù)一起預(yù)訓(xùn)練運動模塊,從而為DiT引入視頻生成能力。使用桶策略(bucket strategy)來訓(xùn)練不同分辨率的視頻。在這個階段,盡管模型能夠生成具有基本運動的視頻,但輸出往往質(zhì)量不佳,表現(xiàn)為運動有限和清晰度欠佳。最后,我們使用高質(zhì)量的視頻數(shù)據(jù)精細(xì)調(diào)整整個DiT模型,以提高其生成性能。模型從較低分辨率逐漸擴展到較高分辨率進(jìn)行訓(xùn)練,這是一種有效的策略,可以節(jié)省GPU內(nèi)存并減少計算時間。

阿里巴巴重磅開源EasyAnimate!基于DiT的長視頻制作生態(tài)系統(tǒng)-AI.x社區(qū)

實驗

目前已經(jīng)在GitHub倉庫中發(fā)布了checkpoint。您可以在以下地址查看生成結(jié)果并嘗試使用EasyAnimate:https://github.com/aigc-apps/EasyAnimate。

結(jié)論

本文介紹了EasyAnimate,這是一種基于transformer架構(gòu)的高性能AI視頻生成和訓(xùn)練管道?;贒iT框架,EasyAnimate集成了運動模塊,以確保一致的幀生成和流暢的運動過渡。該模型能夠在訓(xùn)練和推理過程中適應(yīng)不同的幀數(shù)和分辨率組合,適用于生成圖像和視頻。


本文轉(zhuǎn)自AI生成未來 ,作者:Jiaqi Xu等


原文鏈接:??https://mp.weixin.qq.com/s/RVjH5sX5XB91nxjeAidhgQ??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦