阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘,EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成
論文標(biāo)題: EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture
論文:??https://arxiv.org/pdf/2405.18991.pdf??
項(xiàng)目地址:??https://github.com/aigc-apps/EasyAnimate??
EasyAnimate框架介紹
EasyAnimate是一個(gè)先進(jìn)的視頻生成方法,它利用Transformer架構(gòu)的強(qiáng)大功能來實(shí)現(xiàn)高性能的輸出。該框架擴(kuò)展了最初為2D圖像合成設(shè)計(jì)的DiT框架,以適應(yīng)3D視頻生成的復(fù)雜性,通過整合一個(gè)運(yùn)動(dòng)模塊塊來捕捉時(shí)間動(dòng)態(tài),從而確保生成一致的幀和無縫的運(yùn)動(dòng)過渡。此外,EasyAnimate引入了切片VAE,這是一種新穎的方法,用于壓縮時(shí)間軸,有助于生成長時(shí)間視頻。目前,EasyAnimate能夠生成高達(dá)144幀的視頻。
EasyAnimate提供了一個(gè)全面的視頻生產(chǎn)生態(tài)系統(tǒng),基于DiT,涵蓋數(shù)據(jù)預(yù)處理、VAE訓(xùn)練、DiT模型訓(xùn)練(基線模型和LoRA模型)以及端到端視頻推理等方面。
視頻生成的關(guān)鍵技術(shù)
1. 切片VAE技術(shù)
在傳統(tǒng)的基于圖像的VAE中,每個(gè)視頻幀被編碼為一個(gè)單獨(dú)的潛在特征,這大大減小了幀的空間尺寸。然而,這種編碼技術(shù)忽略了時(shí)間動(dòng)態(tài),將視頻降級為靜態(tài)圖像表示。為了有效壓縮視頻編碼器和解碼器中的時(shí)間維度,我們引入了切片機(jī)制到MagViT中,并提出了切片VAE。通過這種方法,一組視頻幀被分成幾個(gè)部分,每個(gè)部分分別進(jìn)行編碼和解碼。
2. 視頻擴(kuò)散變壓器
視頻擴(kuò)散Transformer的架構(gòu)增加了一個(gè)運(yùn)動(dòng)模塊,使其從2D圖像合成擴(kuò)展到3D視頻生成。此外,我們還整合了UViT的連接,以增強(qiáng)訓(xùn)練過程的穩(wěn)定性。運(yùn)動(dòng)模塊專門設(shè)計(jì)用來利用幀長度內(nèi)嵌的時(shí)間信息。通過在時(shí)間維度上整合注意力機(jī)制,模型獲得了吸收此類時(shí)間數(shù)據(jù)的能力,這對于生成視頻運(yùn)動(dòng)至關(guān)重要。同時(shí),我們采用網(wǎng)格重塑操作來增加輸入令牌的池,從而提高圖像中存在的空間細(xì)節(jié)的利用率,最終實(shí)現(xiàn)更優(yōu)越的生成性能。
這些關(guān)鍵技術(shù)的應(yīng)用使EasyAnimate成為未來視頻合成研究的一個(gè)強(qiáng)大且高效的基線,推動(dòng)創(chuàng)新、進(jìn)步和探索。
訓(xùn)練過程與策略
1. 訓(xùn)練策略概述
EasyAnimate采用了三階段的訓(xùn)練策略,以逐步提升視頻生成的質(zhì)量和效率。首先,通過對圖像數(shù)據(jù)的訓(xùn)練,使DiT模型適應(yīng)新的視頻VAE。接著,利用大規(guī)模的視頻數(shù)據(jù)集和圖像數(shù)據(jù)預(yù)訓(xùn)練運(yùn)動(dòng)模塊,引入視頻生成能力。最后,使用高質(zhì)量的視頻數(shù)據(jù)對整個(gè)DiT模型進(jìn)行精細(xì)調(diào)整,以優(yōu)化生成性能。
2. 運(yùn)動(dòng)模塊的訓(xùn)練
運(yùn)動(dòng)模塊的訓(xùn)練是在大規(guī)模數(shù)據(jù)集上進(jìn)行的,這一步驟至關(guān)重要,因?yàn)樗鼛椭P筒蹲揭曨l中的時(shí)間動(dòng)態(tài)信息,從而生成連貫的幀和平滑的運(yùn)動(dòng)過渡。此模塊通過在時(shí)間維度上集成注意力機(jī)制,使模型能夠整合這些時(shí)間數(shù)據(jù),這對于視頻動(dòng)作的生成至關(guān)重要。
3. 分辨率的逐步擴(kuò)展
在訓(xùn)練的最后階段,DiT模型通過從較低分辨率到較高分辨率的逐步擴(kuò)展來訓(xùn)練,這種方法有效地提高了模型處理高分辨率視頻的能力,同時(shí)保持了生成質(zhì)量。
數(shù)據(jù)預(yù)處理與視頻質(zhì)量控制
1. 視頻分割
為了保證視頻內(nèi)容的主題一致性,使用PySceneDetect工具識別視頻中的場景變化,并根據(jù)這些過渡進(jìn)行場景切割。只保留時(shí)長在3到10秒之間的視頻段用于模型訓(xùn)練,這有助于模型更好地學(xué)習(xí)和生成短視頻。
2. 視頻過濾
視頻數(shù)據(jù)通過三個(gè)方面進(jìn)行過濾:運(yùn)動(dòng)評分、文本區(qū)域評分和美學(xué)評分。運(yùn)動(dòng)過濾確保視頻顯示出運(yùn)動(dòng)感,同時(shí)保持運(yùn)動(dòng)的一致性;文本過濾通過OCR技術(shù)檢測視頻幀中的文本區(qū)域,過濾掉文本區(qū)域超過1%的視頻段;美學(xué)過濾則計(jì)算視頻的美學(xué)評分,只保留高分的視頻用于訓(xùn)練。
3. 視頻字幕處理
視頻字幕的質(zhì)量直接影響視頻生成的結(jié)果。通過比較多個(gè)大型多模態(tài)模型的性能和操作效率,選擇了性能優(yōu)異的VideoChat2和VILA進(jìn)行視頻數(shù)據(jù)的字幕處理,這些模型在視頻字幕的詳細(xì)性和時(shí)間信息方面表現(xiàn)出色,有助于提高生成視頻的質(zhì)量。
實(shí)驗(yàn)結(jié)果與分析
1. 視頻生成性能
EasyAnimate在視頻生成方面表現(xiàn)出色,能夠生成高達(dá)144幀的視頻。通過使用創(chuàng)新的Slice VAE和動(dòng)態(tài)模塊,EasyAnimate不僅提高了視頻的時(shí)間壓縮效率,還保持了視頻幀之間的連貫性和流暢的動(dòng)態(tài)過渡。實(shí)驗(yàn)結(jié)果顯示,通過在時(shí)間維度上進(jìn)行切片處理,能夠有效地管理視頻幀的編碼和解碼,解決了傳統(tǒng)VAE在處理長視頻時(shí)遇到的內(nèi)存限制問題。
2. 模型訓(xùn)練與優(yōu)化
在模型訓(xùn)練方面,EasyAnimate采用了三階段訓(xùn)練策略,首先是圖像數(shù)據(jù)的訓(xùn)練,然后是動(dòng)態(tài)模塊的大規(guī)模數(shù)據(jù)集訓(xùn)練,最后是高分辨率視頻和圖像的整體網(wǎng)絡(luò)訓(xùn)練。這種分階段的訓(xùn)練方法有效地提升了模型的穩(wěn)定性和生成質(zhì)量。特別是引入U(xiǎn)ViT的長跳躍連接,有助于在反向傳播過程中防止梯度消失,從而保證了訓(xùn)練的穩(wěn)定性。
3. 視頻質(zhì)量與創(chuàng)新性
通過對比其他視頻生成模型,EasyAnimate在視頻質(zhì)量和創(chuàng)新性方面均表現(xiàn)優(yōu)異。它不僅能夠處理不同幀率和分辨率的視頻生成,還能夠適應(yīng)不同的DiT基線模型,生成多樣化的視頻風(fēng)格。此外,其視頻VAE的切片機(jī)制創(chuàng)新地解決了視頻長時(shí)間維度的壓縮問題,顯著提升了生成視頻的長度和質(zhì)量。
結(jié)論與未來展望
EasyAnimate作為一個(gè)基于Transformer架構(gòu)的高性能視頻生成方法,成功地?cái)U(kuò)展了DiT框架,將其從2D圖像合成拓展到3D視頻生成。通過引入動(dòng)態(tài)模塊和Slice VAE,EasyAnimate不僅優(yōu)化了視頻幀的一致性和動(dòng)態(tài)過渡,還提高了模型的訓(xùn)練效率和視頻的生成質(zhì)量。
未來展望
- 模型優(yōu)化:未來的研究可以進(jìn)一步探索如何優(yōu)化Slice VAE的架構(gòu),以更高效地處理更長時(shí)間的視頻,同時(shí)減少信息損失。
- 應(yīng)用拓展:EasyAnimate的應(yīng)用可以擴(kuò)展到更多領(lǐng)域,如虛擬現(xiàn)實(shí)、游戲開發(fā)和電影制作,其中對高質(zhì)量和長時(shí)視頻的需求日益增長。
- 技術(shù)迭代:隨著人工智能技術(shù)的不斷進(jìn)步,未來可以探索將更多先進(jìn)的AI技術(shù),如深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),整合到EasyAnimate中,以進(jìn)一步提升視頻生成的自然性和真實(shí)感。
本文轉(zhuǎn)載自?? AI論文解讀??,作者:柏企
