自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成

發(fā)布于 2024-6-5 11:57

瀏覽

0收藏

阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成-AI.x社區(qū)

論文標(biāo)題: EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

論文:??https://arxiv.org/pdf/2405.18991.pdf??

項(xiàng)目地址:??https://github.com/aigc-apps/EasyAnimate??

EasyAnimate框架介紹

EasyAnimate是一個(gè)先進(jìn)的視頻生成方法，它利用Transformer架構(gòu)的強(qiáng)大功能來實(shí)現(xiàn)高性能的輸出。該框架擴(kuò)展了最初為2D圖像合成設(shè)計(jì)的DiT框架，以適應(yīng)3D視頻生成的復(fù)雜性，通過整合一個(gè)運(yùn)動(dòng)模塊塊來捕捉時(shí)間動(dòng)態(tài)，從而確保生成一致的幀和無縫的運(yùn)動(dòng)過渡。此外，EasyAnimate引入了切片VAE，這是一種新穎的方法，用于壓縮時(shí)間軸，有助于生成長時(shí)間視頻。目前，EasyAnimate能夠生成高達(dá)144幀的視頻。

EasyAnimate提供了一個(gè)全面的視頻生產(chǎn)生態(tài)系統(tǒng)，基于DiT，涵蓋數(shù)據(jù)預(yù)處理、VAE訓(xùn)練、DiT模型訓(xùn)練（基線模型和LoRA模型）以及端到端視頻推理等方面。

阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成-AI.x社區(qū)

視頻生成的關(guān)鍵技術(shù)

1. 切片VAE技術(shù)

在傳統(tǒng)的基于圖像的VAE中，每個(gè)視頻幀被編碼為一個(gè)單獨(dú)的潛在特征，這大大減小了幀的空間尺寸。然而，這種編碼技術(shù)忽略了時(shí)間動(dòng)態(tài)，將視頻降級為靜態(tài)圖像表示。為了有效壓縮視頻編碼器和解碼器中的時(shí)間維度，我們引入了切片機(jī)制到MagViT中，并提出了切片VAE。通過這種方法，一組視頻幀被分成幾個(gè)部分，每個(gè)部分分別進(jìn)行編碼和解碼。

阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成-AI.x社區(qū)

2. 視頻擴(kuò)散變壓器

視頻擴(kuò)散Transformer的架構(gòu)增加了一個(gè)運(yùn)動(dòng)模塊，使其從2D圖像合成擴(kuò)展到3D視頻生成。此外，我們還整合了UViT的連接，以增強(qiáng)訓(xùn)練過程的穩(wěn)定性。運(yùn)動(dòng)模塊專門設(shè)計(jì)用來利用幀長度內(nèi)嵌的時(shí)間信息。通過在時(shí)間維度上整合注意力機(jī)制，模型獲得了吸收此類時(shí)間數(shù)據(jù)的能力，這對于生成視頻運(yùn)動(dòng)至關(guān)重要。同時(shí)，我們采用網(wǎng)格重塑操作來增加輸入令牌的池，從而提高圖像中存在的空間細(xì)節(jié)的利用率，最終實(shí)現(xiàn)更優(yōu)越的生成性能。

這些關(guān)鍵技術(shù)的應(yīng)用使EasyAnimate成為未來視頻合成研究的一個(gè)強(qiáng)大且高效的基線，推動(dòng)創(chuàng)新、進(jìn)步和探索。

阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成-AI.x社區(qū)

阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成-AI.x社區(qū)

訓(xùn)練過程與策略

1. 訓(xùn)練策略概述

EasyAnimate采用了三階段的訓(xùn)練策略，以逐步提升視頻生成的質(zhì)量和效率。首先，通過對圖像數(shù)據(jù)的訓(xùn)練，使DiT模型適應(yīng)新的視頻VAE。接著，利用大規(guī)模的視頻數(shù)據(jù)集和圖像數(shù)據(jù)預(yù)訓(xùn)練運(yùn)動(dòng)模塊，引入視頻生成能力。最后，使用高質(zhì)量的視頻數(shù)據(jù)對整個(gè)DiT模型進(jìn)行精細(xì)調(diào)整，以優(yōu)化生成性能。

2. 運(yùn)動(dòng)模塊的訓(xùn)練

運(yùn)動(dòng)模塊的訓(xùn)練是在大規(guī)模數(shù)據(jù)集上進(jìn)行的，這一步驟至關(guān)重要，因?yàn)樗鼛椭Ｐ筒蹲揭曨l中的時(shí)間動(dòng)態(tài)信息，從而生成連貫的幀和平滑的運(yùn)動(dòng)過渡。此模塊通過在時(shí)間維度上集成注意力機(jī)制，使模型能夠整合這些時(shí)間數(shù)據(jù)，這對于視頻動(dòng)作的生成至關(guān)重要。

3. 分辨率的逐步擴(kuò)展

在訓(xùn)練的最后階段，DiT模型通過從較低分辨率到較高分辨率的逐步擴(kuò)展來訓(xùn)練，這種方法有效地提高了模型處理高分辨率視頻的能力，同時(shí)保持了生成質(zhì)量。

數(shù)據(jù)預(yù)處理與視頻質(zhì)量控制

1. 視頻分割

為了保證視頻內(nèi)容的主題一致性，使用PySceneDetect工具識別視頻中的場景變化，并根據(jù)這些過渡進(jìn)行場景切割。只保留時(shí)長在3到10秒之間的視頻段用于模型訓(xùn)練，這有助于模型更好地學(xué)習(xí)和生成短視頻。

2. 視頻過濾

視頻數(shù)據(jù)通過三個(gè)方面進(jìn)行過濾：運(yùn)動(dòng)評分、文本區(qū)域評分和美學(xué)評分。運(yùn)動(dòng)過濾確保視頻顯示出運(yùn)動(dòng)感，同時(shí)保持運(yùn)動(dòng)的一致性；文本過濾通過OCR技術(shù)檢測視頻幀中的文本區(qū)域，過濾掉文本區(qū)域超過1%的視頻段；美學(xué)過濾則計(jì)算視頻的美學(xué)評分，只保留高分的視頻用于訓(xùn)練。

3. 視頻字幕處理

視頻字幕的質(zhì)量直接影響視頻生成的結(jié)果。通過比較多個(gè)大型多模態(tài)模型的性能和操作效率，選擇了性能優(yōu)異的VideoChat2和VILA進(jìn)行視頻數(shù)據(jù)的字幕處理，這些模型在視頻字幕的詳細(xì)性和時(shí)間信息方面表現(xiàn)出色，有助于提高生成視頻的質(zhì)量。

實(shí)驗(yàn)結(jié)果與分析

1. 視頻生成性能

EasyAnimate在視頻生成方面表現(xiàn)出色，能夠生成高達(dá)144幀的視頻。通過使用創(chuàng)新的Slice VAE和動(dòng)態(tài)模塊，EasyAnimate不僅提高了視頻的時(shí)間壓縮效率，還保持了視頻幀之間的連貫性和流暢的動(dòng)態(tài)過渡。實(shí)驗(yàn)結(jié)果顯示，通過在時(shí)間維度上進(jìn)行切片處理，能夠有效地管理視頻幀的編碼和解碼，解決了傳統(tǒng)VAE在處理長視頻時(shí)遇到的內(nèi)存限制問題。

2. 模型訓(xùn)練與優(yōu)化

在模型訓(xùn)練方面，EasyAnimate采用了三階段訓(xùn)練策略，首先是圖像數(shù)據(jù)的訓(xùn)練，然后是動(dòng)態(tài)模塊的大規(guī)模數(shù)據(jù)集訓(xùn)練，最后是高分辨率視頻和圖像的整體網(wǎng)絡(luò)訓(xùn)練。這種分階段的訓(xùn)練方法有效地提升了模型的穩(wěn)定性和生成質(zhì)量。特別是引入U(xiǎn)ViT的長跳躍連接，有助于在反向傳播過程中防止梯度消失，從而保證了訓(xùn)練的穩(wěn)定性。

3. 視頻質(zhì)量與創(chuàng)新性

通過對比其他視頻生成模型，EasyAnimate在視頻質(zhì)量和創(chuàng)新性方面均表現(xiàn)優(yōu)異。它不僅能夠處理不同幀率和分辨率的視頻生成，還能夠適應(yīng)不同的DiT基線模型，生成多樣化的視頻風(fēng)格。此外，其視頻VAE的切片機(jī)制創(chuàng)新地解決了視頻長時(shí)間維度的壓縮問題，顯著提升了生成視頻的長度和質(zhì)量。

結(jié)論與未來展望

EasyAnimate作為一個(gè)基于Transformer架構(gòu)的高性能視頻生成方法，成功地?cái)U(kuò)展了DiT框架，將其從2D圖像合成拓展到3D視頻生成。通過引入動(dòng)態(tài)模塊和Slice VAE，EasyAnimate不僅優(yōu)化了視頻幀的一致性和動(dòng)態(tài)過渡，還提高了模型的訓(xùn)練效率和視頻的生成質(zhì)量。

未來展望

模型優(yōu)化：未來的研究可以進(jìn)一步探索如何優(yōu)化Slice VAE的架構(gòu)，以更高效地處理更長時(shí)間的視頻，同時(shí)減少信息損失。
應(yīng)用拓展：EasyAnimate的應(yīng)用可以擴(kuò)展到更多領(lǐng)域，如虛擬現(xiàn)實(shí)、游戲開發(fā)和電影制作，其中對高質(zhì)量和長時(shí)視頻的需求日益增長。
技術(shù)迭代：隨著人工智能技術(shù)的不斷進(jìn)步，未來可以探索將更多先進(jìn)的AI技術(shù)，如深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)，整合到EasyAnimate中，以進(jìn)一步提升視頻生成的自然性和真實(shí)感。

本文轉(zhuǎn)載自?? AI論文解讀??，作者：柏企

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

阿里巴巴重磅開源EasyAnimate！基于DiT的長視頻制作生態(tài)系統(tǒng)

angel ? 4513瀏覽 ? 0回復(fù)
ShareGPT4V作者團(tuán)隊(duì)又一力作！百萬高質(zhì)量視頻-字幕數(shù)據(jù)助力社區(qū)提升多模態(tài)大模型視頻理解及生成能力

輕薄滴假象 ? 2411瀏覽 ? 0回復(fù)
史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù)：DiT通用，速度提升10.6倍

輕薄滴假象 ? 2957瀏覽 ? 0回復(fù)
靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開源81K高質(zhì)量數(shù)據(jù)集

Crystalcxt ? 2090瀏覽 ? 0回復(fù)
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 2759瀏覽 ? 0回復(fù)
阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成

angel ? 2946瀏覽 ? 0回復(fù)
阿里巴巴提出CODEXGRAPH：打破大模型與代碼庫的壁壘，引領(lǐng)軟件工程新革命

AI論文解讀 ? 3368瀏覽 ? 0回復(fù)
視頻生成要有自己的系統(tǒng)！尤洋團(tuán)隊(duì)歷時(shí)半年開源VideoSys

輕薄滴假象 ? 2109瀏覽 ? 0回復(fù)
長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

angel ? 8026瀏覽 ? 0回復(fù)
視頻生成類大模型實(shí)現(xiàn)原理以及應(yīng)用和難點(diǎn)

AI探索時(shí)代 ? 3493瀏覽 ? 0回復(fù)
長視頻生成再突破！高質(zhì)量連貫達(dá)600幀 | ConFiner：專家鏈加持的免訓(xùn)練長視頻生成器

angel ? 2247瀏覽 ? 0回復(fù)
視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源

angel ? 2804瀏覽 ? 0回復(fù)
Meta Movie Gen：新的 SOTA 視頻生成模型-技術(shù)報(bào)告解讀

amei2000go ? 3324瀏覽 ? 0回復(fù)
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2305瀏覽 ? 0回復(fù)
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1793瀏覽 ? 0回復(fù)
賈佳亞團(tuán)隊(duì)新作MagicMirror：生成身份一致且高質(zhì)量個(gè)性化視頻，效果驚艷！

angel ? 2169瀏覽 ? 0回復(fù)
阿里發(fā)布通義萬相2.1 :最佳視頻生成模型

Halo咯咯 ? 2469瀏覽 ? 0回復(fù)
長視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長創(chuàng)作更高效

AIPaperDaily ? 967瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 467瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型靠強(qiáng)化學(xué)習(xí)就能無限變強(qiáng)？清華潑了一盆冷水 10h前發(fā)布
METR發(fā)現(xiàn) AI 編碼的“摩爾定律”？指數(shù)級增長或顛覆軟件開發(fā) 10h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Google總監(jiān)提出生成式AI應(yīng)用架構(gòu)和成熟度模型，一步步指導(dǎo)進(jìn)階

下一篇： AutoGen 2.0:微軟發(fā)布代碼優(yōu)先的Agent框架TaskWeaver

社區(qū)精華內(nèi)容

目錄

<tfoot id="1l3kg"></tfoot>

<s id="1l3kg"><li id="1l3kg"></li></s>