自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="rf5sx"></sub>}

<meter id="rf5sx"><mark id="rf5sx"></mark></meter>

<thead id="rf5sx"></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

52個AIGC視頻生成算法模型介紹

發(fā)布于 2024-3-28 13:20

瀏覽

0收藏

基于Diffusion模型的AIGC生成算法日益火熱，其中文生圖，圖生圖等圖像生成技術普遍成熟，很多算法從業(yè)者開始從事視頻生成算法的研究和開發(fā)，原因是視頻生成領域相對空白。

一、AIGC視頻算法發(fā)展現(xiàn)狀

從2023年開始，AIGC+視頻的新算法層出不窮，其中最直接的是把圖像方面的成果引入視頻領域，并結(jié)合時序信息去生成具有連續(xù)性的視頻。隨著Sora的出現(xiàn)，視頻生成的效果又再次上升了一個臺階，因此有必要將去年一年到現(xiàn)在的視頻領域進展梳理一下，為以后的視頻方向的研究提供一點思路。

二、AIGC視頻算法分類

AIGC視頻算法，經(jīng)過梳理發(fā)現(xiàn)，可以大體分為：文生視頻，圖生視頻，視頻編輯，視頻風格化，人物動態(tài)化，長視頻生成等方向。具體的輸入和輸出形式如下：

文生視頻：輸入文本，輸出視頻
圖生視頻：輸入圖片（+控制條件），輸出視頻
視頻編輯：輸入視頻（+控制條件），輸出視頻
視頻風格化：輸入視頻，輸出視頻
人物動態(tài)化：輸入圖片+姿態(tài)條件，輸出視頻
長視頻生成：輸入文本，輸出長視頻

三、具體算法梳理

文生視頻

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

機構(gòu)：清華

時間：2022.5.29

???https://github.com/THUDM/CogVideo.??

簡單介紹：基于兩階段的transformer（生成+幀間插值）來做文生視頻

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

IMAGEN VIDEO

機構(gòu)：Google

時間：2022.10.5

簡單介紹：基于google的Imagen來做的時序擴展，而Imagen和Imagen video都沒有開源

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

機構(gòu)：Picsart AI Resarch

時間：2023.3.23

???https://github.com/Picsart-AI-Research/Text2Video-Zero???

簡單介紹：基于圖像diffusion model引入corss-frame attention來做時序建模，其次通過顯著性檢測來實現(xiàn)背景平滑。

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

MagicVideo: Efficient Video GenerationWith Latent Diffusion Models

機構(gòu)：字節(jié)

時間：2023.5.11

簡單介紹：直接將圖像SD架構(gòu)擴展成視頻，增加了時序信息

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

機構(gòu)：上海 AI Lab

時間：2023.7.11

???https://animatediff.github.io/???

簡單介紹：基于圖像diffusion model，訓練一個運動建模模塊，來學習運動信息

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

機構(gòu)：騰訊 AI Lab

時間：2023.10.30

???https://ailab-cvc.github.io/videocrafter???

簡單介紹：基于diffusion模型，網(wǎng)絡架構(gòu)采用空間和時序attention操作來實現(xiàn)視頻生成

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

圖生視頻

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

機構(gòu)：上海 AI Lab

時間：2023.7.11

???https://animatediff.github.io/??

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

機構(gòu)：騰訊 AI Lab

時間：2023.10.30

???https://ailab-cvc.github.io/videocrafter??

stable video diffusion

機構(gòu)：Stability AI

時間：2023.11.21

???https://stability.ai/news/stable-video-diffusion-open-ai-video-model???

簡單介紹：基于SD2.1增加時序?qū)?，來進行視頻生成

AnimateZero: Video Diffusion Models are Zero-Shot Image Animators

機構(gòu)：騰訊 AI Lab

時間：2023.12.6

???https://github.com/vvictoryuki/AnimateZero（未開源）??

簡單介紹：基于Animate Diff增加了位置相關的attention

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance

機構(gòu)：阿里

時間：2023.12.4

???https://animationai.github.io/AnimateAnything/???

簡單介紹：可以針對特定位置進行動態(tài)化，通過學習運動信息實現(xiàn)時序信息生成

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

LivePhoto: Real Image Animation with Text-guided Motion Control

機構(gòu)：阿里

時間：2023.12.5

???https://xavierchen34.github.io/LivePhoto-Page/（未開源）??

簡單介紹：將參考圖，運動信息拼接作為輸入，來進行圖像的動態(tài)化

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

視頻風格化

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

機構(gòu)：南洋理工

時間：2023.12.17

??https://www.mmlab-ntu.com/project/rerender/???

簡單介紹：基于SD+controlnet，結(jié)合cros-frame attention來風格化視頻序列

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

DCTNet

機構(gòu)：阿里達摩院

時間：2022.7.6

???https://github.com/menyifang/DCT-Net/???

簡單介紹：基于GAN的框架做的視頻風格化，目前支持7種不同的風格

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

視頻編輯

主要是將深度圖或者其他條件圖（canny/hed），通過網(wǎng)絡注入Diffusion model中，控制整體場景生成，并通過prompt設計來控制主體目標的外觀。其中controlnet被遷移進入視頻編輯領域，出現(xiàn)了一系列controlnetvideo的工作。

Structure and Content-Guided Video Synthesis with Diffusion Models

機構(gòu)：Runway

時間：2023.2.6

???https://research.runwayml.com/gen1??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Animate diff+ControlNet（基于WebUI API）

Video-P2P: Video Editing with Cross-attention Control

機構(gòu)：港中文，adobe

時間：2023.3.8

???https://video-p2p.github.io/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Pix2Video: Video Editing using Image Diffusion

機構(gòu)：Abode

時間：2023.3.22

???https://duyguceylan.github.io/pix2video.github.io/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

機構(gòu)：浙大

時間：2023.5.21

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

ControlVideo: Training-free Controllable Text-to-Video Generation

機構(gòu)：華為

時間：2023.5.22

???https://github.com/YBYBZhang/ControlVideo??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

ControlVideo: Conditional Control for One-shot Text-driven Video Editing and Beyond

機構(gòu)：清華

時間：2023.11.28

???https://github.com/thu-ml/controlvideo??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

時間：2023.12.6

???https://controlavideo.github.io/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

StableVideo: Text-driven Consistency-aware Diffusion Video Editing

機構(gòu)：MSRA

時間：2023.8.18

???https://github.com/rese1f/StableVideo??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

MagicEdit: High-Fidelity and Temporally Coherent Video Editing

機構(gòu)：字節(jié)

時間：2023.8.28

???https://magic-edit.github.io/（未開源）??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

GROUND-A-VIDEO: ZERO-SHOT GROUNDED VIDEO EDITING USING TEXT-TO-IMAGE DIFFUSION MODELS

機構(gòu)：KAIST

時間：2023.10.2

???https://ground-a-video.github.io/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

機構(gòu)：騰訊AI Lab

時間：2023.10.11

???https://fate-zero-edit.github.io??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Motion-Conditioned Image Animation for Video Editing

機構(gòu)：Meta

時間：2023.11.30

facebookresearch.github.io/MoCA（未開源）

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing

機構(gòu)：Sorbonne Université, Paris, France

時間：2023.12.15

???https://videdit.github.io??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

時間：2024.1.4

???https://github.com/baaivision/vid2vid-zero??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

人物動態(tài)化

主要是通過人體姿態(tài)作為條件性輸入（結(jié)合controlnet等），將一張圖作為前置參考圖，或者直接使用文本描述生成圖片。其中阿里和字節(jié)分別有幾篇代表性論文，其中字節(jié)的代碼有兩篇已經(jīng)開源，阿里的代碼還在等待階段。

Follow Your Pose

機構(gòu)：騰訊AI Lab

時間：2023.4.3

???https://follow-your-pose.github.io/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

機構(gòu)：google，nvidia

時間：2023.5.4

???https://grail.cs.washington.edu/projects/dreampose/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

DISCO: Disentangled Control for Realistic Human Dance Generation

機構(gòu)：微軟

時間：2023.10.11

???https://disco-dance.github.io??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

機構(gòu)：字節(jié)

時間：2023.11.27

???https://showlab.github.io/magicanimate/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

MaigcDance

機構(gòu)：字節(jié)

時間：2023.11.18

???https://boese0601.github.io/magicdance/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

機構(gòu)：阿里

時間：2023.12.7

???https://humanaigc.github.io/animate-anyone/（未開源）??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

DreaMoving: A Human Video Generation Framework based on Diffusion Model

機構(gòu)：阿里

時間：2023.12.11

???https://dreamoving.github.io/dreamoving（未開源）??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

長視頻生成

NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation

機構(gòu)：微軟亞研院

時間：2023.3.22

???https://msra-nuwa.azurewebsites.net/??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Latent Video Diffusion Models for High-Fidelity Long Video Generation

機構(gòu)：騰訊AI Lab

時間：2023.3.20

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

機構(gòu)：上海AI Lab

時間：2023.3.29

??https://github.com/G-U-N/Gen-L-Video??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Sora（OpenAI）

時間：2024.2

???https://openai.com/sora（未開源）??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Latte: Latent Diffusion Transformer for Video Generation

機構(gòu)：上海AI Lab

時間：2024.1.5

???https://maxin-cn.github.io/latte_project??

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

四、算法效果分析

本章節(jié)選擇了一些代表性的方法進行效果分析

Animate Diff

效果：??https://animatediff.github.io/??，支持文生視頻，圖生視頻，以及和controlnet結(jié)合做視頻編輯

Animate Diff+ControlNet

輸入視頻：moonwalk.mp4?

輸出樣例

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

注意：要輸入主語保證主體一致性

AnimateAnything

能夠指定圖片的運動區(qū)域，根據(jù)文本進行圖片的動態(tài)化

效果：

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Stable Video Diffusion

能夠基于靜止圖片生成25幀的序列(576x1024)

效果：

52個AIGC視頻生成算法模型介紹-AI.x社區(qū) 圖片

ControlVideo

輸入+輸出樣例：500.mp4，300.mp4，整體效果不錯

問題：因為推理過程需要額外的訓練，消耗時間久，第一個視頻需要50min（32幀），第二個視頻需要14min（8幀）

Rerender A Video

整體效果還可以，運行速度和視頻幀數(shù)有關，10s視頻大約在20min左右。

DCTNet

效果：整體畫面穩(wěn)定，支持7種風格，顯存要求低（6-7G），上面視頻40s左右就可以處理完

DreamPose

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Animate Anyone

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

MagicDance

輸入圖片：

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

輸出：

52個AIGC視頻生成算法模型介紹-AI.x社區(qū)

Sora

效果：https://openai.com/sora?

能夠生成長視頻，質(zhì)量很好，但是尚未開源

五、總結(jié)和展望

文生視頻和圖生視頻算法：其中Animate Diff，VideoCrafter等已經(jīng)開源，支持文/圖生成視頻，并且經(jīng)過測試效果還不錯，同時圖生視頻還支持通過結(jié)合不同的base模型實現(xiàn)視頻的風格化。不過生成的視頻幀數(shù)基本都在2s以內(nèi)，可以作為動圖的形式進行展示。其中Stable Video Diffusion是stability ai開源的一個圖生視頻的算法，效果相對更加逼真，視頻質(zhì)量更高，但是視頻長度依舊很短。
視頻編輯算法：比如基于controlnet的可控生成視頻可以初步達到預期的效果，支持實現(xiàn)特定目標或者屬性（顏色等）的更換，也支持人物的換裝（比如顏色描述）等等，其中生成的視頻長度和GPU顯存相關。
視頻風格化：基于diffusion 模型的視頻風格化效果最好的是rerender a video，可以支持prompt描述來進行視頻的風格化，整體來講這個方法對人臉和自然環(huán)境有比較好的效果，運行成本也相對較低（相較于視頻編輯算法）
特定的人物動態(tài)化算法：目前demo效果最好的animate anyone和dream moving都還沒有開源。不過這兩個算法都對外開放了使用接口，比如通義千問app以及modelscope平臺。重點介紹一下通義實驗室的Dream moving，??https://www.modelscope.cn/studios/vigen/video_generation/summary??是其開放的使用平臺，里面支持同款的動作生成，圖生視頻，視頻的風格化以及視頻賀卡等功能，整體來講效果很好。而目前開源的方法中，測試的效果最好的是MagicDance，但是人臉有一定的模糊，距離animate anyone和dream moving展示的效果還有差距。
長視頻算法：隨著Sora的出現(xiàn)，Diffusion Transformer的架構(gòu)后續(xù)會備受關注，目前大部分算法都局限于2s左右的短視頻生成，而且質(zhì)量上不如Sora。后續(xù)會有更多的算法將Sora的思路融入現(xiàn)有的方法中，不斷提升視頻質(zhì)量和視頻長度。不過目前sora的模型和實現(xiàn)細節(jié)并沒有在技術報告中公開，因此在未來還會有一段的摸索路要走。
整體總結(jié)：

	是否可用	優(yōu)勢	劣勢	適用場景	代表性方法
文/圖生視頻	是	視頻質(zhì)量高	視頻長度短	短視頻動態(tài)封面	Animate Diff（可擴展性強） VideoCrafter（質(zhì)量較好） Stable Video Diffusion（質(zhì)量更好）
視頻編輯算法	待定	算法種類多，可實現(xiàn)的功能多（修改任意目標的屬性）	推理速度較慢，顯存要求高，視頻長度短	人物換裝（最簡單的改變衣服顏色），目標編輯，用戶體驗	ControlVideo（效果好但運行時間久）
視頻風格化	是	顯存要求相對視頻編輯更低，推理速度更快。	畫面存在一定的不穩(wěn)定問題。但是基于GAN的DCTNet相對更穩(wěn)定	用戶體驗	Rerender-A-Video（更靈活） DCTNet（效果更穩(wěn)定）
人物動態(tài)化	待定	用戶可玩性高	效果最好的代碼暫時沒有開源，開源的代碼生成的人臉會有一定的模糊	用戶體驗	Animate Anyone（待開源） DreamMoving（待開源） MagicDance（已開源）
長視頻生成	否	視頻長度遠超2s	整體質(zhì)量偏差（Sora還沒開源）	影視制作	Sora

本文轉(zhuǎn)載自大淘寶技術，作者：壹水

原文鏈接：??https://mp.weixin.qq.com/s/0OSmaXd9KAe6yOJkO627VQ??

標簽

贊

收藏

回復

舉報

回復

相關推薦

AtomoVideo：AIGC賦能下的電商視頻動效生成

jordana ? 3311瀏覽 ? 0回復
Sora之后，OpenAI Lilian Weng親自撰文教你從頭設計視頻生成擴散模型

輕薄滴假象 ? 2330瀏覽 ? 0回復
阿里巴巴AI研究團隊打破視頻生成技術壁壘，EasyAnimate實現(xiàn)高質(zhì)量長視頻生成

Syrupup ? 3710瀏覽 ? 0回復
AI恐怖體操視頻腿腳亂飛、大變活人，LeCun：視頻生成模型根本不懂物理

Crystalcxt ? 2150瀏覽 ? 0回復
視覺文本視頻生成最強方案！Text-Animator效果確實好！

angel ? 2686瀏覽 ? 0回復
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 2765瀏覽 ? 0回復
長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

angel ? 8028瀏覽 ? 0回復
視頻生成類大模型實現(xiàn)原理以及應用和難點

AI探索時代 ? 3498瀏覽 ? 0回復
長視頻生成再突破！高質(zhì)量連貫達600幀 | ConFiner：專家鏈加持的免訓練長視頻生成器

angel ? 2250瀏覽 ? 0回復
一文詳解3D內(nèi)容生成算法（樸素/2D先驗/混合型）

angel ? 3877瀏覽 ? 0回復
【活動結(jié)果公布】AIGC創(chuàng)新先鋒者征文大賽懸賞召集?

AI.x社區(qū)官方賬號 ? 6206瀏覽 ? 0回復
Meta Movie Gen：新的 SOTA 視頻生成模型-技術報告解讀

amei2000go ? 3324瀏覽 ? 0回復
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2307瀏覽 ? 0回復
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1795瀏覽 ? 0回復
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓練的系統(tǒng)框架

Halo咯咯 ? 2544瀏覽 ? 0回復
港大&字節(jié)發(fā)布領先商用級圖像視頻生成模型Goku有點東西

angel ? 2105瀏覽 ? 0回復
阿里發(fā)布通義萬相2.1 :最佳視頻生成模型

Halo咯咯 ? 2472瀏覽 ? 0回復
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 477瀏覽 ? 0回復
AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過跨模態(tài)對齊生成主題一致的視頻，超多應用場景

AIGCStudio ? 197瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

今日arXiv最熱NLP大模型論文：浙大發(fā)布歌曲合成工具Prompt-Singer，歌手性別風格均可控！ 2024-04-03 09:44:58發(fā)布
華盛頓大學撰文反駁微軟，我們無法刪除大模型關于哈利波特的記憶 2024-04-03 09:33:28發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：今日arXiv最熱大模型論文：清華把大模型用于城市規(guī)劃，回龍觀和大紅門地區(qū)成研究對象

下一篇： AIGC圖像技術在淘寶人生2的探索和應用

社區(qū)精華內(nèi)容

目錄

<legend id="qixhl"><track id="qixhl"></track></legend>

<sub id="qixhl"><p id="qixhl"></p></sub>