自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RTX3090可跑,360AI團(tuán)隊(duì)開(kāi)源最新視頻模型FancyVideo,紅衣大叔都說(shuō)好

人工智能 新聞
近日,開(kāi)源社區(qū)又迎來(lái)一款強(qiáng)力的「視頻生成」工作,可以在消費(fèi)級(jí)顯卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意寬高比、不同風(fēng)格、不同運(yùn)動(dòng)幅度的視頻,其衍生模型還能夠完成視頻擴(kuò)展、視頻回溯的功能……

論文作者之一 Ao Ma,碩士畢業(yè)于中科院計(jì)算所,曾在 MSRA 視覺(jué)計(jì)算組和阿里通義實(shí)驗(yàn)室進(jìn)行學(xué)術(shù)研究和算法落地工作。目前是奇虎 360-AIGC 團(tuán)隊(duì)-視頻生成方向負(fù)責(zé)人,長(zhǎng)期致力于視覺(jué)生成方向研究和落地,以及開(kāi)源社區(qū)建設(shè)。

近日,開(kāi)源社區(qū)又迎來(lái)一款強(qiáng)力的「視頻生成」工作,可以在消費(fèi)級(jí)顯卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意寬高比、不同風(fēng)格、不同運(yùn)動(dòng)幅度的視頻,其衍生模型還能夠完成視頻擴(kuò)展、視頻回溯的功能…… 這便是 360AI 團(tuán)隊(duì)和中山大學(xué)聯(lián)合研發(fā)的 FancyVideo,一種基于 UNet 架構(gòu)的視頻生成模型。

作者基于已經(jīng)開(kāi)源的 61 幀模型,實(shí)測(cè)效果如下。

首先適配不同分辨率、寬高比:

其次支持不同風(fēng)格:

最后生成不同運(yùn)動(dòng)性:

圖片

  • 論文地址:https://arxiv.org/abs/2408.08189
  • 項(xiàng)目主頁(yè):https://fancyvideo.github.io/
  • 代碼倉(cāng)庫(kù):https://github.com/360CVGroup/FancyVideo
  • 論文標(biāo)題:FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

跨幀文本引導(dǎo)模塊

作者在進(jìn)行視頻生成研究過(guò)程中,發(fā)現(xiàn)現(xiàn)有的文本到視頻(T2V)工作通常會(huì)采用空間交叉注意力(Spatial Cross Attention),將文本等價(jià)地引導(dǎo)至不同幀的生成過(guò)程中,缺乏對(duì)不同幀靈活性的文本引導(dǎo)(如下圖左)。這會(huì)導(dǎo)致模型理解提示詞所傳達(dá)的時(shí)間邏輯和生成具有連續(xù)運(yùn)動(dòng)視頻的能力受到限制。

FancyVideo 正是從這一角度切入,特殊設(shè)計(jì)了跨幀文本引導(dǎo)模塊(Cross-frame Textual Guidance Module, CTGM, 如下圖右)改進(jìn)了現(xiàn)有文本控制機(jī)制。

具體來(lái)說(shuō),CTGM 包含 3 個(gè)子模塊:

  • 時(shí)序信息注入器(Temporal Information Injector, TII)-- 將來(lái)自潛在特征的幀特定信息注入文本條件中,從而獲得跨幀文本條件;
  • 時(shí)序特征提取器(Temporal Affinity Refiner, TAR)-- 沿時(shí)間維度細(xì)化跨幀文本條件與潛在特征之間的相關(guān)矩陣;
  • 時(shí)序特征增強(qiáng)器(Temporal Feature Booster, TFB)-- 增強(qiáng)了潛在特征的時(shí)間一致性。

圖片

FancyVideo 訓(xùn)練流程

FancyVideo 整體訓(xùn)練 Pipeline 如下所示。其中在模型結(jié)構(gòu)方面,F(xiàn)ancyVideo 選擇在 2D T2I 模型基礎(chǔ)上插入時(shí)序?qū)雍突?CTGM 的運(yùn)動(dòng)性模塊的方式構(gòu)造 T2V 模型。在生成視頻時(shí),先進(jìn)行 T2I 操作生成首幀,再進(jìn)行 I2V。這既保存了 T2I 模型的能力,使視頻整體畫(huà)質(zhì)變高,又大大減少了訓(xùn)練代價(jià)。

此外,為實(shí)現(xiàn)運(yùn)動(dòng)控制的能力,F(xiàn)ancyVideo 在訓(xùn)練階段將基于 RAFT 提取視頻運(yùn)動(dòng)信息和 time embedding 一起注入到網(wǎng)絡(luò)中。

圖片

實(shí)驗(yàn)結(jié)果

作者通過(guò)定量和定性?xún)蓚€(gè)方面對(duì)模型效果進(jìn)行評(píng)估。他們首先在 EvalCrafter Benchmark 上比較了 FancyVideo 和其他 T2V 模型,可以看到 FancyVideo 在視頻生成質(zhì)量、文本一致性、運(yùn)動(dòng)性和時(shí)序一致性方面均處于領(lǐng)先位置。

圖片

論文還在 UCF-101 和 MSR-VTT Benchmark 上進(jìn)行了 Zero-shot 的評(píng)測(cè),在衡量生成視頻豐富性的 IS 指標(biāo)和文本一致性的 CLIPSIM 指標(biāo)均取得了 SOTA 結(jié)果。

圖片

此外,論文還基于 FancyVideo 模型的 T2V 和 I2V 能力分別和前人方法進(jìn)行了人工評(píng)測(cè),結(jié)果顯示在視頻生成質(zhì)量、文本一致性、運(yùn)動(dòng)性和時(shí)序一致性角度 FancyVideo 均處于領(lǐng)先。

圖片

最后,論文中采用消融實(shí)驗(yàn)探究了 CTGM 的不同子模塊對(duì)于視頻生成結(jié)果的影響,以驗(yàn)證各個(gè)子模塊的合理性和有效性。

圖片

應(yīng)用場(chǎng)景

基于這種訓(xùn)練 pipline 和策略,F(xiàn)ancyVideo 可以同時(shí)完成 T2V 和 I2V 功能,還可以在生成關(guān)鍵關(guān)鍵幀的基礎(chǔ)上進(jìn)行插幀操作:

圖片

視頻擴(kuò)展、視頻回溯操作:

圖片

FancyVideo 上線開(kāi)源社區(qū)不到一周,已經(jīng)有手快的同學(xué)自發(fā)搭建了 FancyVideo 的 ComfyUI 插件,讓大家可以在自己的機(jī)器上玩的開(kāi)心。

圖片

此外,據(jù)作者了解,后續(xù) FancyVideo 團(tuán)隊(duì)除了會(huì)放出更長(zhǎng)、效果更好的模型到開(kāi)源社區(qū),還計(jì)劃上線網(wǎng)頁(yè)版本供大家【免費(fèi)】使用。在 AIGC 時(shí)代,人人都是「能詩(shī)會(huì)畫(huà)」的藝術(shù)家。

結(jié)論

相比于 SORA 類(lèi)視頻生成「產(chǎn)品」的發(fā)展,開(kāi)源社區(qū)中視頻生成模型的更新和迭代顯得略微緩慢,F(xiàn)ancyVideo 的發(fā)布也給了普通用戶(hù)更多選擇。相信在社區(qū)小伙伴共同的努力下,視頻生成這一目前看上去費(fèi)時(shí)費(fèi)力的任務(wù),能夠成為更多普通小伙伴日常生活、工作中的工具。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-12 14:20:00

模型AI

2024-11-25 10:30:00

AI視頻開(kāi)源

2023-12-27 13:42:39

模型訓(xùn)練

2023-02-22 14:47:24

模型AI

2023-01-05 12:50:24

Windows 11Ubuntu

2023-01-09 13:18:59

AI

2023-06-13 17:40:49

360360智腦大模型

2023-07-05 15:26:30

2025-02-14 09:30:00

視頻生成模型開(kāi)源機(jī)器人

2021-07-06 10:21:55

Facebook AI開(kāi)源

2023-03-22 07:44:12

RTX12GB顯存

2024-12-18 15:02:48

2025-03-26 08:53:47

2025-04-16 09:46:46

2024-02-22 07:44:02

2024-02-29 18:14:45

周鴻祎360

2025-03-03 09:40:00

2020-03-02 19:08:21

JVMJDKJRE

2020-03-12 12:31:01

開(kāi)源谷歌量子AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)