自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Adobe與MIT推出自回歸實時視頻生成技術(shù)CausVid。AI可以邊生成視頻邊實時播放!

人工智能 新聞
我們的模型在 VBench-Long 基準上獲得了 84.27 的總分,超越了所有以前的視頻生成模型。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

傳統(tǒng)的雙向擴散模型(頂部)可提供高質(zhì)量的輸出,但存在顯著的延遲,需要 219 秒才能生成 128 幀的視頻。用戶必須等待整個序列完成才能查看任何結(jié)果。相比之下CausVid將雙向擴散模型提煉為幾步自回歸生成器(底部),大大降低了計算開銷。CausVid的初始延遲僅為1.3秒,之后以大約 9.4 FPS 的速度以流式方式連續(xù)生成幀,從而促進了視頻內(nèi)容創(chuàng)建的交互式工作流程。

就像從下載整部電影到直接觀看流媒體的轉(zhuǎn)變,在模型生成首幀畫面后,視頻便可以即時播放,后續(xù)內(nèi)容則動態(tài)生成并無縫銜接。AI生成視頻,邊生成邊實時播放,終于不用等了!

圖片

相關(guān)鏈接

  • 論文地址:https://arxiv.org/abs/2412.07772
  • 項目鏈接:https://causvid.github.io/

論文介紹

當前的視頻擴散模型實現(xiàn)了令人印象深刻的生成質(zhì)量,但由于雙向注意力依賴性,在交互式應(yīng)用中表現(xiàn)不佳。生成單個幀需要模型處理整個序列,包括未來。我們通過將預(yù)訓練的雙向擴散變壓器調(diào)整為可即時生成幀的自回歸變壓器來解決這一限制。為了進一步減少延遲,我們將分布匹配蒸餾 (DMD) 擴展到視頻,將 50 步擴散模型蒸餾為 4 步生成器。為了實現(xiàn)穩(wěn)定和高質(zhì)量的蒸餾,我們引入了基于教師 ODE 軌跡的學生初始化方案,以及監(jiān)督具有雙向教師的因果學生模型的非對稱蒸餾策略。這種方法有效地減輕了自回歸生成中的錯誤積累,盡管在短片段上進行訓練,但仍允許長時間的視頻合成。我們的模型在 VBench-Long 基準上獲得了 84.27 的總分,超越了所有以前的視頻生成模型。得益于 KV 緩存,它能夠在單 GPU 上以 9.4 FPS 的速度快速流式生成高質(zhì)量視頻。我們的方法還能夠以零樣本方式實現(xiàn)流式視頻到視頻的轉(zhuǎn)換、圖像到視頻和動態(tài)提示。我們將在未來基于開源模型發(fā)布代碼。

CausVid 方法概述

圖片我們的方法將多步雙向視頻傳播模型的數(shù)據(jù)提煉為4步因果生成器G ?。訓練過程包括兩個階段:(1)學生初始化:我們通過在由雙向教師生成的一小組 ODE 解對上對其進行預(yù)訓練來初始化因果學生。此步驟有助于穩(wěn)定后續(xù)的蒸餾訓練。(2)非對稱蒸餾:使用雙向教師模型,我們 通過分布匹配蒸餾損失 來訓練因果學生生成器。

一流的文本轉(zhuǎn)視頻生成質(zhì)量

我們的模型在 VBench 上獲得了 84.27 的總分(參見 VBench 排行榜),在所有經(jīng)過驗證的提交中排名第一,并以 9.4 FPS 的速度在單個 GPU 上實現(xiàn)了快速流式推理。雷達圖直觀地展示了我們的方法在幾個關(guān)鍵指標上的綜合性能優(yōu)勢,包括動態(tài)程度、美學質(zhì)量、成像質(zhì)量、對象類別、多個對象和人類動作。此外,根據(jù)我們的人工評估,我們的快速模型超越了競爭方法(例如 CogVideoX、PyramidFlow、MovieGen 和我們的雙向教師),所有這些方法的速度都明顯慢了幾個數(shù)量級。

圖片

交互式用戶界面

我們展示了一個交互式用戶界面 (UI),其特點是文本到 10 秒的視頻生成、通過滑動窗口推理的無限長視頻生成以及圖像到視頻的生成功能。圖片

效果展示

我們的方法支持多種視頻生成任務(wù)。該模型可以從單個文本提示(頂行)或附加圖像輸入(第二行)生成視頻。我們的模型還支持交互式應(yīng)用程序,其中生成結(jié)果以低延遲響應(yīng)用戶輸入。例如,它可以為基本游戲引擎渲染的輸出添加逼真的紋理和燈光,該引擎可以動態(tài)響應(yīng)用戶輸入(第三行)。此外,它還支持動態(tài)提示(第四行),允許用戶在視頻中的任何位置輸入新提示,以構(gòu)建具有不斷發(fā)展的動作和環(huán)境的擴展敘述。

圖片

圖片

CausVid 表明自回歸視頻擴散可以有效地擴展到一般的文本到視頻任務(wù), 實現(xiàn)與雙向擴散模型相當?shù)馁|(zhì)量。此外,當與蒸餾技術(shù)結(jié)合使用時,它可以提供多個數(shù)量級的加速。

圖片

CausVid 專門針對文本到視頻生成進行訓練,由于其自回歸設(shè)計,可以零樣本應(yīng)用于圖像到視頻任務(wù)。在所示的示例中,第一列表示輸入圖像,而后續(xù)幀表示生成的輸出。

責任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2024-12-10 15:30:00

AI模型

2024-10-28 07:30:00

2024-12-12 08:35:58

2024-04-07 14:56:22

技術(shù)應(yīng)用

2024-11-08 17:34:38

2025-03-27 09:24:16

2023-04-03 10:04:44

開源模型

2024-11-21 13:30:00

2025-01-26 10:50:00

模型視頻生成

2024-02-04 19:58:27

谷歌AI視頻生成器

2023-12-20 15:26:13

AI谷歌

2024-07-01 13:02:53

2024-02-23 15:53:13

OpenAISora人工智能

2025-04-28 09:28:14

2020-06-08 10:03:33

視頻AI動畫

2009-05-13 09:57:33

AdobeStrobe框架

2021-08-13 15:07:02

模型人工智能深度學習

2024-02-19 08:31:10

SoraAIOpenAI

2024-11-18 10:50:39

2024-12-20 09:30:00

模型訓練數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號