Adobe與MIT推出自回歸實時視頻生成技術(shù)CausVid。AI可以邊生成視頻邊實時播放!
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
傳統(tǒng)的雙向擴散模型(頂部)可提供高質(zhì)量的輸出,但存在顯著的延遲,需要 219 秒才能生成 128 幀的視頻。用戶必須等待整個序列完成才能查看任何結(jié)果。相比之下CausVid將雙向擴散模型提煉為幾步自回歸生成器(底部),大大降低了計算開銷。CausVid的初始延遲僅為1.3秒,之后以大約 9.4 FPS 的速度以流式方式連續(xù)生成幀,從而促進了視頻內(nèi)容創(chuàng)建的交互式工作流程。
就像從下載整部電影到直接觀看流媒體的轉(zhuǎn)變,在模型生成首幀畫面后,視頻便可以即時播放,后續(xù)內(nèi)容則動態(tài)生成并無縫銜接。AI生成視頻,邊生成邊實時播放,終于不用等了!
相關(guān)鏈接
- 論文地址:https://arxiv.org/abs/2412.07772
- 項目鏈接:https://causvid.github.io/
論文介紹
當前的視頻擴散模型實現(xiàn)了令人印象深刻的生成質(zhì)量,但由于雙向注意力依賴性,在交互式應(yīng)用中表現(xiàn)不佳。生成單個幀需要模型處理整個序列,包括未來。我們通過將預(yù)訓練的雙向擴散變壓器調(diào)整為可即時生成幀的自回歸變壓器來解決這一限制。為了進一步減少延遲,我們將分布匹配蒸餾 (DMD) 擴展到視頻,將 50 步擴散模型蒸餾為 4 步生成器。為了實現(xiàn)穩(wěn)定和高質(zhì)量的蒸餾,我們引入了基于教師 ODE 軌跡的學生初始化方案,以及監(jiān)督具有雙向教師的因果學生模型的非對稱蒸餾策略。這種方法有效地減輕了自回歸生成中的錯誤積累,盡管在短片段上進行訓練,但仍允許長時間的視頻合成。我們的模型在 VBench-Long 基準上獲得了 84.27 的總分,超越了所有以前的視頻生成模型。得益于 KV 緩存,它能夠在單 GPU 上以 9.4 FPS 的速度快速流式生成高質(zhì)量視頻。我們的方法還能夠以零樣本方式實現(xiàn)流式視頻到視頻的轉(zhuǎn)換、圖像到視頻和動態(tài)提示。我們將在未來基于開源模型發(fā)布代碼。
CausVid 方法概述
我們的方法將多步雙向視頻傳播模型的數(shù)據(jù)提煉為4步因果生成器G ?。訓練過程包括兩個階段:(1)學生初始化:我們通過在由雙向教師生成的一小組 ODE 解對上對其進行預(yù)訓練來初始化因果學生。此步驟有助于穩(wěn)定后續(xù)的蒸餾訓練。(2)非對稱蒸餾:使用雙向教師模型,我們 通過分布匹配蒸餾損失 來訓練因果學生生成器。
一流的文本轉(zhuǎn)視頻生成質(zhì)量
我們的模型在 VBench 上獲得了 84.27 的總分(參見 VBench 排行榜),在所有經(jīng)過驗證的提交中排名第一,并以 9.4 FPS 的速度在單個 GPU 上實現(xiàn)了快速流式推理。雷達圖直觀地展示了我們的方法在幾個關(guān)鍵指標上的綜合性能優(yōu)勢,包括動態(tài)程度、美學質(zhì)量、成像質(zhì)量、對象類別、多個對象和人類動作。此外,根據(jù)我們的人工評估,我們的快速模型超越了競爭方法(例如 CogVideoX、PyramidFlow、MovieGen 和我們的雙向教師),所有這些方法的速度都明顯慢了幾個數(shù)量級。
交互式用戶界面
我們展示了一個交互式用戶界面 (UI),其特點是文本到 10 秒的視頻生成、通過滑動窗口推理的無限長視頻生成以及圖像到視頻的生成功能。
效果展示
我們的方法支持多種視頻生成任務(wù)。該模型可以從單個文本提示(頂行)或附加圖像輸入(第二行)生成視頻。我們的模型還支持交互式應(yīng)用程序,其中生成結(jié)果以低延遲響應(yīng)用戶輸入。例如,它可以為基本游戲引擎渲染的輸出添加逼真的紋理和燈光,該引擎可以動態(tài)響應(yīng)用戶輸入(第三行)。此外,它還支持動態(tài)提示(第四行),允許用戶在視頻中的任何位置輸入新提示,以構(gòu)建具有不斷發(fā)展的動作和環(huán)境的擴展敘述。
CausVid 表明自回歸視頻擴散可以有效地擴展到一般的文本到視頻任務(wù), 實現(xiàn)與雙向擴散模型相當?shù)馁|(zhì)量。此外,當與蒸餾技術(shù)結(jié)合使用時,它可以提供多個數(shù)量級的加速。
CausVid 專門針對文本到視頻生成進行訓練,由于其自回歸設(shè)計,可以零樣本應(yīng)用于圖像到視頻任務(wù)。在所示的示例中,第一列表示輸入圖像,而后續(xù)幀表示生成的輸出。