自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="elq1q"></cite>

<cite id="elq1q"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Adobe與MIT推出自回歸實時視頻生成技術(shù)CausVid。AI可以邊生成視頻邊實時播放！

作者：AIGC Studio 2025-01-15 09:21:57

人工智能新聞

我們的模型在 VBench-Long 基準上獲得了 84.27 的總分，超越了所有以前的視頻生成模型。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

傳統(tǒng)的雙向擴散模型（頂部）可提供高質(zhì)量的輸出，但存在顯著的延遲，需要 219 秒才能生成 128 幀的視頻。用戶必須等待整個序列完成才能查看任何結(jié)果。相比之下CausVid將雙向擴散模型提煉為幾步自回歸生成器（底部），大大降低了計算開銷。CausVid的初始延遲僅為1.3秒，之后以大約 9.4 FPS 的速度以流式方式連續(xù)生成幀，從而促進了視頻內(nèi)容創(chuàng)建的交互式工作流程。

就像從下載整部電影到直接觀看流媒體的轉(zhuǎn)變，在模型生成首幀畫面后，視頻便可以即時播放，后續(xù)內(nèi)容則動態(tài)生成并無縫銜接。AI生成視頻，邊生成邊實時播放，終于不用等了！

相關(guān)鏈接

論文地址：https://arxiv.org/abs/2412.07772
項目鏈接：https://causvid.github.io/

論文介紹

當前的視頻擴散模型實現(xiàn)了令人印象深刻的生成質(zhì)量，但由于雙向注意力依賴性，在交互式應(yīng)用中表現(xiàn)不佳。生成單個幀需要模型處理整個序列，包括未來。我們通過將預(yù)訓練的雙向擴散變壓器調(diào)整為可即時生成幀的自回歸變壓器來解決這一限制。為了進一步減少延遲，我們將分布匹配蒸餾 (DMD) 擴展到視頻，將 50 步擴散模型蒸餾為 4 步生成器。為了實現(xiàn)穩(wěn)定和高質(zhì)量的蒸餾，我們引入了基于教師 ODE 軌跡的學生初始化方案，以及監(jiān)督具有雙向教師的因果學生模型的非對稱蒸餾策略。這種方法有效地減輕了自回歸生成中的錯誤積累，盡管在短片段上進行訓練，但仍允許長時間的視頻合成。我們的模型在 VBench-Long 基準上獲得了 84.27 的總分，超越了所有以前的視頻生成模型。得益于 KV 緩存，它能夠在單 GPU 上以 9.4 FPS 的速度快速流式生成高質(zhì)量視頻。我們的方法還能夠以零樣本方式實現(xiàn)流式視頻到視頻的轉(zhuǎn)換、圖像到視頻和動態(tài)提示。我們將在未來基于開源模型發(fā)布代碼。

CausVid 方法概述

我們的方法將多步雙向視頻傳播模型的數(shù)據(jù)提煉為4步因果生成器G ?。訓練過程包括兩個階段：（1）學生初始化：我們通過在由雙向教師生成的一小組 ODE 解對上對其進行預(yù)訓練來初始化因果學生。此步驟有助于穩(wěn)定后續(xù)的蒸餾訓練。（2）非對稱蒸餾：使用雙向教師模型，我們通過分布匹配蒸餾損失來訓練因果學生生成器。

一流的文本轉(zhuǎn)視頻生成質(zhì)量

我們的模型在 VBench 上獲得了 84.27 的總分（參見 VBench 排行榜），在所有經(jīng)過驗證的提交中排名第一，并以 9.4 FPS 的速度在單個 GPU 上實現(xiàn)了快速流式推理。雷達圖直觀地展示了我們的方法在幾個關(guān)鍵指標上的綜合性能優(yōu)勢，包括動態(tài)程度、美學質(zhì)量、成像質(zhì)量、對象類別、多個對象和人類動作。此外，根據(jù)我們的人工評估，我們的快速模型超越了競爭方法（例如 CogVideoX、PyramidFlow、MovieGen 和我們的雙向教師），所有這些方法的速度都明顯慢了幾個數(shù)量級。

交互式用戶界面

我們展示了一個交互式用戶界面 (UI)，其特點是文本到 10 秒的視頻生成、通過滑動窗口推理的無限長視頻生成以及圖像到視頻的生成功能。

效果展示

我們的方法支持多種視頻生成任務(wù)。該模型可以從單個文本提示（頂行）或附加圖像輸入（第二行）生成視頻。我們的模型還支持交互式應(yīng)用程序，其中生成結(jié)果以低延遲響應(yīng)用戶輸入。例如，它可以為基本游戲引擎渲染的輸出添加逼真的紋理和燈光，該引擎可以動態(tài)響應(yīng)用戶輸入（第三行）。此外，它還支持動態(tài)提示（第四行），允許用戶在視頻中的任何位置輸入新提示，以構(gòu)建具有不斷發(fā)展的動作和環(huán)境的擴展敘述。

CausVid 表明自回歸視頻擴散可以有效地擴展到一般的文本到視頻任務(wù)，實現(xiàn)與雙向擴散模型相當?shù)馁|(zhì)量。此外，當與蒸餾技術(shù)結(jié)合使用時，它可以提供多個數(shù)量級的加速。

CausVid 專門針對文本到視頻生成進行訓練，由于其自回歸設(shè)計，可以零樣本應(yīng)用于圖像到視頻任務(wù)。在所示的示例中，第一列表示輸入圖像，而后續(xù)幀表示生成的輸出。

責任編輯：張燕妮來源： AIGC Studio

模型生成 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="awjch"><rt id="awjch"></rt></blockquote>

<cite id="awjch"></cite>