AI視頻邊生成邊播放!首幀延遲僅1.3秒,生成速度9.4幀/秒|Adobe&MIT新研究
AI生成視頻,邊生成邊實時播放,再不用等了!
Adobe與MIT聯(lián)手推出自回歸實時視頻生成技術——CausVid。
思路就像從下載整部電影到直接觀看流媒體的轉變,在模型生成首幀畫面后,視頻便可以即時播放,后續(xù)內容則動態(tài)生成并無縫銜接。
如果你用過視頻生成模型,一定對漫長的等待時間記憶深刻,生成一段10秒的視頻,往往需要等待好幾分鐘才可以開始觀看。
研究團隊表示,這一延遲的根本原因在于:傳統(tǒng)視頻生成模型普遍采用的雙向注意力機制,每一幀都需要參考前后幀的信息。
這就像寫故事時必須先構思好整個劇情的所有細節(jié)才能動筆,在完整視頻生成完畢前,你看不到任何畫面。
為此,他們提出了一種全新的解決方案,通過蒸餾預訓練的雙向擴散模型(DiT),構建自回歸生成模型。
實驗中,CausVid基于自回歸生成的特性,無需額外訓練就能支持多種應用,生成速度和質量均顯著超越現(xiàn)有方法。
研究團隊還表示將很快開源基于開源模型的實現(xiàn)代碼。
用雙向教師監(jiān)督單向自回歸學生模型
如前所述,研究團隊通過蒸餾預訓練的雙向擴散模型(DiT),構建自回歸生成模型。
為了進一步提速實現(xiàn)實時視頻生成,作者通過分布匹配蒸餾(DMD)將生成步驟從50步縮減到僅需4步。
DMD是一種擴散模型蒸餾技術,將多步擴散模型轉換為快速的單步生成器。DMD此前已在圖像生成中取得成功,Adobe Firefly文生圖的快速模式就是基于此技術。
本次研究團隊將其創(chuàng)新性地應用到視頻擴散模型中,實現(xiàn)了顯著加速。
然而,自回歸模型有一個核心難題——誤差累積。
每一幀視頻都基于之前的幀生成,早期生成的任何細微缺陷都會被放大,導致生成的視頻逐漸偏離預期軌跡。
為了解決這一問題,團隊提出了非對稱蒸餾策略。具體來說:
引入一個擁有未來信息的雙向教師模型,在蒸餾訓練階段指導自回歸的單向學生模型。這種教師-學生結構允許模型在生成未來幀時具備更強的精確度。
使用雙向教師模型生成的的噪聲-數(shù)據配對來預訓練單向學生模型,提升其后蒸餾訓練過程的穩(wěn)定性。
在訓練過程中,針對不同時間點的視頻幀施加不同強度的噪聲,這一策略使模型能夠在測試時基于干凈的已生成幀對當前幀進行去噪。
通過這種創(chuàng)新性的非對稱蒸餾方法,CausVid顯著減少了自回歸模型的誤差累積問題,并生成了更高質量的視頻內容。
這種非對稱蒸餾形式中,學生模型和教師模型使用了不同的架構,而這只有在DMD風格的蒸餾中才可行。其他方法,例如漸進式蒸餾(Progressive Distillation)或一致性模型(Consistency Distillation),都要求學生模型和教師模型使用相同的架構。
下面是自回歸擴散視頻模型的誤差累積示例(左圖)和CausVid結果(右圖)對比:
實驗效果如何?
實驗中,CausVid表現(xiàn)驚艷:
- 首幀生成延遲從3.5分鐘降至1.3秒,提速170倍
- 生成速度從0.6幀/秒提升至9.4幀/秒,提升16倍
- 生成質量經VBench和用戶調查驗證,優(yōu)于主流模型例如Meta的MovieGen和智譜的CogVideoX
得益于單向注意力機制,CausVid完全支持在大語言模型中廣泛應用的KV緩存推理技術,從而顯著提升了生成效率。結合滑動窗口機制,CausVid突破了傳統(tǒng)模型的長度限制。
盡管訓練階段僅接觸過10秒的視頻,CausVid依然能夠生成長達30秒甚至更長的視頻,其生成速度和質量均顯著超越現(xiàn)有方法。
基于自回歸生成的特性,CausVid無需額外訓練就能支持多種應用:
- 圖片動畫化:將靜態(tài)圖片自然轉化為流暢視頻,賦予畫面生命力。
- 實時視頻風格轉換:如將Minecraft游戲畫面即時轉換為真實場景。這一技術為游戲渲染帶來全新思路:未來可能只需渲染基礎3D幾何信息,由AI實時補充紋理和光影
- 交互式劇情生成:用戶通過調整提示詞,實時引導視頻劇情發(fā)展,帶來全新的創(chuàng)作體驗。
項目鏈接:https://causvid.github.io/