無需訓練!多提示視頻生成最新SOTA!港中文&騰訊等發(fā)布DiTCtrl:基于MM-DiT架構 精華
文章鏈接:https://arxiv.org/pdf/2412.18597
項目鏈接:https://github.com/TencentARC/DiTCtrl
亮點直擊
- DiTCtrl,這是一種基于MM-DiT架構的、首次無需調優(yōu)的多提示視頻生成方法。本文的方法結合了新穎的KV共享機制和隱混合策略,使得不同提示之間能夠無縫過渡,且無需額外的訓練。
- 首度分析了MM-DiT的注意力機制,發(fā)現(xiàn)其3D全注意力與UNet-like擴散模型中的交叉/自注意力塊具有相似的行為,從而實現(xiàn)了基于mask的精確語義控制,使得不同提示之間的生成更加一致。
- 推出了MPVBench,這是一個專為多提示視頻生成設計的新基準,具有多種過渡類型和專門的評估指標,用于多提示視頻的評估。-大量實驗表明,本文的方法在多提示視頻生成任務上實現(xiàn)了業(yè)界領先的性能,同時保持了計算效率。
總結速覽
解決的問題
當前的視頻生成模型,尤其是基于單一提示(single-prompt)的模型,如Sora,主要聚焦于生成單一提示下的視頻內容。它們在生成多個順序提示(multi-prompt)的連貫場景時存在顯著挑戰(zhàn),尤其是在動態(tài)場景中需要反映多個動作時,面臨的問題包括:
- 訓練數(shù)據(jù)要求嚴格;
- 提示跟隨能力較弱;
- 轉場不自然,缺乏平滑過渡。
提出的方案本文提出了DiTCtrl方法。這是基于MM-DiT架構的、訓練無關的多提示視頻生成方法,首次能夠在沒有額外訓練的情況下生成多提示的視頻,且能夠保證多個提示之間的視頻內容平滑過渡。
應用的技術
- MM-DiT架構:多模態(tài)擴散Transformer(Multi-Modal Diffusion Transformer)架構被用于視頻生成任務,能夠有效處理文本、圖像和視頻的聯(lián)合表示。
- 3D全注意力機制:分析了MM-DiT的注意力機制,發(fā)現(xiàn)其3D全注意力與UNet-like擴散模型中的交叉/自注意力模塊相似,能夠在多個提示之間共享注意力,從而實現(xiàn)語義一致性。
- KV共享和隱混合策略:為實現(xiàn)視頻之間的平滑過渡,提出了鍵值共享(KV-sharing)機制和隱空間混合(latent blending)策略,以連接不同提示生成的視頻片段。
達到的效果
- 平滑過渡與一致性:通過DiTCtrl方法,生成的視頻在多個提示之間能夠實現(xiàn)平滑的過渡和一致的物體運動,而不需要額外的訓練。
- 高效性能:在MPVBench基準測試上,DiTCtrl在保持計算效率的同時,取得了最先進的性能。
- 新基準MPVBench:為了促進多提示視頻生成的研究,文章還提出了MPVBench基準,專門用于評估多提示視頻生成的過渡效果和性能。
方法
MM-DiT 注意力機制分析
MM-DiT 是當前文本到圖像/視頻模型的基礎架構,與之前的 UNet 架構有根本的不同,因為它將文本和視頻映射到一個統(tǒng)一的序列中進行注意力計算。盡管該架構已被廣泛使用,但其內部注意力機制的特性尚未得到充分探索,這限制了其在我們多提示長視頻生成任務中的應用。因此,本文首次對基于最先進的視頻模型(即 CogVideoX)的 3D 全注意力圖中的區(qū)域注意力模式進行了全面分析。
如下圖 2 所示,由于視覺和文本提示的連接,每個注意力矩陣可以分解為四個不同的區(qū)域,分別對應不同的注意力操作:視頻到視頻的注意力、文本到文本的注意力、文本到視頻的注意力和視頻到文本的注意力。以下是每個區(qū)域的詳細介紹,靈感來源于先前的 UNet-like 結構中的獨立注意力。
文本到視頻和視頻到文本的注意力
之前的 UNet-like 架構通過交叉注意力實現(xiàn)視頻與文本的對齊。在 MM-DiT 中,文本到視頻和視頻到文本的注意力發(fā)揮了類似的作用。計算了所有層和注意力頭的平均注意力值,然后通過選擇特定的列或行來提取文本到視頻和視頻到文本區(qū)域的注意力值,這些列或行對應文本到視頻和視頻到文本區(qū)域中的token索引。接著,這些注意力值被重塑為FxHxW格式,從而能夠可視化每一幀的語義激活圖。如上圖 2 所示,這些可視化結果顯示了token級語義定位的顯著精度,能夠有效捕捉文本描述和視覺元素之間的細粒度關系。這一發(fā)現(xiàn)為精確的語義控制和定位提供了強有力的基礎,為借用已有的圖像/視頻編輯技術以增強多提示視頻生成的一致性和質量提供了支持。
文本到文本和視頻到視頻的注意力
文本到文本和視頻到視頻的區(qū)域注意力在某種程度上是新的,與相應的 UNet 結構不同。如下圖 3 所示,本文的分析揭示了這兩個組件中相似的模式。在文本到文本的注意力組件(圖 3(a)(b),其中 (a) 表示較短提示的注意力模式,(b) 表示較長提示的模式)中,觀察到一個顯著的對角線模式,表明每個文本token主要關注其鄰近的token。
值得注意的是,隨著文本序列長度的增加,存在明顯的垂直線,這些垂直線向后移動,表明所有token對文本序列末尾的特殊token保持顯著關注。對于視頻到視頻的注意力組件,由于 MM-DiT 扁平化了空間和時間token以進行 3D 注意力計算,在單幀級別的分析揭示了空間注意力中的明顯對角線模式(上圖 3(c))。更重要的是,當檢查來自不同幀中相同空間位置的token構建的注意力圖時,還觀察到顯著的對角線模式(圖 3(d))。這一特征與最近的基于 UNet 的視頻模型中的空間注意力和時間注意力(如 VideoCrafter 和 Lavie)中的發(fā)現(xiàn)相似,符合 [25] 中的報告結果。
由于之前的工作僅訓練擴散模型的特定部分以進行更高級的控制和生成,本文的發(fā)現(xiàn)為從 MM-DiT 角度看待這些方法提供了有力的證據(jù)。這些在 MM-DiT 架構中出現(xiàn)的一致對角線模式表明了幀間強相關性,這對于維持空間-時間一致性和保留視頻序列中的運動忠實度至關重要。
隨時間一致的視頻生成
MM-DiT 中的注意力機制與 UNet-like 視頻擴散模型中的行為類似。因此,提出了基于mask引導的 KV 共享策略,用于多提示視頻生成任務中的一致視頻生成。
用于過渡的隱混合策略
盡管之前的方法保證了片段之間的語義一致性,但要實現(xiàn)不同語義片段之間的平滑過渡,仍需要精心設計。因此,提出了一種隱混合策略,旨在確保不同語義片段之間的時間一致性,靈感來源于最近在單提示長視頻生成中的工作 [33, 46]。
本文的方法的關鍵優(yōu)勢在于,它不需要額外的訓練,同時能夠有效地處理不同語義上下文之間的過渡。在每個去噪步驟中,首先獨立處理每個片段,然后逐步使用位置相關的權重在重疊區(qū)域中融合隱特征。這一策略在保持時間一致性的同時,平滑地過渡于不同的語義上下文之間,使其特別適用于多提示視頻生成任務。
實驗
基于 CogVideoX-2B 實現(xiàn)了 DiTCtrl,CogVideoX-2B 是一種基于 MM-DiT 的先進開源文本到視頻擴散模型。在實驗中,生成了多提示條件的視頻,每個視頻片段由 49 幀組成,分辨率為 480×720。此外,還使用了 ChatGPT 來生成不同類型的多個過渡。在實驗中將隱采樣幀數(shù)和重疊大小設置為 13 和 6。實驗在單個 NVIDIA A100 GPU 上進行。
質量結果
與當前最先進的多提示視頻生成方法[33, 38, 40] 和領先的商業(yè)解決方案 進行了全面的定性比較。為了確保公平比較,還在 CogVideoX 主干上實現(xiàn)了 FreeNoise,作為增強的基準。
如下圖 6 所示,本文提出的方法在三個關鍵方面展示了優(yōu)越的性能:文本到視頻對齊、時間一致性和運動質量。盡管 Kling 在高質量視頻生成方面展現(xiàn)了令人印象深刻的能力,但它僅限于同時的多語義混合,而不是順序的語義過渡,這突出了在多提示視頻生成任務中實現(xiàn)時間演變內容的重要性。
本文的比較分析揭示了現(xiàn)有方法的 distinct 特征和局限性。Gen-L-Video 存在嚴重的時間抖動和偶爾的物體消失,影響了整體視頻質量。Video-Infinity 和 FreeNoise 都在場景級語義變化方面取得了成功,但缺乏物理上合理的運動——例如,在上圖 6 中,車輛看似在運動,但空間位置固定,這是它們基于 UNet 的能力的限制。相比之下,F(xiàn)reeNoise+DiT 利用了 DiT 架構的能力實現(xiàn)了更真實的物體運動,但在語義過渡上存在困難,導致片段之間出現(xiàn)明顯的中斷。DiTCtrl 方法保留了預訓練 DiT 模型的固有能力,同時解決了這些局限性,能夠平滑地實現(xiàn)語義過渡,并在整個視頻序列中保持運動一致性。
定量結果
首先詳細介紹我們提出的用于評估多提示視頻生成的新基準 MPVBench,然后討論定量結果。
MPVBench
MPVBench 包含一個多樣化的提示數(shù)據(jù)集和一個專門為多提示生成定制的新度量標準。具體來說,通過利用 GPT-4,生成了 130 個長格式的提示,涵蓋 10 種不同的過渡模式。然后,對于多提示視頻生成,觀察到 CLIP 特征在單一提示和多提示場景之間的分布有所不同。如下圖 7 所示,自然視頻的特征點沿著一條連續(xù)曲線分布,而兩個拼接的孤立視頻的特征點則沿著兩條連續(xù)曲線分布,并且在中間有一個斷點。
由于常見的 CLIP 相似度計算的是鄰近相似度的平均值,自然視頻和孤立視頻之間的差異僅在斷點處發(fā)生,并且在按幀數(shù)劃分后,差異會變得非常小。為了解決這一限制,提出了 CSCV(Clip Similarity Coefficient of Variation),這一度量標準專門用于評估多提示過渡的平滑度:
自動評估
使用 MPVBench 進行自動評估。從下表 1 中可以看出,本文的方法獲得了最高的 CSCV 分數(shù),證明了在過渡處理和生成模式的整體穩(wěn)定性方面具有優(yōu)勢。雖然 FreeNoise 排名第二,穩(wěn)定性相對較強,但其他方法在這一方面顯著落后,這與上圖 7 中 CLIP 嵌入的 T-SNE 可視化結果一致。在運動平滑性方面,本文的方法在運動質量和一致性方面表現(xiàn)優(yōu)越。在文本-圖像相似度指標方面,盡管 FreeNoise 和 Video-Infinity 獲得了更高的分數(shù),但這可以歸因于我們方法的 KV-sharing 機制,在該機制下,后續(xù)視頻片段本質上從前面的語義內容中學習。
如前面圖6所示,本文的設計選擇允許路面逐漸過渡到雪地條件,同時保留之前場景的特征。盡管可能會導致較低的文本-圖像對齊得分,但它確保了序列中的語義連續(xù)性。在實際應用中,這種權衡并不會對多提示場景中的視覺質量產(chǎn)生負面影響,如下面我們展示的用戶研究結果所示。
人類評估
邀請了28名用戶評估五個模型:Gen-L-Video、Video-Infinity、FreeNoise、FreeNoise+DiT 和本文的方法。使用5點Likert量表(1代表低質量,5代表高質量)。參與者根據(jù)16個不同場景生成的視頻,考慮整體偏好、運動模式、時間一致性和文本對齊情況對每種方法進行評分。正如下表2所示,本文的方法在所有四個標準上顯著超越了其他現(xiàn)有方法,展示了在生成具有自然語義過渡的視頻方面的卓越能力,能夠更好地與人類對視覺連貫性和連續(xù)性的偏好相符。
消融研究
進行消融研究,以驗證DiTCtrl關鍵組件的有效性:隱融合策略、KV-sharing機制和掩模引導生成,如下圖8所示。第一行顯示了直接使用文本-視頻模型的結果,導致場景變化突兀,運動模式斷裂,無法保持從沖浪到滑雪過程中運動的一致性。第二行表明,未使用隱融合策略的DiTCtrl能夠實現(xiàn)基本的視頻編輯功能,但場景之間缺乏平滑過渡。沒有KV-sharing(第三行)的DiTCtrl表現(xiàn)出不穩(wěn)定的環(huán)境過渡和顯著的運動偽影,角色縮放不一致,動作變形。此外,沒有掩模引導(第四行)的DiTCtrl提高了運動一致性和過渡效果,但在不同提示和環(huán)境之間的對象屬性混亂方面存在問題。另一方面,完整的DiTCtrl實現(xiàn)提供了對生成內容的最精確控制,展示了卓越的對象一致性和更平滑的提示過渡,同時保持所需的運動模式。這些結果驗證了對MM-DiT注意力機制的分析及其在實現(xiàn)準確語義控制中的作用。
更多應用
單提示長視頻生成
本文的方法能夠自然地應用于單提示長視頻生成。如下圖9所示,使用提示“A white SUV drives on a steep dirt road”,本文的方法成功生成了長度超過原始視頻12倍的視頻,同時保持了一致的運動模式和環(huán)境連貫性。這表明,本文的技術不僅適用于多提示視頻生成任務,還能有效地擴展到長時間視頻的生成,確保了生成內容在時間維度上的連貫性和一致性。
視頻編輯本文展示了如何使用本文的方法實現(xiàn)視頻編輯功能(例如,“重新加權”和“單詞替換”)。通過這些操作,能夠在不破壞視頻原有結構和連貫性的情況下,靈活地編輯視頻內容。這使得我們的技術不僅僅適用于新視頻的生成,還能作為強大的視頻編輯工具,在多個語義變化的場景下保持視頻的整體一致性與流暢過渡。
結論
本文介紹了DiTCtrl,一種基于MM-DiT架構的多提示視頻生成的創(chuàng)新方法,且無需額外的訓練。對MM-DiT的注意力機制進行了開創(chuàng)性的分析,揭示了其與UNet-like擴散模型中的交叉/自注意力模塊的相似性,這使得在提示之間能夠實現(xiàn)mask引導的語義控制。通過引入KV共享機制和隱融合策略,DiTCtrl確保了語義段之間的平滑過渡和一致的對象運動,無需額外的訓練。此外,還提出了MPVBench,這是首個針對多提示視頻生成的廣泛評估框架,旨在推動該領域未來的研究。
局限性與未來工作盡管本文的方法展示了最先進的性能,但仍然存在兩個主要局限性。首先,與圖像生成模型相比,當前開源的視頻生成模型在概念組合能力上較弱,偶爾會導致不同語義段之間的屬性綁定錯誤。其次,基于DiT架構的計算開銷對推理速度提出了挑戰(zhàn)。這些局限性為未來研究提供了有前景的方向,特別是在增強語義理解和架構效率方面。
本文轉自AI生成未來 ,作者:AI生成未來
