與Sora同架構,高效、連貫文生視頻模型
Snap、特倫托大學、加州大學和布魯諾凱斯勒基金會的研究人員,聯(lián)合推出了高效、連貫一致性文生視頻模型——Snap Video。
Snap Video與OpenAI最新推出的Sora一樣采用Transformer架構,結合了時空壓縮表示、全局聯(lián)合時空建模以及自適應建模等功能,在生成的視頻質(zhì)量、視頻動作一致性、復雜動作表現(xiàn)等方面非常棒。
除了文本生成視頻之外,Snap Video還能根據(jù)文本提示對原始視頻素材進行剪輯和合成,生成特殊需求的定制化視頻,這對于短視頻、影視行業(yè)幫助巨大。
為了評估Snap Video性能,研究人員在UCF101和MSR-VTT數(shù)據(jù)集上進行了綜合測試。結果顯示,在文本對齊、運動質(zhì)量和動態(tài)效果可媲美Gen-2,明顯優(yōu)于Pika和Floor33。
論文地址:https://arxiv.org/abs/2402.14797
多數(shù)傳統(tǒng)文生視頻模型采用的是基于規(guī)則、樣本或U-Net的方法,生成的內(nèi)容很容易受約束,同時在生成高質(zhì)量視頻時面臨,AI算力需求大,模型推理復雜,輸出內(nèi)容難控制等問題。
Snap Video則使用了Transformer架構,在推理/訓練效率、AI算力方面需求更低,例如,其訓練效率比U-Net快3.31倍,推理速度快4.5倍。
擴展EDM 框架
目前,用圖像直接生成視頻有很多優(yōu)勢,但由于視頻內(nèi)容冗余度很高會降低視頻運動保真度、視覺質(zhì)量和可擴展性。所以,研究人員擴展了EDM 框架,以降低空間和時間冗余像素,在保持原始SNR的同時,提升了模型質(zhì)量和訓練效率。
首先在EDM基礎上增加輸入縮放因子,可以根據(jù)視頻的具體參數(shù)調(diào)整輸入信號幅度,從而適應高分辨率視頻生成,極大改善了模型處理視頻高維輸入的數(shù)據(jù)難題。
其次,Snap Video使用了新的神經(jīng)網(wǎng)絡結構,通過學習壓縮后的視頻表示,可以聯(lián)合處理這些表示,大幅提升訓練速度和擴展能力同時降低算力成本。
此外,還重寫了框架各項定義。直接增加縮放因子可能會導致訓練目標在低噪音時發(fā)生問題。Snap Video利用另一種表達目標的形式重新定義完整框架,確保目標和損失函數(shù)保持一致。
Transformer和其他模塊
Transformer:Transformer 是Snap Video的核心模塊之一,用于對時空壓縮表示的視頻數(shù)據(jù)進行編碼。它包含多個自注意力層和前饋神經(jīng)網(wǎng)絡層,在全局聯(lián)合的方式下對視頻數(shù)據(jù)進行建模。Transformer編碼器能夠捕捉視頻中的長期依賴關系和動態(tài)模式,從而提高生成視頻的質(zhì)量。
時空壓縮表示:傳統(tǒng)的視頻生成方法通常使用二維的空間表示,而Snap Video采用了時空壓縮表示的方法。它將時空維度視為一個壓縮的一維潛在向量,這種高度壓縮的表示形式顯著減少了模型中的參數(shù)數(shù)量和計算復雜度。
全局聯(lián)合時空建模:多數(shù)文生視頻模型使用的是每個時間步驟都進行獨立的計算,這導致了大量的重復計算。為了解決這個難題,Snap Video采用了全局聯(lián)合時空建模策略。
通過在時空維度上共享參數(shù),將時空信息整合到一個統(tǒng)一的Transformer架構中,避免了重復計算浪費算力,還能更好地捕捉視頻中的長期依賴關系和動態(tài)模式。
自適應建模機制:Snap Video引入了一種自適應建模機制,可根據(jù)輸入文本的語義信息對運動進行精確建模。通過自適應地調(diào)整模型的注意力和權重分配,模型可以更加準確地生成與文本描述相對應的運動。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
