像俄羅斯方塊一樣生成視頻! 北大聯(lián)合快手AI團隊推出新框架VideoTetris實現(xiàn)跟隨復(fù)雜指令的文生視頻!
Paper: ??https://arxiv.org/abs/2406.04277??Code: ??https://github.com/YangLing0818/VideoTetris??Project: ??https://videotetris.github.io/???
擴散模型在文本到視頻(T2V)生成方面取得了巨大成功,視頻生成模型正以飛快的速度發(fā)展。
然而,現(xiàn)有的文生視頻模型在應(yīng)對復(fù)雜、細(xì)節(jié)豐富、多物體的指令時,仍存在一定的挑戰(zhàn)。
為了生成更精確的復(fù)雜視頻,北京大學(xué)與快手AI團隊推出了 VideoTetris,定義了復(fù)雜組合指令生成任務(wù),并提出了一個新的框架,實現(xiàn)復(fù)雜視頻生成。這個框架不僅能夠直接增強現(xiàn)有模型的組合生成,還能夠支持涵蓋多復(fù)雜指令、多場景變更等更高難度的長視頻生成。
具體而言,提出了時空合成擴散,通過在空間和時間上操縱和合成去噪網(wǎng)絡(luò)的注意力圖來精確地遵循復(fù)雜的文本特征。此外,還提出了一種增強的視頻數(shù)據(jù)預(yù)處理方法,以增強訓(xùn)練數(shù)據(jù)的運動動力學(xué)和快速理解,并配備了一種新的參考幀注意力機制,以提高自回歸視頻生成的一致性。
就像拼俄羅斯方塊一樣,輕松實現(xiàn)更精妙的組合細(xì)節(jié)!
總體貢獻總結(jié)如下:
- 介紹了一種時空合成擴散方法,用于處理具有多個對象的場景并遵循漸進的復(fù)雜提示。
- 開發(fā)了一個增強的視頻數(shù)據(jù)預(yù)處理pipeline,通過運動動力學(xué)和提示語義增強自回歸長視頻生成。
- 提出了一種具有參考幀注意力的一致性正則化方法,該方法在合成視頻生成中保持內(nèi)容一致性。
- VideoTetris可以生成最先進的高質(zhì)量合成視頻,也可以生成符合漸進合成提示的高質(zhì)量長視頻,同時保持最佳一致性。
組合生成
在文生圖領(lǐng)域,RPG、Omost等項目已經(jīng)實現(xiàn)了復(fù)雜的組合式多物體多場景圖片生成。而在文生視頻領(lǐng)域,組合生成自然地擴展到時間和空間維度,這樣的場景還未被廣泛探索。團隊首次定義了組合視頻生成任務(wù),包括兩個子任務(wù):
1、跟隨復(fù)雜組合指令的視頻生成。
2、跟隨遞進的組合式多物體指令的長視頻生成。在第一個場景中,我們輸入“左邊一個可
愛的棕色狗狗,右邊一只打盹的貓在陽光下小憩”這樣的簡單指令給文生視頻模型。幾乎所有開源模型都未能生成正確的視頻,如:
Animatediff:
opensora plan v1.1:
videocrafter2:
這些模型生成出融合了兩個物體信息的奇怪視頻。而使用 videotetris,生成出的視頻是這樣的:
貓貓和狗狗自然靈動,同時保留了所有的位置信息和細(xì)節(jié)特征!甚至說,如果對比已經(jīng)商用的 Gen-2 和 Pika呢?
Gen-2:
也生成了融合了貓和狗的一只奇怪生物
Pika:
終于生成了兩個小動物,結(jié)果搞錯了左右關(guān)系
可見 ,VideoTetris 的組合視頻生成能力即使面對商用模型也毫不遜色。
在長視頻生成中,目前的方法支持的可變指令目前還停留在“春夏秋冬”的轉(zhuǎn)化,或單物體從走到跑到騎馬的場景變化階段。
我們輸入一個簡單的多指令:“從一只可愛的棕色松鼠在一堆榛子上過渡到一只可愛的棕色松鼠和一只可愛的白色松鼠在一堆榛子上”。
將這個指令輸入給 FreeNoise 和 StreamingT2V 這兩個還不錯的長視頻生成模型中,一次性生成長達(dá) 30s 的視頻,他們生成的結(jié)果是這樣的:
FreeNoise:
松鼠幾乎一動不動,一個松鼠從榛子變身而來,最后兩個竟然都變了色
StreamingT2V:
完全沒有第二個松鼠出現(xiàn),甚至在視頻末期出現(xiàn)了嚴(yán)重的偏色
而VideoTetris生成的視頻是這樣的,到視頻最后,生成了一個靈動的白松鼠和另一個棕松鼠,兩只松鼠還在自然地交換食物
技術(shù)實現(xiàn)
這樣的效果是如何做到的呢?該團隊的 VideoTetris 框架使用了 時空組合擴散 方法。
他們將一個提示詞首先按照時間解構(gòu),為不同的視頻幀指定好不同的提示信息。
隨后,在每一幀上進行空間維度的解構(gòu),將不同物體對應(yīng)不同的視頻區(qū)域。
最后,通過時空交叉注意力進行組合,通過這個過程實現(xiàn)高效的組合指令生成。
而為了生成更高質(zhì)量的長視頻,該團隊還提出了一種增強的訓(xùn)練數(shù)據(jù)預(yù)處理方法。使得長視頻生成更加動態(tài)穩(wěn)定。此外,還引入了一個參考幀注意力機制,使用原生 VAE 對之前的幀信息編碼,區(qū)別于 StreamingT2V, Vlogger, IPAdapter 等使用 CLIP 編碼的方式,這樣使得參考信息的表示空間和噪聲完全一致,輕松獲取更好的內(nèi)容一致性。
這樣優(yōu)化的結(jié)果是,長視頻從此不再有大面積偏色的現(xiàn)象,能夠更好地適應(yīng)復(fù)雜指令,并且生成的視頻更具有動感,更符合自然。
時空組合擴散模型
動機 為了實現(xiàn)自然的組合生成,一個直接的方法是使用布局作為條件來指導(dǎo)生成過程。然而,這種方法提出了幾個挑戰(zhàn): (i)需要大規(guī)模的訓(xùn)練。鑒于布局到圖像模型改進的巨大潛力,訓(xùn)練布局到視頻模型或訓(xùn)練布局到圖像模型的時間卷積和注意力層將需要大量的計算資源,并可能難以跟上文本到視頻模型的最新進展。(ii)基于布局的生成模型對目標(biāo)邊界框施加了很大的限制。由于視頻持續(xù)時間較長,需要不斷調(diào)整這些box的位置和大小,以保持連貫的視頻內(nèi)容,因此需要一個復(fù)雜的規(guī)劃過程,這增加了整個方法的復(fù)雜性。因此,我們提出了一種直接調(diào)整不同目標(biāo)交叉注意力的無訓(xùn)練方法,而不是訓(xùn)練布局到視頻模型,如下圖3所示。這種方法旨在克服基于布局的方法的局限性,并利用更靈活和高效的生成技術(shù)的潛力。
基于 LM 的自動時空分解器(可選) 或者,時空分解過程可以直接利用大語言模型(LLM)來自動化任務(wù),因為 LLM 在語言理解,推理,摘要和區(qū)域生成能力方面具有強大的性能。利用 LLM 的上下文學(xué)習(xí)(ICL)能力,引導(dǎo)模型使用思維鏈(CoT)推理。具體來說,首先引導(dǎo) LLM 對故事進行時間分解,生成框架式提示,并使用 LLM 接收每一個提示,以獲得更好的語義豐富性。然后,使用另一個 LLM 將每個提示符空間分解為對應(yīng)于不同對象的多個提示符,并為每個子提示符分配一個區(qū)域mask。具體的提示模板,包括任務(wù)規(guī)則(指令) ,上下文示例(演示)見附錄。
利用 α 參數(shù)調(diào)節(jié)全局信息和個體特征之間的平衡,使視頻內(nèi)容更符合人類的審美感知。最后,自然而然地將所有交叉注意值連接起來,這些交叉注意值是沿著時間維度計算的:
通過這種方式,無論是對于預(yù)先訓(xùn)練的文本到視頻模型,如 Modelscope,Animatediff,VideoCrafter2和 Latte,還是對于更長的視頻生成如 StreamingT2V 的自回歸模型,這種方法可以直接應(yīng)用于無訓(xùn)練的方式,以獲得合成的,一致的和美觀的結(jié)果。
增強的視頻數(shù)據(jù)預(yù)處理
運動動增強力學(xué) 對于自回歸視頻生成,我們經(jīng)驗性地發(fā)現(xiàn) StreamingT2V在生成一致的內(nèi)容方面是最有效的。然而,在視頻生成的后期階段,有一個顯著的趨勢,即出現(xiàn)質(zhì)量差的病例和顏色退化。我們把這個問題歸因于原始訓(xùn)練數(shù)據(jù)的次優(yōu)質(zhì)量。為了提高長視頻生成的運動一致性和穩(wěn)定性,必須對視頻數(shù)據(jù)進行過濾,以保持高質(zhì)量的內(nèi)容和一致的運動動力學(xué)。受到 Stable Video Diffusion的啟發(fā),我們經(jīng)驗性地觀察到視頻的光流量與其運動幅度之間存在顯著的相關(guān)性。過低的光流通常對應(yīng)于靜態(tài)視頻幀,而過高的光流通常表明幀有劇烈的變化。為了確保生成平滑和合適的視頻數(shù)據(jù),通過選擇 RAFT計算的平均光流分?jǐn)?shù)在指定范圍(s1至 s2)內(nèi)的視頻來過濾 Panda-70M。
強化提示語義 雖然Panda-70M的視頻顯示出最好的視覺質(zhì)量,配對提示往往是相對簡短的,這與我們的目標(biāo),生成視頻堅持復(fù)雜的,詳細(xì)的,組合提示。直接使用這些數(shù)據(jù)進行訓(xùn)練可能會導(dǎo)致視頻生成模型不能充分理解復(fù)雜的合成提示。受到最近文本到圖像的研究的啟發(fā),已經(jīng)證明高質(zhì)量的提示可以顯著提高視覺內(nèi)容的輸出質(zhì)量。因此,在過濾了最初的一組視頻之后,對選定的樣本執(zhí)行重述過程,以確保它們更好地與我們的目標(biāo)保持一致。使用三個多模態(tài) LLM 來生成每個視頻的時空上錯綜復(fù)雜的詳細(xì)描述,然后使用一個 LLM 來合并這些描述,提取公共元素,并添加進一步的信息。
具有參考幀注意的一致性正則化
我們的方法涉及到在長視頻中添加和刪除不同的對象,在整個視頻中保持每個對象的一致性對于最終輸出是至關(guān)重要的。最一致的 ID 控制方法,如 IP-Adapter,StreamingT2V,InstantID和 Vlogger,通常使用圖像編碼器(通常是 CLIP)編碼參考圖像,然后將結(jié)果整合到交叉注意力塊中。然而,由于 CLIP 是在圖像-文本對上預(yù)訓(xùn)練的,所以它的圖像embedding被設(shè)計成與文本對齊。
一致性控制則側(cè)重于保證同一物體在不同幀中的特征信息相似,且不涉及文本。我們假設(shè)使用 CLIP 是一種間接的方法,并提出引用框架注意來保持目標(biāo)特征的幀間一致性。形式上,首先直接對參考圖像進行編碼,這些圖像通常是物體出現(xiàn)的初始幀,使用與預(yù)先訓(xùn)練的 T2V 模型相同的自編碼器。這保證了潛在去噪過程中的計算目標(biāo)與隱含表示空間中的參考目標(biāo)在空間上是一致的。然后我們訓(xùn)練一個2D卷積層和映射層,它們在結(jié)構(gòu)上與原始pipeline中的結(jié)構(gòu)相同。這一過程可以表現(xiàn)為:
評測和效果
而對于這種組合生成的結(jié)果評測工作,該團隊引入了新的評測指標(biāo) VBLIP-VQA 和 VUnidet,將組合生成評價方法首次擴展到視頻維度。實驗測試表明,在組合視頻生成能力上,該模型的表現(xiàn)超過了所有開源模型,甚至是商用模型如 Gen-2 和 Pika。
與SOTA文本到視頻模型相比,具有合成提示的視頻生成的定性結(jié)果:
更多VideoTetris的定性結(jié)果:
更多的樣例歡迎訪問項目主頁:https://videotetris.github.io/
本文轉(zhuǎn)自 AI生成未來,作者:Ye Tian等
