MinT:第一個(gè)能夠生成順序事件并控制其時(shí)間戳的文本轉(zhuǎn)視頻模型
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
MinT 是第一個(gè)能夠生成順序事件并控制其時(shí)間戳的文本轉(zhuǎn)視頻模型。使用 MinT 生成時(shí)間控制的多事件視頻。給定一系列事件文本提示及其所需的開始和結(jié)束時(shí)間戳,MinT 可以合成具有一致主題和背景的平滑連接事件。此外,它可以靈活地控制每個(gè)事件的時(shí)間跨度。下圖展示了連續(xù)手勢、日?;顒?dòng)、面部表情和貓咪動(dòng)作的結(jié)果。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.05263v1
- 項(xiàng)目:https://mint-video.github.io/
摘要
現(xiàn)實(shí)世界的視頻由一系列事件組成。使用現(xiàn)有的視頻生成器生成具有精確時(shí)間控制的此類序列是不可行的,因?yàn)檫@些生成器依賴于一段文本作為輸入。當(dāng)使用單個(gè)提示生成多個(gè)事件時(shí),這些方法通常會(huì)忽略某些事件或無法按正確的順序排列它們。為了解決這一限制,我們提出了 MinT,這是一個(gè)具有時(shí)間控制的多事件視頻生成器。我們的主要見解是將每個(gè)事件綁定到生成的視頻中的特定時(shí)間段,這使模型可以一次關(guān)注一個(gè)事件。為了實(shí)現(xiàn)事件字幕和視頻標(biāo)記之間的時(shí)間感知交互,我們設(shè)計(jì)了一種基于時(shí)間的位置編碼方法,稱為 ReRoPE。這種編碼有助于指導(dǎo)交叉注意操作。通過在時(shí)間基礎(chǔ)數(shù)據(jù)上微調(diào)預(yù)先訓(xùn)練的視頻擴(kuò)散變換器,我們的方法可以生成具有平滑連接事件的連貫視頻。在文獻(xiàn)中,我們的模型首次提供了對生成視頻中事件時(shí)間的控制。大量實(shí)驗(yàn)表明,MinT 的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的開源模型。
方法
- 模型采用了全局字幕、時(shí)間字幕列表和場景切換條件(可選)。每個(gè)時(shí)間字幕和場景切換都與視頻中的時(shí)間跨度綁定。
- 為了對基于時(shí)間的事件字幕進(jìn)行條件化,我們在 DiT 塊中引入了一個(gè)新的時(shí)間交叉注意層。
- 論文設(shè)計(jì)了一種新穎的重新縮放旋轉(zhuǎn)位置嵌入 (ReRoPE) 來指示視頻標(biāo)記與事件字幕和場景切換標(biāo)記之間的時(shí)間對應(yīng)關(guān)系(可選)。這使 MinT 能夠控制事件的開始和結(jié)束時(shí)間以及鏡頭過渡時(shí)間。
結(jié)果
定性結(jié)果
這里我們展示了一些高分辨率視頻(1024x576)。我們使用彩色邊框和字幕來指示每個(gè)事件的時(shí)間段。我們首先在每個(gè)事件之前暫停播放視頻,然后再次連續(xù)播放。您可以在此處找到更多 512x288 視頻。
與 SOTA 模型的比較
現(xiàn)有的視頻生成器難以生成連續(xù)事件。將其與 SOTA 開源模型 CogVideoX-5B 和 Mochi 1以及商業(yè)模型 Kling 1.5和 Gen3-Alpha 進(jìn)行了比較。 將所有時(shí)間字幕連接到一個(gè)長提示,并運(yùn)行它們的在線 API 來生成視頻。 我們用于 SOTA 模型的提示可以在提示中找到。
現(xiàn)有模型經(jīng)常會(huì)在結(jié)果中遺漏一些事件,或者合并多個(gè)事件并混淆它們的順序。相比之下,MinT 可以按照所需的時(shí)間跨度無縫合成所有事件。有關(guān) SOTA 模型行為的更多分析,請參閱論文附錄 C.6。在此處 查看更多比較。
MinT 關(guān)于 OOD 提示的結(jié)果
MinT 針對主要描述以人為中心的事件的時(shí)間字幕視頻進(jìn)行了微調(diào)。然而,我們表明我們的模型仍然具有基礎(chǔ)模型生成新概念的能力。在這里,我們展示了 MinT 以分布外提示為條件生成的視頻
VBench 上的快速增強(qiáng)
我們利用 LLM 將簡短提示擴(kuò)展為詳細(xì)的全局字幕和時(shí)間字幕,從而可以生成具有更豐富動(dòng)作的更有趣視頻。我們用于 LLM 的指令可以在提示中找到。在這里,我們使用原始簡短提示(稱為Short)和詳細(xì)的全局字幕(稱為Global)與我們的基礎(chǔ)模型生成的視頻進(jìn)行比較。這允許普通用戶使用我們的模型,而無需繁瑣地指定事件和時(shí)間戳。
場景切換調(diào)節(jié)
長視頻往往包含豐富的事件,但也伴隨著許多場景切換。直接用它們訓(xùn)練視頻生成器將導(dǎo)致生成結(jié)果中出現(xiàn)不想要的突然鏡頭轉(zhuǎn)換。相反,我們建議在訓(xùn)練期間明確地根據(jù)場景切換時(shí)間戳來?xiàng)l件化模型。一旦模型學(xué)會(huì)了這種條件作用,我們就可以將它們設(shè)置為零,以在推理時(shí)生成無剪切的視頻。 在這里,我們比較了用不同的場景切換條件生成的視頻。我們在輸入場景切換時(shí)間暫停視頻(用青色邊框突出顯示)。我們的模型引入了所需的鏡頭轉(zhuǎn)換,并且仍然可以保留主體身份和場景背景
事件時(shí)間跨度控制
我們展示了 MinT 對事件時(shí)間的細(xì)粒度控制。在每個(gè)示例中,我們將所有事件的開始和結(jié)束時(shí)間偏移特定值。因此,每行都顯示了事件發(fā)生的順利進(jìn)展
結(jié)論
論文提出的MinT是一個(gè)具有事件時(shí)間控制的多事件視頻生成框架。方法采用獨(dú)特的位置編碼方法來指導(dǎo)視頻的時(shí)間動(dòng)態(tài),從而產(chǎn)生流暢連接的事件和一致的主題。借助 LLM論文進(jìn)一步設(shè)計(jì)了一個(gè)提示增強(qiáng)器,可以從簡單的提示中生成運(yùn)動(dòng)豐富的視頻。