MinT：第一個(gè)能夠生成順序事件并控制其時(shí)間戳的文本轉(zhuǎn)視頻模型

作者：AIGC Studio 2025-01-08 08:48:57

論文提出的MinT是一個(gè)具有事件時(shí)間控制的多事件視頻生成框架。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

MinT 是第一個(gè)能夠生成順序事件并控制其時(shí)間戳的文本轉(zhuǎn)視頻模型。使用 MinT 生成時(shí)間控制的多事件視頻。給定一系列事件文本提示及其所需的開始和結(jié)束時(shí)間戳，MinT 可以合成具有一致主題和背景的平滑連接事件。此外，它可以靈活地控制每個(gè)事件的時(shí)間跨度。下圖展示了連續(xù)手勢、日?；顒?dòng)、面部表情和貓咪動(dòng)作的結(jié)果。

摘要

現(xiàn)實(shí)世界的視頻由一系列事件組成。使用現(xiàn)有的視頻生成器生成具有精確時(shí)間控制的此類序列是不可行的，因?yàn)檫@些生成器依賴于一段文本作為輸入。當(dāng)使用單個(gè)提示生成多個(gè)事件時(shí)，這些方法通常會(huì)忽略某些事件或無法按正確的順序排列它們。為了解決這一限制，我們提出了 MinT，這是一個(gè)具有時(shí)間控制的多事件視頻生成器。我們的主要見解是將每個(gè)事件綁定到生成的視頻中的特定時(shí)間段，這使模型可以一次關(guān)注一個(gè)事件。為了實(shí)現(xiàn)事件字幕和視頻標(biāo)記之間的時(shí)間感知交互，我們設(shè)計(jì)了一種基于時(shí)間的位置編碼方法，稱為 ReRoPE。這種編碼有助于指導(dǎo)交叉注意操作。通過在時(shí)間基礎(chǔ)數(shù)據(jù)上微調(diào)預(yù)先訓(xùn)練的視頻擴(kuò)散變換器，我們的方法可以生成具有平滑連接事件的連貫視頻。在文獻(xiàn)中，我們的模型首次提供了對生成視頻中事件時(shí)間的控制。大量實(shí)驗(yàn)表明，MinT 的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的開源模型。

方法

模型采用了全局字幕、時(shí)間字幕列表和場景切換條件（可選）。每個(gè)時(shí)間字幕和場景切換都與視頻中的時(shí)間跨度綁定。
為了對基于時(shí)間的事件字幕進(jìn)行條件化，我們在 DiT 塊中引入了一個(gè)新的時(shí)間交叉注意層。
論文設(shè)計(jì)了一種新穎的重新縮放旋轉(zhuǎn)位置嵌入 (ReRoPE) 來指示視頻標(biāo)記與事件字幕和場景切換標(biāo)記之間的時(shí)間對應(yīng)關(guān)系（可選）。這使 MinT 能夠控制事件的開始和結(jié)束時(shí)間以及鏡頭過渡時(shí)間。

結(jié)果

定性結(jié)果

這里我們展示了一些高分辨率視頻（1024x576）。我們使用彩色邊框和字幕來指示每個(gè)事件的時(shí)間段。我們首先在每個(gè)事件之前暫停播放視頻，然后再次連續(xù)播放。您可以在此處找到更多 512x288 視頻。

與 SOTA 模型的比較

現(xiàn)有的視頻生成器難以生成連續(xù)事件。將其與 SOTA 開源模型 CogVideoX-5B 和 Mochi 1以及商業(yè)模型 Kling 1.5和 Gen3-Alpha 進(jìn)行了比較。將所有時(shí)間字幕連接到一個(gè)長提示，并運(yùn)行它們的在線 API 來生成視頻。我們用于 SOTA 模型的提示可以在提示中找到。

現(xiàn)有模型經(jīng)常會(huì)在結(jié)果中遺漏一些事件，或者合并多個(gè)事件并混淆它們的順序。相比之下，MinT 可以按照所需的時(shí)間跨度無縫合成所有事件。有關(guān) SOTA 模型行為的更多分析，請參閱論文附錄 C.6。在此處查看更多比較。

MinT 關(guān)于 OOD 提示的結(jié)果

MinT 針對主要描述以人為中心的事件的時(shí)間字幕視頻進(jìn)行了微調(diào)。然而，我們表明我們的模型仍然具有基礎(chǔ)模型生成新概念的能力。在這里，我們展示了 MinT 以分布外提示為條件生成的視頻

VBench 上的快速增強(qiáng)

我們利用 LLM 將簡短提示擴(kuò)展為詳細(xì)的全局字幕和時(shí)間字幕，從而可以生成具有更豐富動(dòng)作的更有趣視頻。我們用于 LLM 的指令可以在提示中找到。在這里，我們使用原始簡短提示（稱為Short）和詳細(xì)的全局字幕（稱為Global）與我們的基礎(chǔ)模型生成的視頻進(jìn)行比較。這允許普通用戶使用我們的模型，而無需繁瑣地指定事件和時(shí)間戳。

場景切換調(diào)節(jié)

長視頻往往包含豐富的事件，但也伴隨著許多場景切換。直接用它們訓(xùn)練視頻生成器將導(dǎo)致生成結(jié)果中出現(xiàn)不想要的突然鏡頭轉(zhuǎn)換。相反，我們建議在訓(xùn)練期間明確地根據(jù)場景切換時(shí)間戳來?xiàng)l件化模型。一旦模型學(xué)會(huì)了這種條件作用，我們就可以將它們設(shè)置為零，以在推理時(shí)生成無剪切的視頻。在這里，我們比較了用不同的場景切換條件生成的視頻。我們在輸入場景切換時(shí)間暫停視頻（用青色邊框突出顯示）。我們的模型引入了所需的鏡頭轉(zhuǎn)換，并且仍然可以保留主體身份和場景背景

事件時(shí)間跨度控制

我們展示了 MinT 對事件時(shí)間的細(xì)粒度控制。在每個(gè)示例中，我們將所有事件的開始和結(jié)束時(shí)間偏移特定值。因此，每行都顯示了事件發(fā)生的順利進(jìn)展

結(jié)論

論文提出的MinT是一個(gè)具有事件時(shí)間控制的多事件視頻生成框架。方法采用獨(dú)特的位置編碼方法來指導(dǎo)視頻的時(shí)間動(dòng)態(tài)，從而產(chǎn)生流暢連接的事件和一致的主題。借助 LLM論文進(jìn)一步設(shè)計(jì)了一個(gè)提示增強(qiáng)器，可以從簡單的提示中生成運(yùn)動(dòng)豐富的視頻。

責(zé)任編輯：張燕妮來源： AIGC Studio

AI 模型視頻生成

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡