兩分鐘1200幀的長(zhǎng)視頻生成器StreamingT2V來(lái)了,代碼將開源
廣闊的戰(zhàn)場(chǎng),風(fēng)暴兵在奔跑……
prompt:Wide shot of battlefield, stormtroopers running...
這段長(zhǎng)達(dá) 1200 幀的 2 分鐘視頻來(lái)自一個(gè)文生視頻(text-to-video)模型,盡管 AI 生成的痕跡依然濃重,但我們必須承認(rèn),其中的人物和場(chǎng)景具有相當(dāng)不錯(cuò)的一致性。
這是如何辦到的呢?要知道,雖然近些年文生視頻技術(shù)的生成質(zhì)量和文本對(duì)齊質(zhì)量都已經(jīng)相當(dāng)出色,但大多數(shù)現(xiàn)有方法都聚焦于生成短視頻(通常是 16 或 24 幀長(zhǎng)度)。然而,適用于短視頻的現(xiàn)有方法通常無(wú)法用于長(zhǎng)視頻(≥ 64 幀)。
即使是生成短序列,通常也需要成本高昂的訓(xùn)練,比如訓(xùn)練步數(shù)超過(guò) 260K,批大小超過(guò) 4500。如果不在更長(zhǎng)的視頻上進(jìn)行訓(xùn)練,通過(guò)短視頻生成器來(lái)制作長(zhǎng)視頻,得到的長(zhǎng)視頻通常質(zhì)量不佳。而現(xiàn)有的自回歸方法(通過(guò)使用短視頻后幾幀生成新的短視頻,進(jìn)而合成長(zhǎng)視頻)也存在場(chǎng)景切換不一致等一些問(wèn)題。
為了克服現(xiàn)有方法的缺點(diǎn)和局限,Picsart AI Resarch 等多個(gè)機(jī)構(gòu)聯(lián)合提出了一種新的文生視頻方法:StreamingT2V。這也是一種自回歸方法,并配備了長(zhǎng)短期記憶模塊,進(jìn)而可以生成具有時(shí)間一致性的長(zhǎng)視頻。
- 論文標(biāo)題:StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- 論文地址:https://arxiv.org/abs/2403.14773
- 項(xiàng)目地址:https://streamingt2v.github.io/
如下是一段 600 幀 1 分鐘的視頻生成結(jié)果,可以看到蜜蜂和花朵都有非常出色的一致性:
為此,該團(tuán)隊(duì)提出了條件注意力模塊(CAM)。得益于其注意力性質(zhì),它可以有效地借用之前幀的內(nèi)容信息來(lái)生成新的幀,同時(shí)還不會(huì)讓之前幀的結(jié)構(gòu) / 形狀限制新幀中的運(yùn)動(dòng)情況。
而為了解決生成的視頻中人與物外觀變化的問(wèn)題,該團(tuán)隊(duì)又提出了外觀保留模塊(APM):其可從一張初始圖像(錨幀)提取對(duì)象或全局場(chǎng)景的外觀信息,并使用該信息調(diào)節(jié)所有視頻塊的視頻生成過(guò)程。
為了進(jìn)一步提升長(zhǎng)視頻生成的質(zhì)量和分辨率,該團(tuán)隊(duì)針對(duì)自回歸生成任務(wù)對(duì)一個(gè)視頻增強(qiáng)模型進(jìn)行了改進(jìn)。為此,該團(tuán)隊(duì)選擇了一個(gè)高分辨率文生視頻模型并使用了 SDEdit 方法來(lái)提升連續(xù) 24 幀(其中有 8 幀重疊幀)視頻塊的質(zhì)量。
為了使視頻塊增強(qiáng)過(guò)渡變得平滑,他們還設(shè)計(jì)了一種隨機(jī)混合方法,能以無(wú)縫方式混合重疊的增強(qiáng)過(guò)的視頻塊。
方法
首先,生成 5 秒時(shí)長(zhǎng)的 256 × 256 分辨率的視頻(16fps),然后將其增強(qiáng)至更高的分辨率(720 × 720)。圖 2 展示了其完整的工作流程。
長(zhǎng)視頻生成部分由初始化階段(Initialization Stage)和流式文生視頻階段(Streaming T2V Stage)構(gòu)成。
其中,初始化階段是使用一個(gè)預(yù)訓(xùn)練的文生視頻模型(比如可以使用 Modelscope)來(lái)生成第一個(gè) 16 幀的視頻塊;而流式文生視頻階段則是以自回歸方式生成后續(xù)幀的新內(nèi)容。
對(duì)于自回歸過(guò)程(見圖 3),該團(tuán)隊(duì)新提出的 CAM 可以利用之前視頻塊最后 8 幀的短期信息,實(shí)現(xiàn)塊之間的無(wú)縫切換。另外,他們還會(huì)使用新提出的 APM 模塊來(lái)提取一張固定錨幀的長(zhǎng)期信息,使自回歸過(guò)程能穩(wěn)健地應(yīng)對(duì)事物和場(chǎng)景細(xì)節(jié)在生成過(guò)程中的變化。
在生成得到了長(zhǎng)視頻(80、240、600、1200 或更多幀)之后,他們?cè)偻ㄟ^(guò)流式優(yōu)化階段(Streaming Refinement Stage)來(lái)提升視頻質(zhì)量。這個(gè)過(guò)程會(huì)以自回歸方式使用一個(gè)高分辨率文生短視頻模型(如可使用 MS-Vid2Vid-XL),再搭配上新提出的用于無(wú)縫視頻塊處理的隨機(jī)混合方法。而且后一步無(wú)需額外的訓(xùn)練,這使得該方法無(wú)需較高的計(jì)算成本。
條件注意力模塊
首先,將所使用的預(yù)訓(xùn)練文生(短)視頻模型記為 Video-LDM。注意力模塊(CAM)的構(gòu)成是一個(gè)特征提取器、一個(gè)向 Video-LDM UNet 注入的特征注入器。
其中特征提取器使用了逐幀的圖像編碼器,之后是與 Video-LDM UNet 直到中間層一直使用的一樣的編碼器層(并通過(guò) UNet 的權(quán)重初始化)。
對(duì)于特征注入,這里的設(shè)計(jì)則是讓 UNet 中的每個(gè)長(zhǎng)程跳躍連接通過(guò)交叉注意力關(guān)注 CAM 生成的相應(yīng)特征。
外觀保留模塊
APM 模塊可通過(guò)使用固定錨幀中的信息來(lái)將長(zhǎng)期記憶整合進(jìn)視頻生成過(guò)程中。這有助于維持視頻塊生成過(guò)程中的場(chǎng)景和對(duì)象特征。
為了讓 APM 能平衡處理錨幀和文本指令給出的引導(dǎo)信息,該團(tuán)隊(duì)做出了兩點(diǎn)改進(jìn):(1)將錨幀的 CLIP 圖像 token 與文本指令的 CLIP 文本 token 混合起來(lái);(2)為每個(gè)交叉注意力層引入了一個(gè)權(quán)重來(lái)使用交叉注意力。
自回歸視頻增強(qiáng)
為了自回歸地增強(qiáng) 24 幀的生成視頻塊,這里使用的是高分辨率(1280x720)的文生(短)視頻模型(Refiner Video-LDM,見圖 3)。這個(gè)過(guò)程的做法是首先向輸入視頻塊加入大量噪聲,然后再使用這個(gè)文生視頻擴(kuò)散模型來(lái)進(jìn)行去噪處理。
不過(guò),這種方法不足以解決視頻塊之間的過(guò)渡不匹配的問(wèn)題。
為此,該團(tuán)隊(duì)的解決方案是隨機(jī)混合方法。具體詳情請(qǐng)參閱原論文。
實(shí)驗(yàn)
在實(shí)驗(yàn)中,該團(tuán)隊(duì)使用的評(píng)估指標(biāo)包括:用于評(píng)估時(shí)間一致性的 SCuts 分?jǐn)?shù)、用于評(píng)估運(yùn)動(dòng)量和扭變誤差的運(yùn)動(dòng)感知扭變誤差(MAWE)、用于評(píng)估文本對(duì)齊質(zhì)量的 CLIP 文本圖像相似度分?jǐn)?shù)(CLIP)、美學(xué)分?jǐn)?shù)(AE)。
消融研究
為了評(píng)估各種新組件的有效性,該團(tuán)隊(duì)從驗(yàn)證集中隨機(jī)采樣 75 個(gè) prompt 執(zhí)行了消融研究。
用于條件處理的 CAM:CAM 能幫助模型生成更一致的視頻,其 SCuts 分?jǐn)?shù)比相比較的其它基線模型低 88%。
長(zhǎng)期記憶:圖 6 表明長(zhǎng)期記憶能在自回歸生成過(guò)程中極大幫助維持對(duì)象和場(chǎng)景的特征穩(wěn)定。
在一個(gè)定量評(píng)估指標(biāo)(人再識(shí)別分?jǐn)?shù))上,APM 實(shí)現(xiàn)了 20% 的提升。
用于視頻增強(qiáng)的隨機(jī)混合:與其它兩個(gè)基準(zhǔn)相比,隨機(jī)混合能帶來(lái)顯著的質(zhì)量提升,從圖 4 中也能看到:StreamingT2V 可以得到更平滑的過(guò)渡。
StreamingT2V 對(duì)比基線模型
該團(tuán)隊(duì)通過(guò)定量和定性評(píng)估比較了集成上述改進(jìn)的 StreamingT2V 與多種模型,包括使用自回歸方法的圖像到視頻方法 I2VGen-XL、SVD、DynamiCrafter-XL、SEINE,視頻到視頻方法 SparseControl,文本到長(zhǎng)視頻方法 FreeNoise。
定量評(píng)估:從表 8 可以看出,在測(cè)試集上的定量評(píng)估表明,StreamingT2V 在無(wú)縫視頻塊過(guò)渡和運(yùn)動(dòng)一致性方面的表現(xiàn)最佳。新方法的 MAWE 分?jǐn)?shù)也顯著優(yōu)于其它所有方法 —— 甚至比第二好的 SEINE 低 50% 以上。SCuts 分?jǐn)?shù)上也有類似表現(xiàn)。
此外,在生成視頻的單幀質(zhì)量上,StreamingT2V 僅略遜于 SparseCtrl。這表明這個(gè)新方法能夠生成高質(zhì)量的長(zhǎng)視頻,并且比其它對(duì)比方法具有更好的時(shí)間一致性和運(yùn)動(dòng)動(dòng)態(tài)。
定性評(píng)估:下圖展示了 StreamingT2V 與其它方法的效果比較,可以看出新方法能在保證視頻動(dòng)態(tài)效果的同時(shí)維持更好的一致性。
更多研究細(xì)節(jié),可參考原論文。