文本直接生成2分鐘視頻,即將開源模型StreamingT2V
Picsart人工智能研究所、德克薩斯大學(xué)和SHI實(shí)驗(yàn)室的研究人員聯(lián)合推出了StreamingT2V視頻模型。通過文本就能直接生成2分鐘、1分鐘等不同時(shí)間,動(dòng)作一致、連貫、沒有卡頓的高質(zhì)量視頻。
雖然StreamingT2V在視頻質(zhì)量、多元化等還無法與Sora媲美,但在高速運(yùn)動(dòng)方面非常優(yōu)秀,這為開發(fā)長視頻模型提供了技術(shù)思路。
研究人員表示,理論上,StreamingT2V可以無限擴(kuò)展視頻的長度,并正在準(zhǔn)備開源該視頻模型。
論文地址:https://arxiv.org/abs/2403.14773
github地址:https://github.com/Picsart-AI-Research/StreamingT2V(即將開源)
StreamingT2V生成的2分鐘視頻
傳統(tǒng)視頻模型一直受訓(xùn)練數(shù)據(jù)、算法等困擾,最多只能生成10秒視頻。Sora的出現(xiàn)將文生視頻領(lǐng)域帶向了一個(gè)全新的高度,突破了諸多技術(shù)瓶頸,僅通過文本就能生成最多1分鐘的視頻。
而StreamingT2V采用了創(chuàng)新的自回歸技術(shù)框架,通過條件注意力、外觀保持和隨機(jī)混合三大模塊,極大的延長了視頻的時(shí)間,同時(shí)保證動(dòng)作的連貫性。
簡單來說,StreamingT2V使用了一種“擊鼓傳花”的方法,每一個(gè)模塊通過提取前一個(gè)視頻塊中的表示特征,來保證動(dòng)作一致性、文本語義還原、視頻完整性等。
條件注意力模塊
條件注意力模塊是一種“短期記憶”,通過注意力機(jī)制從前一個(gè)視頻塊中提取特征,并將其注入到當(dāng)前視頻塊的生成中,實(shí)現(xiàn)了流暢自然的塊間過渡,同時(shí)保留了高速運(yùn)動(dòng)特征。
先使用圖像編碼器對(duì)前一個(gè)視頻塊的最后幾幀(例如20幀)進(jìn)行逐幀編碼,得到相應(yīng)的特征表示,并將這些特征送入一個(gè)淺層編碼器網(wǎng)絡(luò)(初始化自主模型的編碼器權(quán)重)進(jìn)行進(jìn)一步編碼。
然后將提取到的特征表示注入到StreamingT2V的UNet的每個(gè)長程跳躍連接處,從而借助前一視頻塊的內(nèi)容信息來生成新的視頻幀,但不會(huì)受到先前結(jié)構(gòu)、形狀的影響。
外觀保持模塊
為了保證生成視頻全局場景、外觀的一致性,StreamingT2V使用了外觀保持這種“長期記憶”方法。
外觀保持從初始圖像(錨定幀)中提取高級(jí)場景和對(duì)象特征,并將這些特征用于所有視頻塊的生成流程。這樣做可以幫助在自回歸過程中,保持對(duì)象和場景特征的連續(xù)性。
此外,現(xiàn)有方法通常只針對(duì)前一個(gè)視頻塊的最后一幀進(jìn)行條件生成,忽視了自回歸過程中的長期依賴性。通過使用外觀保持,可以使用初始圖像中的全局信息,從而更好地捕捉到自回歸過程中的長期依賴性。
隨機(jī)混合模塊
前兩個(gè)模塊保證了StreamingT2V生成的視頻大框架,但是在分辨率、質(zhì)量方面還有欠缺,而隨機(jī)混合模塊主要用來增強(qiáng)視頻的分辨率。
如果直接增強(qiáng)質(zhì)量會(huì)耗費(fèi)大量AI算力、時(shí)間,所以,隨機(jī)混合采用了自回歸增強(qiáng)的方法。
首先,研究人員將低分辨率視頻劃分為多個(gè)長度為24幀的視頻塊,這些塊之間是有重疊的。然后,利用一個(gè)高分辨率的視頻模型,對(duì)每一個(gè)視頻塊進(jìn)行增強(qiáng),得到對(duì)應(yīng)的高分辨率視頻塊。
例如,有兩個(gè)重疊的視頻塊A和B,重疊部分包含20幀。對(duì)于重疊部分的每一幀,隨機(jī)混合模塊會(huì)從A塊和B塊中各取出一幀,然后對(duì)這兩幀進(jìn)行加權(quán)平均,生成一個(gè)新的混合幀。通過這種方式,重疊部分的每一幀都是A塊和B塊對(duì)應(yīng)幀的隨機(jī)混合。
而對(duì)于不重疊的部分,隨機(jī)混合模塊則直接保留原始視頻塊中的幀。經(jīng)過隨機(jī)混合后的視頻塊就可以輸入到高分辨率模型中進(jìn)行增強(qiáng)。
研究人員指出,如果讓相鄰的兩個(gè)視頻塊直接共享完全相同的重疊幀,會(huì)導(dǎo)致視頻在過渡處出現(xiàn)不自然的凍結(jié)和重復(fù)效果。而隨機(jī)混合模塊通過生成新的混合幀,很好地規(guī)避了這個(gè)難題,使得塊與塊之間的過渡更加平滑自然。
實(shí)驗(yàn)數(shù)據(jù)顯示, StreamingT2V生成的1分鐘、2分鐘長視頻,不僅保持了高分辨率和清晰畫質(zhì),整體的時(shí)間連貫性也得到了很大提升。視頻中的物體運(yùn)動(dòng)姿態(tài)豐富,場景和物體隨時(shí)間的演變更加自然流暢,沒有突兀的斷層或凍結(jié)情況出現(xiàn)。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者: AIGC開放社區(qū)
