超越Sora!全球首個(gè)帶背景音樂(lè),文生1080超高清視頻模型
全球社交巨頭Meta發(fā)布最新大模型Movie Gen,正式進(jìn)軍文生視頻領(lǐng)域。
Movie Gen共有300億參數(shù),能以每秒16幀直接生成16秒的1080P超高清視頻,還提供精準(zhǔn)的視頻剪輯、個(gè)性化功、不同寬高比適配等多元化功能。
最大技術(shù)亮點(diǎn)是,Movie Gen能直接生成帶精準(zhǔn)配樂(lè)的視頻,目前Sora、Runway、Luma等一線產(chǎn)品都無(wú)法提供該功能。
有網(wǎng)友對(duì)Movie Gen的全面化功能相當(dāng)震驚,表示,Meta比OpenAI更高的發(fā)布了Sora。
基本上都是一片Amazing,足以看出Movie Gen的超強(qiáng)性能。
Sora掀起了文生視頻風(fēng)口,但是它自己卻莫名消失了~
目前,Meta還沒(méi)有公布開(kāi)源該模型,但已經(jīng)有人迫不及待了。
這是目前最強(qiáng)的文生視頻模型,我們很快能用它制作電影了。
Movie Gen功能簡(jiǎn)單介紹
文生視頻是Movie Gen的核心模塊,是基于Transformer架構(gòu)開(kāi)發(fā)而成,專(zhuān)門(mén)優(yōu)化了文本到圖像和文本到視頻的生成。Movie Gen能夠生成長(zhǎng)達(dá)16秒、每秒16幀的1080P超高清視頻,支持73K token上下文。
通過(guò)理解文本提示,結(jié)合預(yù)訓(xùn)練時(shí)學(xué)習(xí)到的視覺(jué)知識(shí),生成與文本描述相匹配的視頻內(nèi)容。這一模塊的技術(shù)創(chuàng)新在于其能夠推理對(duì)象運(yùn)動(dòng)、主體-對(duì)象交互和相機(jī)運(yùn)動(dòng),從而生成各種概念的合理動(dòng)作。
在訓(xùn)練過(guò)程中,Meta采用了大規(guī)模的互聯(lián)網(wǎng)圖像、視頻和音頻數(shù)據(jù),通過(guò)復(fù)雜的數(shù)據(jù)策劃和過(guò)濾流程,確保了模型訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。
此外,為了提高生成視頻的質(zhì)量和一致性,Meta還引入了監(jiān)督式微調(diào),使用人工策劃的高質(zhì)量視頻數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步的訓(xùn)練。
個(gè)性化視頻生成是在基礎(chǔ)視頻模型上進(jìn)行了擴(kuò)展,支持生成包含特定人物身份的視頻內(nèi)容。例如,輸入一個(gè)人的圖像和文本提示,模型能夠生成包含該人物并具有豐富細(xì)節(jié)的視頻。
Meta使用了一種全新的訓(xùn)練策略,通過(guò)在模型訓(xùn)練中加入人臉圖像和文本提示的配對(duì)數(shù)據(jù),使模型學(xué)會(huì)如何將特定的人物身份信息融入到視頻生成過(guò)程中。
精確視頻編輯是Movie Gen的另外一大技術(shù)創(chuàng)新,允許用戶通過(guò)文本提示對(duì)視頻進(jìn)行精確編輯。
Meta通過(guò)創(chuàng)新的訓(xùn)練方法,使模型能夠理解文本提示中的編輯指令,并將其應(yīng)用于視頻內(nèi)容的修改中。包括添加、移除或替換視頻中的元素,以及進(jìn)行背景或風(fēng)格等全局性的修改。
能生成帶背景音樂(lè)的視頻,流匹配和DiT是關(guān)鍵技術(shù)。流匹配是一種創(chuàng)新的生成式建模方法,通過(guò)構(gòu)建一個(gè)最優(yōu)傳輸路徑來(lái)指導(dǎo)生成過(guò)程,從而確保生成的內(nèi)容既連貫又富有創(chuàng)意。與傳統(tǒng)的擴(kuò)散模型相比,流匹配不僅提高了訓(xùn)練效率,還增強(qiáng)了推理階段的表現(xiàn)力。
DiT一種經(jīng)過(guò)調(diào)整的變壓器架構(gòu),能夠更好地處理音頻數(shù)據(jù)。通過(guò)對(duì)歸一化層輸出進(jìn)行縮放和偏移,并對(duì)自注意力及前饋網(wǎng)絡(luò)層輸出進(jìn)行縮放,實(shí)現(xiàn)了對(duì)音頻信號(hào)更精細(xì)的控制。同時(shí),通過(guò)一個(gè)多層感知機(jī)來(lái)預(yù)測(cè)調(diào)制參數(shù),進(jìn)一步優(yōu)化了模型性能。
為了適配不同的設(shè)備,針對(duì)視頻中的位置信息編碼問(wèn)題,Movie Gen使用了一種因子化的可學(xué)習(xí)位置嵌入方式。這種方法可以靈活地適應(yīng)不同尺寸、寬高比以及視頻長(zhǎng)度的輸入,避免了傳統(tǒng)固定長(zhǎng)度位置編碼帶來(lái)的限制。
Movie Gen通過(guò)將空間坐標(biāo)以及時(shí)間坐標(biāo)轉(zhuǎn)化為獨(dú)立的嵌入向量,再將它們相加得到最終的位置表示,從而有效減少了因位置編碼不當(dāng)導(dǎo)致的畫(huà)面扭曲或變形現(xiàn)象,尤其是在時(shí)間維度上表現(xiàn)尤為明顯。
為了降低性能消耗,Movie Gen引入了多維度并行化策略,包括數(shù)據(jù)并行、張量并行、序列并行以及上下文并行。這種三維并行化設(shè)計(jì)允許模型在參數(shù)數(shù)量、輸入token數(shù)和數(shù)據(jù)集大小三個(gè)軸向上進(jìn)行擴(kuò)展,同時(shí)也能橫向擴(kuò)展至更多的GPU設(shè)備上。
特別是在處理高分辨率視頻時(shí),由于自注意力機(jī)制本身的計(jì)算復(fù)雜度較高,因此高效的并行化策略對(duì)于減少所需的計(jì)算資源至關(guān)重要。
論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
