Meta版Sora深夜橫空出世,小扎放出16秒高清大片!92頁論文曝光技術(shù)細(xì)節(jié),Llama 3架構(gòu)立功
毫無預(yù)兆地,Meta版Sora——Movie Gen,就在剛剛搶先上線了!
Meta將其稱為「迄今最先進(jìn)的媒體基礎(chǔ)模型」。
全新上線的大殺器Movie Gen Video,是一個(gè)30B參數(shù)的Transformer模型,可以從單個(gè)文本提示,生成高質(zhì)量的高清圖像和視頻,視頻為1080P、16秒、每秒16幀。
一同推出的還有Movie Gen Audio。這是一個(gè)13B參數(shù)的Transformer模型。通過視頻輸入和文本提示,它就可以可控性生成和視頻同步的高保真音頻,時(shí)長最長45秒。
最驚人的是,這次Meta一并連論文都發(fā)布了。
論文中,詳細(xì)介紹了Movie Gen的架構(gòu)、訓(xùn)練方法和實(shí)驗(yàn)結(jié)果。
論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter&utm_medium=organic_social&utm_cnotallow=thread&utm_campaign=moviegen
從論文可以看出,Movie Gen Video沿用了Transformer的設(shè)計(jì),尤其借鑒了Llama 3。而研究人員引入的「流匹配」(Flow Matching),讓視頻在精度和細(xì)節(jié)表現(xiàn)上,都優(yōu)于擴(kuò)散模型。
稍顯遺憾的是,這次Meta發(fā)的也是「期貨」,產(chǎn)品預(yù)計(jì)明年才正式向公眾開放。
不出意外的,圍觀群眾給出亮眼點(diǎn)評:「Meta居然搶著OpenAI之前發(fā)布了Sora,呵呵」。
就在昨天,Sora負(fù)責(zé)人Tim Brooks選擇離職,Meta這個(gè)時(shí)間點(diǎn)放出Movie Gen,也真是夠扎心的。
而HuggingFace工程師也直接貼出Meta開源主頁,在線催更模型開源。
也有人期待,Meta版Sora的這次發(fā)布,或許或激出其他家的下一個(gè)王炸級產(chǎn)品。
一鍵視頻生成,趕超Sora
憑借開源Movie Gen,Meta正式進(jìn)軍AI視頻領(lǐng)域。
可以說,Movie Gen在編輯、個(gè)性化功能方面,站在了一個(gè)新階段。而且,最令人印象深刻的,便是把一張個(gè)人照,轉(zhuǎn)換成個(gè)性化視頻。
小扎在社交平臺上以身試法,將自己照片作為輸入,Movie Gen為其配上了健身的視頻。
文本生成視頻
現(xiàn)在,只要使用簡單的文本輸入,就能生成自定義的視頻了。
從官網(wǎng)放出的Demo可以看出,Meta所言不虛,Movie Gen的確可以說「為沉浸式AI內(nèi)容」樹立了新標(biāo)準(zhǔn)。
更為矚目的是,Movie Gen可以創(chuàng)建不同寬高比的高清長視頻。在業(yè)內(nèi),這屬于首次!
這個(gè)「雷聲大作,伴隨著管弦樂曲」的視頻,對于山石地貌和電閃雷鳴的刻畫驚人的逼真,配樂更是恢弘激昂。
Thunder cracks loudly, with an orchestral music track.
一個(gè)小女孩拿著風(fēng)箏跑過海灘,仿佛電影中的場景。
戴著粉色太陽鏡躺在甜甜圈游泳圈上的樹懶,視頻中光影和水波都很自然。
在冒著熱氣的溫泉中玩著小木船的白毛紅臉猴,無論是熱氣、水面、猴子毛發(fā)還是水中怪石,都看不出破綻。
在海邊耍著火圈的男人,視頻完全符合prompt的要求,鏡頭、光影和氛圍的刻畫,已經(jīng)達(dá)到了大片級畫質(zhì)。
各種超現(xiàn)實(shí)的場景,Movie Gen都能完美生成,比如這只毛茸茸的沖浪考拉。
文本編輯視頻
而只要使用文本輸入,就可以編輯現(xiàn)有視頻。
Movie Gen可以支持非常精確的視頻編輯,無論是樣式、過渡,還是精細(xì)編輯。
通過文字輸入,就能讓小女孩向空中放飛的燈籠,變成一個(gè)氣泡。
在沙地上跑步的男子,手中可以加上藍(lán)色絨球,周圍環(huán)境可以換成仙人掌沙漠,甚至可以讓男子換上一身恐龍?zhí)籽b。
在觀眾席上觀影的一對男女,可以讓他們戴上3D眼鏡、背景換成游樂園,甚至加上下雨的特效。
南極冰原上的企鵝可以穿上維多利亞式的衣服,背景可以加上遮陽傘和沙灘床,甚至整幅畫面都能變成鉛筆素描畫。
個(gè)性化視頻
并且,Movie Gen還有一個(gè)Sora沒有的亮點(diǎn)——個(gè)性化視頻!
只要上傳我們想要的圖像,它就可以由此生成個(gè)性化視頻,保留人物的身份和動作。
輸入這個(gè)女孩的照片,給出prompt,就能讓她在南瓜地上戴著圍巾喝咖啡。
讓這名男子化身科學(xué)家,穿上實(shí)驗(yàn)服開始做實(shí)驗(yàn)。
一張照片,就能生成自己和愛犬在露臺上的自拍視頻。
甚至讓自己在西部世界小鎮(zhèn)中化身騎馬的女牛仔,身后就是落基山脈。一秒走進(jìn)大片不是夢!
音效和配樂
Movie Gen還可以將視頻、文本作為輸入,并為視頻生成音頻。
它可讓你創(chuàng)建和擴(kuò)展視頻音效、背景音樂或整個(gè)配樂。
比如,下面企鵝戲水的畫面中,配上了AI生成的優(yōu)美的管弦樂曲。
文本輸入:A beautiful orchestral piece that evokes a sense of wonder
AI生成的煙花音效,也是如此地逼真。
文本輸入:Whistling sounds, followed by a sharp explosion and loud crackling.
傾瀉而下的瀑布和和雨水,站在高處遙望遠(yuǎn)方頓感壯觀。
文本輸入:Rain pours against the cliff and the person, with music playing in the background.
一條蛇在草地里緩慢前進(jìn),給人一種危機(jī)四伏的趕腳。
文本輸入:Rustling leaves and snapping twigs, with an orchestral music track.
AI生成的背景音,很有山地摩托摩托競賽那味兒了。
文本輸入:ATV engine roars and accelerates, with guitar music.
還有溜滑板,配著動作,給出不同節(jié)奏的音效。
文本輸入:Wheels spinning, and a slamming sound as the skateboard lands on concrete.
92頁技術(shù)報(bào)告,同用Llama 3架構(gòu)
Movie Gen發(fā)布同時(shí),Meta還祭出了92頁的技術(shù)報(bào)告。值得一提的是,這次團(tuán)隊(duì)也被命名為「Movie Gen team」。
Pytorch之父Soumith Chintala表示,其中很多細(xì)節(jié)將會推動AI視頻領(lǐng)域的發(fā)展。
接下來,一起看看Movie Gen得以實(shí)現(xiàn)的技術(shù)要點(diǎn)吧。
研究人員表示,Movie Gen主要是基于兩種基礎(chǔ)模型打造的,一個(gè)是Movie Gen Video,另一個(gè)是Movie Gen Audio。
Movie Gen Video
Movie Gen Video參數(shù)有300億,基礎(chǔ)架構(gòu)細(xì)節(jié)如下圖所示。
它能夠聯(lián)合文本到圖像和文本到視頻的生成。
Movie Gen Video可以遵循文本提示,生成長達(dá)16秒、16幀每秒高清視頻。
它也是通過預(yù)訓(xùn)練微調(diào)完成,在骨干網(wǎng)絡(luò)架構(gòu)上,它繼續(xù)沿用了Transformer的設(shè)計(jì),尤其是借鑒的Llama3的設(shè)計(jì)。
而且,該模型有強(qiáng)大的適應(yīng)性,可生成不同縱橫比、分辨率和時(shí)長的高質(zhì)量圖像和視頻。
預(yù)訓(xùn)練階段,在大約1億個(gè)視頻和10億張圖像上進(jìn)行了聯(lián)合預(yù)訓(xùn)練。
它是通過「看」視頻,來學(xué)習(xí)視覺世界。
實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),Movie Gen Video模型能夠理解物理世界——
可以推理物體運(yùn)動、主-客體交互、幾何關(guān)系、相機(jī)運(yùn)動、物理規(guī)律,以及各種概念的合理運(yùn)動。
在微調(diào)階段,研究人員精選了一部分視頻,對模型在美學(xué)、運(yùn)動質(zhì)量方面完成了微調(diào)。
為了提高訓(xùn)練、推理效率,研究人員在時(shí)空壓縮的潛在空間(Latent Space)中進(jìn)行生成。
為此,他們訓(xùn)練了一個(gè)單一的時(shí)間自編碼器(TAE),用于將RGB圖像和視頻映射到潛在空間。
然后,再使用預(yù)訓(xùn)練文本編碼器,來編碼用戶提供的文本提示,并獲得文本提示嵌入,這些嵌入用作模型的條件。
流匹配,擊敗擴(kuò)散損失
值得一提的是,研究人員還引入「流匹配」(Flow Matching)來訓(xùn)練生成模型,這使得視頻生成效果在精度、細(xì)節(jié)表現(xiàn)上,都優(yōu)于擴(kuò)散模型。
「流匹配」是一種新興的生成模型訓(xùn)練方法,其核心思想是——直接學(xué)習(xí)樣本從初始噪聲狀態(tài)向目標(biāo)數(shù)據(jù)分布轉(zhuǎn)化的過程。
而且,模型只需通過估計(jì)如何在每個(gè)時(shí)間步中演化樣本,即可生成高質(zhì)量的結(jié)果。
與擴(kuò)散模型相比,「流匹配」訓(xùn)練效率更高、計(jì)算成本更低、并且在時(shí)間維度保持連續(xù)性和一致性。
有網(wǎng)友對此總結(jié)道,在質(zhì)量和文本對齊上,人類評估都強(qiáng)烈傾向于流匹配,而不是擴(kuò)散。
此外,Movie Gen Video在技術(shù)上也引入了很多創(chuàng)新:
他們引入了創(chuàng)新的位置編碼方法——「因子化可學(xué)習(xí)編碼」,能夠獨(dú)立對高度、寬度、時(shí)間三個(gè)維度進(jìn)行編碼,然后將其相加。
基于這種靈活設(shè)計(jì),讓模型不僅能夠適應(yīng)不同寬高比,還能處理任意長度的視頻。
另外,為了解決模型推理效率問題,研究人員采用了一種「線性-二次時(shí)間步長」的策略。
如下圖所示,僅需50步,就能實(shí)現(xiàn)接近1000步采樣效果,大幅提升了推理速度。
與此同時(shí),Movie Gen Video還采用了一種巧妙的「時(shí)間平鋪」方法,進(jìn)一步提升生成效率。
具體來說,這種方法將輸入的視頻,在時(shí)間維度上切分成多個(gè)小片段,然后對每個(gè)片對獨(dú)立進(jìn)行編碼和解碼,最后再將所有處理好的片段,重新拼接成完成視頻。
這種分而治之策略,不僅顯著降低內(nèi)存需求,還提高了整體推理效率。
為了確保最終生成的視頻質(zhì)量,團(tuán)隊(duì)在解碼階段采用了精心設(shè)計(jì)的重疊和混合技術(shù)。
最后微調(diào)得到的Movie Gen Video模型,與當(dāng)前最先進(jìn)的模型相比,大幅超越LuamaLabs的Dream Machine,還有Gen-3。
它僅小幅超越了Sora、Kling 1.5。
如下是,生成圖像質(zhì)量的對比??偟膩碚f,Movie Gen Video在畫面一致性、質(zhì)量等方面,均取得了最優(yōu)表現(xiàn)。
提示中袋鼠走路細(xì)節(jié),在Sora中到最后并沒有展現(xiàn)。
Movie Gen Audio
音頻模型參數(shù)共有130億,能夠生成48kHz的高質(zhì)量電影音效和音樂。
而且,這些AI音頻與輸入視頻,實(shí)現(xiàn)同步。
值得一提的是,Movie Gen Audio可以原生處理不同長度音頻生成。
這一過程是通過TAE完成解碼與編碼。
而且,通過音頻延伸技術(shù),能夠?yàn)殚L達(dá)幾分鐘視頻,制作出連貫長音頻。
研究人員在大約100萬小時(shí)音頻上,對模型進(jìn)行了預(yù)訓(xùn)練。
得到的預(yù)訓(xùn)練模型,不僅學(xué)會了物理關(guān)聯(lián),還學(xué)會了視覺世界和音頻世界之間的心理關(guān)聯(lián)。
另外,模型還可以生成,與視覺場景匹配的非畫面「內(nèi)環(huán)境」聲音,即便是聲源沒有出現(xiàn)在畫面中。
最后,模型還可以生成支持情緒,并與視覺場景動作相匹配的非畫面內(nèi)音樂。
而且,它還能與專業(yè)地混合音效和背景音樂。
通過評估,與當(dāng)前先進(jìn)的音頻模型ElevenLabs等相比,Movie Gen Audio結(jié)果如下所示。