自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta版Sora深夜橫空出世,小扎放出16秒高清大片!92頁論文曝光技術(shù)細(xì)節(jié),Llama 3架構(gòu)立功

人工智能 新聞
Meta版Sora,就在剛剛驚艷來襲。Movie Gen可生成1080p、16秒、每秒16幀的高清長視頻,還能生成音效、編輯視頻、上傳圖像生成個(gè)性化視頻。甚至Meta還放出了92頁論文,模型架構(gòu)、訓(xùn)練細(xì)節(jié)一并公開,干貨滿滿!

毫無預(yù)兆地,Meta版Sora——Movie Gen,就在剛剛搶先上線了!

Meta將其稱為「迄今最先進(jìn)的媒體基礎(chǔ)模型」。

圖片

全新上線的大殺器Movie Gen Video,是一個(gè)30B參數(shù)的Transformer模型,可以從單個(gè)文本提示,生成高質(zhì)量的高清圖像和視頻,視頻為1080P、16秒、每秒16幀。

一同推出的還有Movie Gen Audio。這是一個(gè)13B參數(shù)的Transformer模型。通過視頻輸入和文本提示,它就可以可控性生成和視頻同步的高保真音頻,時(shí)長最長45秒。

最驚人的是,這次Meta一并連論文都發(fā)布了。

圖片

論文中,詳細(xì)介紹了Movie Gen的架構(gòu)、訓(xùn)練方法和實(shí)驗(yàn)結(jié)果。

圖片

論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter&utm_medium=organic_social&utm_cnotallow=thread&utm_campaign=moviegen

從論文可以看出,Movie Gen Video沿用了Transformer的設(shè)計(jì),尤其借鑒了Llama 3。而研究人員引入的「流匹配」(Flow Matching),讓視頻在精度和細(xì)節(jié)表現(xiàn)上,都優(yōu)于擴(kuò)散模型。

稍顯遺憾的是,這次Meta發(fā)的也是「期貨」,產(chǎn)品預(yù)計(jì)明年才正式向公眾開放。

不出意外的,圍觀群眾給出亮眼點(diǎn)評:「Meta居然搶著OpenAI之前發(fā)布了Sora,呵呵」。

圖片

就在昨天,Sora負(fù)責(zé)人Tim Brooks選擇離職,Meta這個(gè)時(shí)間點(diǎn)放出Movie Gen,也真是夠扎心的。

而HuggingFace工程師也直接貼出Meta開源主頁,在線催更模型開源。

圖片

也有人期待,Meta版Sora的這次發(fā)布,或許或激出其他家的下一個(gè)王炸級產(chǎn)品。

圖片

一鍵視頻生成,趕超Sora

憑借開源Movie Gen,Meta正式進(jìn)軍AI視頻領(lǐng)域。

可以說,Movie Gen在編輯、個(gè)性化功能方面,站在了一個(gè)新階段。而且,最令人印象深刻的,便是把一張個(gè)人照,轉(zhuǎn)換成個(gè)性化視頻。

圖片

小扎在社交平臺上以身試法,將自己照片作為輸入,Movie Gen為其配上了健身的視頻。

圖片

文本生成視頻

現(xiàn)在,只要使用簡單的文本輸入,就能生成自定義的視頻了。

從官網(wǎng)放出的Demo可以看出,Meta所言不虛,Movie Gen的確可以說「為沉浸式AI內(nèi)容」樹立了新標(biāo)準(zhǔn)。

更為矚目的是,Movie Gen可以創(chuàng)建不同寬高比的高清長視頻。在業(yè)內(nèi),這屬于首次!

這個(gè)「雷聲大作,伴隨著管弦樂曲」的視頻,對于山石地貌和電閃雷鳴的刻畫驚人的逼真,配樂更是恢弘激昂。

Thunder cracks loudly, with an orchestral music track.

一個(gè)小女孩拿著風(fēng)箏跑過海灘,仿佛電影中的場景。

圖片

戴著粉色太陽鏡躺在甜甜圈游泳圈上的樹懶,視頻中光影和水波都很自然。

圖片

在冒著熱氣的溫泉中玩著小木船的白毛紅臉猴,無論是熱氣、水面、猴子毛發(fā)還是水中怪石,都看不出破綻。

圖片

在海邊耍著火圈的男人,視頻完全符合prompt的要求,鏡頭、光影和氛圍的刻畫,已經(jīng)達(dá)到了大片級畫質(zhì)。

圖片

各種超現(xiàn)實(shí)的場景,Movie Gen都能完美生成,比如這只毛茸茸的沖浪考拉。

圖片

文本編輯視頻

而只要使用文本輸入,就可以編輯現(xiàn)有視頻。

Movie Gen可以支持非常精確的視頻編輯,無論是樣式、過渡,還是精細(xì)編輯。

通過文字輸入,就能讓小女孩向空中放飛的燈籠,變成一個(gè)氣泡。

圖片

在沙地上跑步的男子,手中可以加上藍(lán)色絨球,周圍環(huán)境可以換成仙人掌沙漠,甚至可以讓男子換上一身恐龍?zhí)籽b。

圖片

在觀眾席上觀影的一對男女,可以讓他們戴上3D眼鏡、背景換成游樂園,甚至加上下雨的特效。

圖片

南極冰原上的企鵝可以穿上維多利亞式的衣服,背景可以加上遮陽傘和沙灘床,甚至整幅畫面都能變成鉛筆素描畫。

圖片

個(gè)性化視頻

并且,Movie Gen還有一個(gè)Sora沒有的亮點(diǎn)——個(gè)性化視頻!

只要上傳我們想要的圖像,它就可以由此生成個(gè)性化視頻,保留人物的身份和動作。

輸入這個(gè)女孩的照片,給出prompt,就能讓她在南瓜地上戴著圍巾喝咖啡。

圖片

讓這名男子化身科學(xué)家,穿上實(shí)驗(yàn)服開始做實(shí)驗(yàn)。

圖片

一張照片,就能生成自己和愛犬在露臺上的自拍視頻。

圖片

甚至讓自己在西部世界小鎮(zhèn)中化身騎馬的女牛仔,身后就是落基山脈。一秒走進(jìn)大片不是夢!

圖片

音效和配樂

Movie Gen還可以將視頻、文本作為輸入,并為視頻生成音頻。

它可讓你創(chuàng)建和擴(kuò)展視頻音效、背景音樂或整個(gè)配樂。

比如,下面企鵝戲水的畫面中,配上了AI生成的優(yōu)美的管弦樂曲。

文本輸入:A beautiful orchestral piece that evokes a sense of wonder

AI生成的煙花音效,也是如此地逼真。

文本輸入:Whistling sounds, followed by a sharp explosion and loud crackling.

傾瀉而下的瀑布和和雨水,站在高處遙望遠(yuǎn)方頓感壯觀。

文本輸入:Rain pours against the cliff and the person, with music playing in the background.

一條蛇在草地里緩慢前進(jìn),給人一種危機(jī)四伏的趕腳。

文本輸入:Rustling leaves and snapping twigs, with an orchestral music track.

AI生成的背景音,很有山地摩托摩托競賽那味兒了。

文本輸入:ATV engine roars and accelerates, with guitar music.

還有溜滑板,配著動作,給出不同節(jié)奏的音效。

文本輸入:Wheels spinning, and a slamming sound as the skateboard lands on concrete.

92頁技術(shù)報(bào)告,同用Llama 3架構(gòu)

Movie Gen發(fā)布同時(shí),Meta還祭出了92頁的技術(shù)報(bào)告。值得一提的是,這次團(tuán)隊(duì)也被命名為「Movie Gen team」。

圖片

Pytorch之父Soumith Chintala表示,其中很多細(xì)節(jié)將會推動AI視頻領(lǐng)域的發(fā)展。

接下來,一起看看Movie Gen得以實(shí)現(xiàn)的技術(shù)要點(diǎn)吧。

圖片

研究人員表示,Movie Gen主要是基于兩種基礎(chǔ)模型打造的,一個(gè)是Movie Gen Video,另一個(gè)是Movie Gen Audio。

Movie Gen Video

Movie Gen Video參數(shù)有300億,基礎(chǔ)架構(gòu)細(xì)節(jié)如下圖所示。

圖片

它能夠聯(lián)合文本到圖像和文本到視頻的生成。

圖片

Movie Gen Video可以遵循文本提示,生成長達(dá)16秒、16幀每秒高清視頻。

它也是通過預(yù)訓(xùn)練微調(diào)完成,在骨干網(wǎng)絡(luò)架構(gòu)上,它繼續(xù)沿用了Transformer的設(shè)計(jì),尤其是借鑒的Llama3的設(shè)計(jì)。

圖片

而且,該模型有強(qiáng)大的適應(yīng)性,可生成不同縱橫比、分辨率和時(shí)長的高質(zhì)量圖像和視頻。

預(yù)訓(xùn)練階段,在大約1億個(gè)視頻和10億張圖像上進(jìn)行了聯(lián)合預(yù)訓(xùn)練。

它是通過「看」視頻,來學(xué)習(xí)視覺世界。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),Movie Gen Video模型能夠理解物理世界——

可以推理物體運(yùn)動、主-客體交互、幾何關(guān)系、相機(jī)運(yùn)動、物理規(guī)律,以及各種概念的合理運(yùn)動。

在微調(diào)階段,研究人員精選了一部分視頻,對模型在美學(xué)、運(yùn)動質(zhì)量方面完成了微調(diào)。

圖片

為了提高訓(xùn)練、推理效率,研究人員在時(shí)空壓縮的潛在空間(Latent Space)中進(jìn)行生成。

為此,他們訓(xùn)練了一個(gè)單一的時(shí)間自編碼器(TAE),用于將RGB圖像和視頻映射到潛在空間。

然后,再使用預(yù)訓(xùn)練文本編碼器,來編碼用戶提供的文本提示,并獲得文本提示嵌入,這些嵌入用作模型的條件。

流匹配,擊敗擴(kuò)散損失

值得一提的是,研究人員還引入「流匹配」(Flow Matching)來訓(xùn)練生成模型,這使得視頻生成效果在精度、細(xì)節(jié)表現(xiàn)上,都優(yōu)于擴(kuò)散模型。

「流匹配」是一種新興的生成模型訓(xùn)練方法,其核心思想是——直接學(xué)習(xí)樣本從初始噪聲狀態(tài)向目標(biāo)數(shù)據(jù)分布轉(zhuǎn)化的過程。

而且,模型只需通過估計(jì)如何在每個(gè)時(shí)間步中演化樣本,即可生成高質(zhì)量的結(jié)果。

與擴(kuò)散模型相比,「流匹配」訓(xùn)練效率更高、計(jì)算成本更低、并且在時(shí)間維度保持連續(xù)性和一致性。

圖片

有網(wǎng)友對此總結(jié)道,在質(zhì)量和文本對齊上,人類評估都強(qiáng)烈傾向于流匹配,而不是擴(kuò)散。

圖片

此外,Movie Gen Video在技術(shù)上也引入了很多創(chuàng)新:

他們引入了創(chuàng)新的位置編碼方法——「因子化可學(xué)習(xí)編碼」,能夠獨(dú)立對高度、寬度、時(shí)間三個(gè)維度進(jìn)行編碼,然后將其相加。

基于這種靈活設(shè)計(jì),讓模型不僅能夠適應(yīng)不同寬高比,還能處理任意長度的視頻。

另外,為了解決模型推理效率問題,研究人員采用了一種「線性-二次時(shí)間步長」的策略。

如下圖所示,僅需50步,就能實(shí)現(xiàn)接近1000步采樣效果,大幅提升了推理速度。

圖片

與此同時(shí),Movie Gen Video還采用了一種巧妙的「時(shí)間平鋪」方法,進(jìn)一步提升生成效率。

具體來說,這種方法將輸入的視頻,在時(shí)間維度上切分成多個(gè)小片段,然后對每個(gè)片對獨(dú)立進(jìn)行編碼和解碼,最后再將所有處理好的片段,重新拼接成完成視頻。

圖片

這種分而治之策略,不僅顯著降低內(nèi)存需求,還提高了整體推理效率。

為了確保最終生成的視頻質(zhì)量,團(tuán)隊(duì)在解碼階段采用了精心設(shè)計(jì)的重疊和混合技術(shù)。

最后微調(diào)得到的Movie Gen Video模型,與當(dāng)前最先進(jìn)的模型相比,大幅超越LuamaLabs的Dream Machine,還有Gen-3。

它僅小幅超越了Sora、Kling 1.5。

圖片

如下是,生成圖像質(zhì)量的對比??偟膩碚f,Movie Gen Video在畫面一致性、質(zhì)量等方面,均取得了最優(yōu)表現(xiàn)。

圖片

提示中袋鼠走路細(xì)節(jié),在Sora中到最后并沒有展現(xiàn)。

圖片

Movie Gen Audio

音頻模型參數(shù)共有130億,能夠生成48kHz的高質(zhì)量電影音效和音樂。

而且,這些AI音頻與輸入視頻,實(shí)現(xiàn)同步。

圖片

值得一提的是,Movie Gen Audio可以原生處理不同長度音頻生成。

這一過程是通過TAE完成解碼與編碼。

圖片

而且,通過音頻延伸技術(shù),能夠?yàn)殚L達(dá)幾分鐘視頻,制作出連貫長音頻。

研究人員在大約100萬小時(shí)音頻上,對模型進(jìn)行了預(yù)訓(xùn)練。

得到的預(yù)訓(xùn)練模型,不僅學(xué)會了物理關(guān)聯(lián),還學(xué)會了視覺世界和音頻世界之間的心理關(guān)聯(lián)。

圖片

另外,模型還可以生成,與視覺場景匹配的非畫面「內(nèi)環(huán)境」聲音,即便是聲源沒有出現(xiàn)在畫面中。

最后,模型還可以生成支持情緒,并與視覺場景動作相匹配的非畫面內(nèi)音樂。

而且,它還能與專業(yè)地混合音效和背景音樂。

通過評估,與當(dāng)前先進(jìn)的音頻模型ElevenLabs等相比,Movie Gen Audio結(jié)果如下所示。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-09-26 14:07:30

2010-03-25 10:04:10

UbuntuOne M

2018-11-29 10:49:36

2021-12-17 07:00:56

ESMongoDBRedisJson

2010-12-09 09:09:37

2016-10-08 23:30:58

Power8云計(jì)算

2013-11-01 09:07:15

2022-05-12 15:25:16

惡意軟件網(wǎng)絡(luò)攻擊

2014-11-13 16:37:50

2009-05-07 18:50:35

四核Nehalem服務(wù)器

2016-04-27 11:01:11

SparkStormApache Apex

2014-01-17 14:08:45

移動os國產(chǎn)軟件

2023-02-21 21:48:29

2023-04-19 07:34:21

AutoGPT程序員GitHub

2011-05-04 15:09:56

激光打印機(jī)奔圖科技

2020-10-12 14:47:25

芯片半導(dǎo)體技術(shù)

2015-06-19 09:21:52

JointForce解放號

2020-10-28 11:54:05

AI 數(shù)據(jù)人工智能

2015-11-13 10:06:10

2024-03-04 07:30:00

Sora論文研究
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號