自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="9glzt"><rp id="9glzt"></rp></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Meta版Sora無預(yù)警來襲！拋棄擴(kuò)散損失，音視頻生成/畫面編輯全包，92頁論文無保留公開

作者：量子位 2024-10-05 08:10:01

具體來說Movie Gen由視頻生成和音頻生成兩個模型組成。Movie Gen Video：30B參數(shù)Transformer模型，可以從單個文本提示生成16秒、16幀每秒的高清視頻，相當(dāng)于73K個視頻tokens。

剛剛，Meta搶在OpenAI之前推出自己的Sora——Meta Movie Gen

Sora有的它都有，可創(chuàng)建不同寬高比的高清長視頻，支持1080p、16秒、每秒16幀。

Sora沒有的它還有，能生成配套的背景音樂和音效、根據(jù)文本指令編輯視頻，以及根據(jù)用戶上傳的圖像生成個性化視頻。

Meta表示，這是“迄今為止最先進(jìn)的媒體基礎(chǔ)模型（Media Foundation Models）”。

圖片

只需一句“把燈籠變成飛向空中的泡泡”，就能替換視頻中的物體，同時透明的泡泡正確反射了背景環(huán)境。

上傳一張自己的照片，就能成為AI電影的主角。

生成的視頻不再無聲，也不只是能安一個背景音樂。

比如看這里！視頻會配合滑板輪子轉(zhuǎn)動和落地配上逼真音效。（注意打開聲音）

有人表示，隨著大量創(chuàng)作者學(xué)會使用AI視頻編輯工具，很難想象幾年后長視頻和短視頻會變成什么樣。

圖片

這一次，與Sora只有演示和官網(wǎng)博客不同，Meta在92頁的論文中把架構(gòu)、訓(xùn)練細(xì)節(jié)都公開了。

圖片

不過模型本身還沒開源，遭到抱抱臉工程師貼臉開大，直接在評論區(qū)扔下Meta的開源主頁鏈接：

在這等著您嗷。

圖片

Meta在論文中特別強(qiáng)調(diào)，數(shù)據(jù)規(guī)模、模型大小、訓(xùn)練算力的擴(kuò)展對于訓(xùn)練大規(guī)模媒體生成模型至關(guān)重要。通過系統(tǒng)地提升這幾個維度，才使得如此強(qiáng)大的媒體生成系統(tǒng)成為可能。

其中最另業(yè)界關(guān)注的一點是，這一次他們完全扔掉了擴(kuò)散模型的擴(kuò)散損失函數(shù)，使用Transformer做骨干網(wǎng)絡(luò)，流匹配（Flow Matching）做訓(xùn)練目標(biāo)。

用Llama3架構(gòu)做視頻模型

具體來說Movie Gen由視頻生成和音頻生成兩個模型組成。

Movie Gen Video：30B參數(shù)Transformer模型，可以從單個文本提示生成16秒、16幀每秒的高清視頻，相當(dāng)于73K個視頻tokens。

對于精確視頻編輯，它可以執(zhí)行添加、刪除或替換元素，或背景替換、樣式更改等全局修改。

對于個性化視頻，它在保持角色身份一致性和運動自然性方面取得SOTA性能。

圖片

Movie Gen Audio：13B參數(shù)Transformer模型，可以接受視頻輸入以及可選的文本提示，生成與視頻同步的高保真音頻。

圖片

Movie Gen Video通過預(yù)訓(xùn)練-微調(diào)范式完成，在骨干網(wǎng)絡(luò)架構(gòu)上，它沿用了Transoformer，特別是Llama3的許多設(shè)計。

圖片

預(yù)訓(xùn)練階段

在海量的視頻-文本和圖像-文本數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練，學(xué)習(xí)對視覺世界的理解。這個階段的訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到了O(100)M視頻和O(1)B圖像，用以學(xué)習(xí)運動、場景、物理、幾何、音頻等概念。

微調(diào)階段

研究人員精心挑選了一小部分高質(zhì)量視頻進(jìn)行有監(jiān)督微調(diào)，以進(jìn)一步提升生成視頻的運動流暢度和美學(xué)品質(zhì)。

圖片

為了進(jìn)一步提高效果，模型還引入了流匹配（Flow Matching）作為訓(xùn)練目標(biāo)，這使得視頻生成的效果在精度和細(xì)節(jié)表現(xiàn)上優(yōu)于擴(kuò)散模型。

擴(kuò)散模型通過從數(shù)據(jù)分布逐漸加入噪聲，然后在推理時通過逆過程去除噪聲來生成樣本，用大量的迭代步數(shù)逐步逼近目標(biāo)分布。

流匹配則是通過直接學(xué)習(xí)樣本從噪聲向目標(biāo)數(shù)據(jù)分布轉(zhuǎn)化的速度，模型只需通過估計如何在每個時間步中演化樣本，即可生成高質(zhì)量的結(jié)果。

與擴(kuò)散模型相比，流匹配方法訓(xùn)練更加高效，計算成本更低，并且生成的結(jié)果在時間維度上具有更好的連續(xù)性和一致性。

圖片

在整體架構(gòu)上，首先通過時空自編碼器（Temporal AutoEncoder， TAE）將像素空間的RGB圖像和視頻壓縮到一個時空潛空間，學(xué)習(xí)一種更加緊湊的表征。

接著，輸入的文本提示被一系列預(yù)訓(xùn)練的文本編碼器編碼成向量表示，作為模型的條件信息。這里用到了多種互補(bǔ)的文本編碼器，包括理解語義的編碼器如UL2、與視覺對齊的編碼器如Long-prompt MetaCLIP，以及理解視覺文本的字符級編碼器如ByT5。

最后，生成模型以Flow Matching的目標(biāo)函數(shù)進(jìn)行訓(xùn)練，從高斯分布采樣的噪聲向量作為輸入，結(jié)合文本條件，生成一個輸出潛碼。這個潛碼經(jīng)過TAE解碼，就得到最終的圖像或視頻輸出。

圖片

此外Movie Gen Video在技術(shù)上還引入了多項創(chuàng)新：

為了讓模型同時適配圖像和視頻，設(shè)計了一套因子化的可學(xué)習(xí)位置編碼（factorized learnable positional embedding）機(jī)制。對高度、寬度、時間三個維度分別編碼，再相加。這樣即適配了不同寬高比，又能支持任意長度的視頻。

針對推理效率問題，它采用了線性-二次時間步長調(diào)度（linear-quadratic t-schedule）策略。僅用50步就能逼近1000步采樣的效果，大幅提升了推理速度。

圖片

為了進(jìn)一步提高生成效率，Movie Gen Video模型還采用了基于時間平鋪（temporal tiling）的推理方法。應(yīng)對生成高分辨率長視頻時，直接對整個視頻進(jìn)行編碼和解碼可能會遇到的內(nèi)存限制問題。

在時間平鋪推理中，輸入視頻在時間維度上被分割成多個片段，每個片段獨立進(jìn)行編碼和解碼，然后在輸出時將所有片段重新拼接在一起。這種方法不僅降低了對內(nèi)存的需求，還提高了推理的效率。

此外，在解碼階段使用了重疊和混合的方式來消除片段邊界處的偽影問題，即通過在片段之間引入重疊區(qū)域，并對重疊區(qū)域進(jìn)行加權(quán)平均，確保生成的視頻在時間維度上保持平滑和一致。

圖片

另外Meta還開源了多個基準(zhǔn)測試數(shù)據(jù)集，包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench，為后續(xù)研究者提供了權(quán)威的評測工具，有利于加速整個領(lǐng)域的進(jìn)步。

這篇長達(dá)92頁的論文還介紹了更多在架構(gòu)、訓(xùn)練方法、數(shù)據(jù)管理、評估、并行訓(xùn)練和推理優(yōu)化、以及音頻模型的更多信息。

感興趣的可到文末鏈接查看。

圖片

One More Thing

AI視頻生成這塊，這兩天熱鬧不斷。

就在Meta發(fā)布Movie Gen之前不久，OpenAI Sora主創(chuàng)之一Tim Brooks跳槽谷歌DeepMind，繼續(xù)視頻生成和世界模擬器方面的工作。

圖片

這讓很多人想到，就像當(dāng)年谷歌遲遲不推出大模型應(yīng)用，Transformer 8個作者紛紛出走。

現(xiàn)在OpenAI遲遲發(fā)布不了Sora，主要作者也跑了。

不過另外也有人認(rèn)為，Tim Brooks選擇現(xiàn)在離開，或許說明他在OpenAI的主要工作完成了，也讓人開始猜測：

Meta的發(fā)布會迫使OpenAI放出Sora來回應(yīng)嗎？

（截至目前為止，Sora的另一位主創(chuàng)Bill Peebles還未發(fā)聲。）

圖片

現(xiàn)在Meta放出了帶有視頻編輯功能的模型，再加上10月1日Pika 1.5更新，主打給視頻中物體加上融化、膨脹、擠壓等物理特效。

不難看出，AI視頻生成下半場，要開始卷向AI視頻編輯了。

圖片

論文地址：

https://ai.meta.com/static-resource/movie-gen-research-paper

參考鏈接：[1]https://ai.meta.com/research/movie-gen/[2]https://x.com/AIatMeta/status/1842188252541043075

責(zé)任編輯：武曉燕來源：量子位

Meta Sora 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="4jxv8"><i id="4jxv8"></i></blockquote>

<dfn id="4jxv8"><track id="4jxv8"></track></dfn>