自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="yd78k"><i id="yd78k"></i></style><del id="yd78k"><ul id="yd78k"></ul></del>

<track id="yd78k"></track>

<nav id="yd78k"><menu id="yd78k"></menu></nav>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠" 精華

發(fā)布于 2024-7-26 10:00

瀏覽

0收藏

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2407.16655
項目主頁：https://aim-uofa.github.io/MovieDreamer/
github鏈接：https://github.com/aim-uofa/MovieDreamer

亮點直擊

MovieDreamer，一個新穎的分層框架，將自回歸模型與擴散渲染結(jié)合起來，平衡長時間敘事連貫性與短時間視覺保真度。該方法大幅延長了生成視頻內(nèi)容的時長，達到數(shù)千個關(guān)鍵幀。
使用多模態(tài)自回歸模型生成視覺token序列。自回歸模型支持zero-shot和few-shot的個性化生成場景，并支持可變長度的關(guān)鍵幀預測。
使用了一種新穎的多模態(tài)腳本，對場景和角色身份進行分層結(jié)構(gòu)化豐富描述。這種方法不僅促進了視頻不同片段之間的敘事連貫性，還增強了角色控制和身份保持能力。
方法展示了卓越的生成質(zhì)量，具有詳細的視覺連續(xù)性、高保真度的視覺細節(jié)以及角色身份保持能力。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

最近的視頻生成技術(shù)進展主要利用擴散模型來生成短時內(nèi)容。然而，這些方法在處理復雜敘事和保持角色一致性方面常常不足，而這些對于電影等長篇視頻制作至關(guān)重要。本文提出了MovieDreamer，一個新穎的分層框架，將自回歸模型的優(yōu)勢與基于擴散的渲染相結(jié)合，開創(chuàng)了具有復雜情節(jié)進展和高視覺保真度的長時視頻生成。本文的方法利用自回歸模型來保持整體敘事連貫性，預測視覺token序列，然后通過擴散渲染將其轉(zhuǎn)換為高質(zhì)量的視頻幀。這種方法類似于傳統(tǒng)的電影制作過程，將復雜的故事分解為可管理的場景拍攝。

此外，本文采用多模態(tài)腳本，豐富了場景描述，提供詳細的角色信息和視覺風格，增強了場景間的連續(xù)性和角色身份一致性。本文在各種電影類型中進行了廣泛的實驗，證明本文的方法不僅在視覺和敘事質(zhì)量上取得了優(yōu)異的成績，而且有效地將生成內(nèi)容的時長顯著延長，超越了當前的能力。

方法

概覽

本文提出了一種新穎的框架，用于生成擴展的視頻序列，該框架利用自回歸模型在長期時間一致性方面的優(yōu)勢和擴散模型在高質(zhì)量圖像渲染方面的優(yōu)勢。本文的方法以多模態(tài)腳本作為條件，以自回歸方式預測關(guān)鍵幀tokens，并使用這些幀作為anchor生成完整的視頻。本文的方法提供了靈活性，支持zero-shot生成以及需要遵循給定風格的few-shot場景。本文特別注意在多模態(tài)腳本設(shè)計、自回歸訓練和擴散渲染過程中保持角色身份的一致性。下圖2中展示了整體框架。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

通過擴散自編碼器進行關(guān)鍵幀tokens

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

自回歸關(guān)鍵幀tokens生成

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

傳統(tǒng)的 LLM 通常使用交叉熵損失進行訓練，這適用于離散輸出。然而，本文的模型處理的是連續(xù)實值圖像tokens，使得交叉熵不適用。

受 GIVT的啟發(fā)，本文采用 k-混合高斯混合模型（GMM）來有效地建模這些實值tokens的分布。這涉及用 2kd 個均值、2kd 個方差和 k 個混合系數(shù)來參數(shù)化 GMM。

這些參數(shù)是通過自回歸模型的一個修改后的線性輸出層獲得的，從而能夠從 GMM 中采樣連續(xù)tokens。模型通過最小化負對數(shù)似然進行訓練：

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

為了解決自回歸模型在長視頻關(guān)鍵幀生成中的過擬合問題，本文實施了幾種關(guān)鍵策略：

數(shù)據(jù)增強：為了最大限度地利用本文的訓練數(shù)據(jù)，本文應用了隨機水平翻轉(zhuǎn)和隨機反轉(zhuǎn)視頻幀的時間順序。這種訓練數(shù)據(jù)增強大大增加了訓練數(shù)據(jù)的多樣性。
面部embedding隨機化：為了防止身份泄露，本文隨機檢索同一角色在不同幀中的面部embedding。否則，模型會簡單地通過面部embedding輸入記住訓練幀。
激進的Dropout：本文使用了異常高的50%的Dropout率，這對于從有限的訓練數(shù)據(jù)中進行廣泛學習至關(guān)重要。
tokens mask：本文以0.15的概率隨機mask輸入tokens，這適用于因果注意力mask。這迫使模型根據(jù)可用的上下文（如面部ID）推斷缺失的信息，進一步增強了其從部分數(shù)據(jù)中進行泛化的能力。

自回歸條件下的多模態(tài)腳本。本文開發(fā)了一種結(jié)構(gòu)良好的多模態(tài)腳本格式，作為自回歸模型的輸入，如下圖14所示。本文的腳本整合了多個維度：角色、場景元素和敘述弧線。僅使用文本來準確表示角色外貌是具有挑戰(zhàn)性的；因此，本文將文本描述與面部embedding結(jié)合起來，以提供每個角色的更詳細表示。為了便于自回歸模型的處理，本文將腳本格式結(jié)構(gòu)化，以明確區(qū)分這些元素。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

對于非文本模態(tài)（如面部embedding和壓縮tokens），本文使用多層感知器將其投射到LLaMA的embedding空間中。主要的挑戰(zhàn)在于文本數(shù)據(jù)，它往往會產(chǎn)生長序列，從而消耗過多的tokens空間并限制模型的上下文廣度。為了解決這個問題，本文將文本視為一種單獨的模態(tài)，將其分為“標識符”和“描述”（見上圖2）。標識符是簡潔的陳述，用于建立腳本的結(jié)構(gòu)。相比之下，描述則詳細說明了生成的屬性，每個描述都使用CLIP編碼為一個單獨的[CLS]tokens，然后投射到統(tǒng)一的輸入空間中。

這種方法通過將整個句子壓縮成單個tokens，顯著延長了訓練期間可用的上下文長度。本文使用LongCLIP作為描述的文本編碼器，支持最多248個tokens的輸入，這增強了本文處理詳細敘述內(nèi)容的能力。因此，時間步t的多模態(tài)腳本及其之前的歷史數(shù)據(jù)表示為：

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

個性化生成的few-shot訓練。 為了促進個性化電影內(nèi)容生成，本文提出了一種利用上下文學習的few-shot學習方法。在訓練過程中，本文從一集中隨機選擇10個幀，將它們編碼為視覺tokens，并隨機將這些tokens添加到該集的視覺tokens之前。這一策略不僅促進了上下文學習，使模型能夠根據(jù)參考幀定制內(nèi)容，還作為一種數(shù)據(jù)增強技術(shù)，有效減輕了過擬合問題。

本文的模型具有多功能性，支持zero-shot和few-shot生成模式。在zero-shot模式下，模型僅根據(jù)文本提示生成內(nèi)容。在few-shot模式下，模型利用一小組用戶提供的參考圖像，使生成的內(nèi)容更符合用戶的偏好，而無需進一步訓練。這一功能確保用戶能夠高效地生成高質(zhì)量、定制化的視覺內(nèi)容，符合他們期望的主題和風格。

保留 ID 的擴散渲染

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

為了進一步提升模型對關(guān)鍵細節(jié)的關(guān)注能力，本文引入了一種隨機mask策略，該策略會遮蔽一部分輸入token。這種技術(shù)鼓勵解碼器更有效地利用現(xiàn)有的面部和文本線索，以更高的保真度重建圖像，特別是在保持身份特征方面。這種身份保留渲染也彌補了在自回歸建模過程中身份丟失的問題，如下圖3所示，顯著提高了身份感知質(zhì)量。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

基于關(guān)鍵幀的視頻生成

在獲得電影中的關(guān)鍵幀后，本文可以基于這些關(guān)鍵幀生成電影片段。一種直接的方法是利用現(xiàn)有的圖像到視頻模型，例如Stable Video Diffusion (SVD)，來生成這些片段。具體來說，SVD將輸入圖像轉(zhuǎn)化為用于條件的潛在特征，并通過交叉注意力引入與輸入圖像的CLIP特征的交互。雖然SVD能夠生成高質(zhì)量的短視頻，例如25幀，但在生成更長的電影片段時會遇到困難。

為了生成更長的電影片段，一種直接的方法是利用前一個視頻的最后一幀作為生成后續(xù)視頻的初始幀。這個過程可以迭代進行，以獲得較長的視頻序列。然而，本文通過實驗證明，這會導致嚴重的錯誤積累：隨著時間的推移，視頻幀的質(zhì)量會逐漸惡化。

為了解決這個問題，本文提出了一種簡單而有效的解決方案。本文的動機是始終使用第一幀的特征作為視頻擴展過程中的“錨”，以增強模型對原始圖像分布的感知。在實際操作中，本文在生成后續(xù)視頻時，使用原始輸入圖像的CLIP特征，而不是前一個視頻的最后一幀進行交叉注意力交互。

實驗

與最先進的模型比較

故事生成。 許多現(xiàn)有的故事生成方法專注于使用小數(shù)據(jù)集進行微調(diào)，表現(xiàn)出較差的泛化能力。因此，本文僅與那些展示出高泛化能力的方法進行比較，即StoryDiffusion和 StoryGen。如下圖4所示，StoryDiffusion無法保持長期一致性。例如，角色的頭發(fā)不一致，關(guān)鍵幀77中的角色與關(guān)鍵幀968中的角色不一致。類似地，StoryGen也未能保持一致性并生成了異常結(jié)果。相比之下，本文的方法在生成極長內(nèi)容的同時，能夠在多個角色之間保持短期和長期的一致性。這個觀察也通過下表1中的定量結(jié)果得到了證實，本文的方法在LT和ST指標上均取得了高分。此外，更高的CLIP得分反映了本文生成的結(jié)果與故事情節(jié)很好地契合。更好的IS、AS和FID得分表明本文的方法生成了高質(zhì)量的圖像。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

視頻結(jié)果。 本文對生成長視頻的方法進行了詳細比較。對于文本到視頻的方法，本文使用測試集中準備的詳細描述作為輸入。對于圖像到視頻的方法，本文采用由本文的方法生成的關(guān)鍵幀作為輸入。如下表2所示，本文的方法在質(zhì)量方面顯著優(yōu)于現(xiàn)有的開源模型，展示了強大的泛化能力。最重要的是，本文的方法能夠生成持續(xù)數(shù)小時的視頻，且質(zhì)量幾乎沒有妥協(xié)，達到了最先進的水平。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

分析

反過擬合策略。 大型自回歸模型是強大的學習器，這使得它們很容易對數(shù)據(jù)集過擬合。如下圖6的第一行所示，生成的內(nèi)容主要由輸入字符主導。即使給出不同的文本提示，模型也會生成相似的視覺內(nèi)容。本文的反過擬合策略旨在削弱字符ID與目標幀之間的對應關(guān)系，從而避免簡單的記憶。如第二行所示，這有助于生成與文本描述高度一致的多樣化高質(zhì)量結(jié)果。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

多模態(tài)電影腳本。 多模態(tài)腳本引入了面部embedding，以更好地保持一致性。下圖5有力地展示了這種設(shè)計的有效性。具體來說，移除面部embedding會導致模型保持角色一致性的能力下降。面部embedding攜帶了比單純文本更細致和精確的信息。使用面部embedding后，短期和長期的一致性都得到了很好的保持。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

ID保持渲染。 在啟用ID保持渲染之前，本文的解碼器已經(jīng)顯示出重建目標圖像的能力。然而，對于訓練集外的圖像，由于壓縮token中細微面部特征的丟失，重建的角色外觀可能與預期目標略有不同。應用ID保持渲染后，本文的解碼器在保持角色身份方面表現(xiàn)出顯著增強的能力。實驗結(jié)果如上圖3所示，清楚地展示了后處理步驟的有效性。

few-shot個性化生成。 本文的方法作為一個強大的上下文學習者，能夠根據(jù)用戶提供的少量參考生成與風格或角色一致的結(jié)果。結(jié)果展示在下圖7中。本文的模型在few-shot場景下能夠生成與參考風格和角色更一致的結(jié)果。

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃！純AI生成《泰坦尼克號》大片！浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

結(jié)論

本文提出了MovieDreamer，以應對生成具有復雜敘事的長時間視覺內(nèi)容的挑戰(zhàn)。該方法巧妙地結(jié)合了自回歸和擴散的優(yōu)勢，能夠生成長視頻。此外，本文設(shè)計了多模態(tài)腳本，旨在保持生成序列中角色的一致性。本文進一步引入了身份保持渲染，以更好地保持角色身份，并通過上下文建模支持few-shot電影創(chuàng)作。這項工作有望為自動化長時間視頻制作的未來發(fā)展開辟令人興奮的可能性。

本文轉(zhuǎn)自 AI生成未來，作者：Canyu Zhao等

原文鏈接:??https://mp.weixin.qq.com/s/bR0AwBo9Hy5KmChdcKXrIQ??

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

大模型投資2024：阿里騰訊，爭做一號“金主”

liutao988 ? 2801瀏覽 ? 0回復
4倍內(nèi)存效率，生成和超分雙SOTA！清華&智譜AI發(fā)布最新Inf-DiT模型

angel ? 6620瀏覽 ? 0回復
阿里巴巴AI研究團隊打破視頻生成技術(shù)壁壘，EasyAnimate實現(xiàn)高質(zhì)量長視頻生成

Syrupup ? 3710瀏覽 ? 0回復
浙大、螞蟻集團推出MaPa：文本生成超真實3D模型

Aceryt ? 2879瀏覽 ? 0回復
AI視頻新霸主誕生！Dream Machine官宣免費用，電影級大片全網(wǎng)玩瘋

duhorse ? 2774瀏覽 ? 0回復
Grok-2震撼發(fā)布！性能打平GPT-4o，神速牽手爆火的FLUX 生成超逼真圖像！缺點：生成的每個總統(tǒng)都是特朗普

51CTO技術(shù)棧 ? 2506瀏覽 ? 0回復
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2085瀏覽 ? 0回復
阿里國際發(fā)布首個大規(guī)模商用翻譯大模型Marco，效果超Google、DeepL等，全球開放！

51CTO技術(shù)棧 ? 3117瀏覽 ? 0回復
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2307瀏覽 ? 0回復
大模型超長窗口上下文與檢索增強生成——RAG

AI探索時代 ? 2286瀏覽 ? 0回復
OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1795瀏覽 ? 0回復
幾秒生成逼真3D場景，泛化媲美Stable Diffusion | 浙大&螞蟻等提出Prometheus

angel ? 1925瀏覽 ? 0回復
用戶可控的電影級圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 2021瀏覽 ? 0回復
阿里發(fā)布通義萬相2.1 :最佳視頻生成模型

Halo咯咯 ? 2472瀏覽 ? 0回復
Wan2.1背后的技術(shù)：阿里發(fā)布全能框架VACE，一統(tǒng)視頻生成與編輯，效果驚艷！

angel ? 3333瀏覽 ? 0回復
AI鏡頭控制黑科技喜提多項SOTA！浙大&上交等發(fā)布統(tǒng)一多模態(tài)視頻生成框架OmniCam

angel ? 1047瀏覽 ? 0回復
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1130瀏覽 ? 0回復
今天的智譜，燃炸了！

51CTO技術(shù)棧 ? 1043瀏覽 ? 0回復
全球首部AI生成電影在新加坡上映！70分鐘電影《海上女王鄭一嫂》登陸院線，AI會改寫未來電影嗎？

算家計算 ? 662瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：語音克隆達到人類水平，微軟全新VALL-E 2模型讓DeepFake堪比配音員

下一篇：顛覆虛擬試衣行業(yè)標準！阿里發(fā)布OutfitAnyone：任意服裝+任意人！

社區(qū)精華內(nèi)容

目錄