自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠" 精華

發(fā)布于 2024-7-26 10:00
瀏覽
0收藏

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2407.16655
項目主頁:https://aim-uofa.github.io/MovieDreamer/
github鏈接:https://github.com/aim-uofa/MovieDreamer

亮點直擊

  • MovieDreamer,一個新穎的分層框架,將自回歸模型與擴散渲染結(jié)合起來,平衡長時間敘事連貫性與短時間視覺保真度。該方法大幅延長了生成視頻內(nèi)容的時長,達到數(shù)千個關(guān)鍵幀。
  • 使用多模態(tài)自回歸模型生成視覺token序列。自回歸模型支持zero-shotfew-shot的個性化生成場景,并支持可變長度的關(guān)鍵幀預測。
  • 使用了一種新穎的多模態(tài)腳本,對場景和角色身份進行分層結(jié)構(gòu)化豐富描述。這種方法不僅促進了視頻不同片段之間的敘事連貫性,還增強了角色控制和身份保持能力。
  • 方法展示了卓越的生成質(zhì)量,具有詳細的視覺連續(xù)性、高保真度的視覺細節(jié)以及角色身份保持能力。


超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

最近的視頻生成技術(shù)進展主要利用擴散模型來生成短時內(nèi)容。然而,這些方法在處理復雜敘事和保持角色一致性方面常常不足,而這些對于電影等長篇視頻制作至關(guān)重要。本文提出了MovieDreamer,一個新穎的分層框架,將自回歸模型的優(yōu)勢與基于擴散的渲染相結(jié)合,開創(chuàng)了具有復雜情節(jié)進展和高視覺保真度的長時視頻生成。本文的方法利用自回歸模型來保持整體敘事連貫性,預測視覺token序列,然后通過擴散渲染將其轉(zhuǎn)換為高質(zhì)量的視頻幀。這種方法類似于傳統(tǒng)的電影制作過程,將復雜的故事分解為可管理的場景拍攝。


此外,本文采用多模態(tài)腳本,豐富了場景描述,提供詳細的角色信息和視覺風格,增強了場景間的連續(xù)性和角色身份一致性。本文在各種電影類型中進行了廣泛的實驗,證明本文的方法不僅在視覺和敘事質(zhì)量上取得了優(yōu)異的成績,而且有效地將生成內(nèi)容的時長顯著延長,超越了當前的能力。

方法

概覽

本文提出了一種新穎的框架,用于生成擴展的視頻序列,該框架利用自回歸模型在長期時間一致性方面的優(yōu)勢和擴散模型在高質(zhì)量圖像渲染方面的優(yōu)勢。本文的方法以多模態(tài)腳本作為條件,以自回歸方式預測關(guān)鍵幀tokens,并使用這些幀作為anchor生成完整的視頻。本文的方法提供了靈活性,支持zero-shot生成以及需要遵循給定風格的few-shot場景。本文特別注意在多模態(tài)腳本設(shè)計、自回歸訓練和擴散渲染過程中保持角色身份的一致性。下圖2中展示了整體框架。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

通過擴散自編碼器進行關(guān)鍵幀tokens

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

自回歸關(guān)鍵幀tokens生成

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

傳統(tǒng)的 LLM 通常使用交叉熵損失進行訓練,這適用于離散輸出。然而,本文的模型處理的是連續(xù)實值圖像tokens,使得交叉熵不適用。


受 GIVT的啟發(fā),本文采用 k-混合高斯混合模型(GMM)來有效地建模這些實值tokens的分布。這涉及用 2kd 個均值、2kd 個方差和 k 個混合系數(shù)來參數(shù)化 GMM。


這些參數(shù)是通過自回歸模型的一個修改后的線性輸出層獲得的,從而能夠從 GMM 中采樣連續(xù)tokens。模型通過最小化負對數(shù)似然進行訓練:

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

為了解決自回歸模型在長視頻關(guān)鍵幀生成中的過擬合問題,本文實施了幾種關(guān)鍵策略:

  • 數(shù)據(jù)增強:為了最大限度地利用本文的訓練數(shù)據(jù),本文應用了隨機水平翻轉(zhuǎn)和隨機反轉(zhuǎn)視頻幀的時間順序。這種訓練數(shù)據(jù)增強大大增加了訓練數(shù)據(jù)的多樣性。
  • 面部embedding隨機化:為了防止身份泄露,本文隨機檢索同一角色在不同幀中的面部embedding。否則,模型會簡單地通過面部embedding輸入記住訓練幀。
  • 激進的Dropout:本文使用了異常高的50%的Dropout率,這對于從有限的訓練數(shù)據(jù)中進行廣泛學習至關(guān)重要。
  • tokens mask:本文以0.15的概率隨機mask輸入tokens,這適用于因果注意力mask。這迫使模型根據(jù)可用的上下文(如面部ID)推斷缺失的信息,進一步增強了其從部分數(shù)據(jù)中進行泛化的能力。

自回歸條件下的多模態(tài)腳本。本文開發(fā)了一種結(jié)構(gòu)良好的多模態(tài)腳本格式,作為自回歸模型的輸入,如下圖14所示。本文的腳本整合了多個維度:角色、場景元素和敘述弧線。僅使用文本來準確表示角色外貌是具有挑戰(zhàn)性的;因此,本文將文本描述與面部embedding結(jié)合起來,以提供每個角色的更詳細表示。為了便于自回歸模型的處理,本文將腳本格式結(jié)構(gòu)化,以明確區(qū)分這些元素。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

對于非文本模態(tài)(如面部embedding和壓縮tokens),本文使用多層感知器將其投射到LLaMA的embedding空間中。主要的挑戰(zhàn)在于文本數(shù)據(jù),它往往會產(chǎn)生長序列,從而消耗過多的tokens空間并限制模型的上下文廣度。為了解決這個問題,本文將文本視為一種單獨的模態(tài),將其分為“標識符”和“描述”(見上圖2)。標識符是簡潔的陳述,用于建立腳本的結(jié)構(gòu)。相比之下,描述則詳細說明了生成的屬性,每個描述都使用CLIP編碼為一個單獨的[CLS]tokens,然后投射到統(tǒng)一的輸入空間中。


這種方法通過將整個句子壓縮成單個tokens,顯著延長了訓練期間可用的上下文長度。本文使用LongCLIP作為描述的文本編碼器,支持最多248個tokens的輸入,這增強了本文處理詳細敘述內(nèi)容的能力。因此,時間步t的多模態(tài)腳本及其之前的歷史數(shù)據(jù)表示為:

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

個性化生成的few-shot訓練。 為了促進個性化電影內(nèi)容生成,本文提出了一種利用上下文學習的few-shot學習方法。在訓練過程中,本文從一集中隨機選擇10個幀,將它們編碼為視覺tokens,并隨機將這些tokens添加到該集的視覺tokens之前。這一策略不僅促進了上下文學習,使模型能夠根據(jù)參考幀定制內(nèi)容,還作為一種數(shù)據(jù)增強技術(shù),有效減輕了過擬合問題。


本文的模型具有多功能性,支持zero-shot和few-shot生成模式。在zero-shot模式下,模型僅根據(jù)文本提示生成內(nèi)容。在few-shot模式下,模型利用一小組用戶提供的參考圖像,使生成的內(nèi)容更符合用戶的偏好,而無需進一步訓練。這一功能確保用戶能夠高效地生成高質(zhì)量、定制化的視覺內(nèi)容,符合他們期望的主題和風格。

保留 ID 的擴散渲染

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

為了進一步提升模型對關(guān)鍵細節(jié)的關(guān)注能力,本文引入了一種隨機mask策略,該策略會遮蔽一部分輸入token。這種技術(shù)鼓勵解碼器更有效地利用現(xiàn)有的面部和文本線索,以更高的保真度重建圖像,特別是在保持身份特征方面。這種身份保留渲染也彌補了在自回歸建模過程中身份丟失的問題,如下圖3所示,顯著提高了身份感知質(zhì)量。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

基于關(guān)鍵幀的視頻生成

在獲得電影中的關(guān)鍵幀后,本文可以基于這些關(guān)鍵幀生成電影片段。一種直接的方法是利用現(xiàn)有的圖像到視頻模型,例如Stable Video Diffusion (SVD),來生成這些片段。具體來說,SVD將輸入圖像轉(zhuǎn)化為用于條件的潛在特征,并通過交叉注意力引入與輸入圖像的CLIP特征的交互。雖然SVD能夠生成高質(zhì)量的短視頻,例如25幀,但在生成更長的電影片段時會遇到困難。


為了生成更長的電影片段,一種直接的方法是利用前一個視頻的最后一幀作為生成后續(xù)視頻的初始幀。這個過程可以迭代進行,以獲得較長的視頻序列。然而,本文通過實驗證明,這會導致嚴重的錯誤積累:隨著時間的推移,視頻幀的質(zhì)量會逐漸惡化。


為了解決這個問題,本文提出了一種簡單而有效的解決方案。本文的動機是始終使用第一幀的特征作為視頻擴展過程中的“錨”,以增強模型對原始圖像分布的感知。在實際操作中,本文在生成后續(xù)視頻時,使用原始輸入圖像的CLIP特征,而不是前一個視頻的最后一幀進行交叉注意力交互。

實驗

與最先進的模型比較

故事生成。 許多現(xiàn)有的故事生成方法專注于使用小數(shù)據(jù)集進行微調(diào),表現(xiàn)出較差的泛化能力。因此,本文僅與那些展示出高泛化能力的方法進行比較,即StoryDiffusion和 StoryGen。如下圖4所示,StoryDiffusion無法保持長期一致性。例如,角色的頭發(fā)不一致,關(guān)鍵幀77中的角色與關(guān)鍵幀968中的角色不一致。類似地,StoryGen也未能保持一致性并生成了異常結(jié)果。相比之下,本文的方法在生成極長內(nèi)容的同時,能夠在多個角色之間保持短期和長期的一致性。這個觀察也通過下表1中的定量結(jié)果得到了證實,本文的方法在LT和ST指標上均取得了高分。此外,更高的CLIP得分反映了本文生成的結(jié)果與故事情節(jié)很好地契合。更好的IS、AS和FID得分表明本文的方法生成了高質(zhì)量的圖像。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

視頻結(jié)果。 本文對生成長視頻的方法進行了詳細比較。對于文本到視頻的方法,本文使用測試集中準備的詳細描述作為輸入。對于圖像到視頻的方法,本文采用由本文的方法生成的關(guān)鍵幀作為輸入。如下表2所示,本文的方法在質(zhì)量方面顯著優(yōu)于現(xiàn)有的開源模型,展示了強大的泛化能力。最重要的是,本文的方法能夠生成持續(xù)數(shù)小時的視頻,且質(zhì)量幾乎沒有妥協(xié),達到了最先進的水平。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

分析

反過擬合策略。 大型自回歸模型是強大的學習器,這使得它們很容易對數(shù)據(jù)集過擬合。如下圖6的第一行所示,生成的內(nèi)容主要由輸入字符主導。即使給出不同的文本提示,模型也會生成相似的視覺內(nèi)容。本文的反過擬合策略旨在削弱字符ID與目標幀之間的對應關(guān)系,從而避免簡單的記憶。如第二行所示,這有助于生成與文本描述高度一致的多樣化高質(zhì)量結(jié)果。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

多模態(tài)電影腳本。 多模態(tài)腳本引入了面部embedding,以更好地保持一致性。下圖5有力地展示了這種設(shè)計的有效性。具體來說,移除面部embedding會導致模型保持角色一致性的能力下降。面部embedding攜帶了比單純文本更細致和精確的信息。使用面部embedding后,短期和長期的一致性都得到了很好的保持。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

ID保持渲染。 在啟用ID保持渲染之前,本文的解碼器已經(jīng)顯示出重建目標圖像的能力。然而,對于訓練集外的圖像,由于壓縮token中細微面部特征的丟失,重建的角色外觀可能與預期目標略有不同。應用ID保持渲染后,本文的解碼器在保持角色身份方面表現(xiàn)出顯著增強的能力。實驗結(jié)果如上圖3所示,清楚地展示了后處理步驟的有效性。


few-shot個性化生成。 本文的方法作為一個強大的上下文學習者,能夠根據(jù)用戶提供的少量參考生成與風格或角色一致的結(jié)果。結(jié)果展示在下圖7中。本文的模型在few-shot場景下能夠生成與參考風格和角色更一致的結(jié)果。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

結(jié)論

本文提出了MovieDreamer,以應對生成具有復雜敘事的長時間視覺內(nèi)容的挑戰(zhàn)。該方法巧妙地結(jié)合了自回歸和擴散的優(yōu)勢,能夠生成長視頻。此外,本文設(shè)計了多模態(tài)腳本,旨在保持生成序列中角色的一致性。本文進一步引入了身份保持渲染,以更好地保持角色身份,并通過上下文建模支持few-shot電影創(chuàng)作。這項工作有望為自動化長時間視頻制作的未來發(fā)展開辟令人興奮的可能性。


本文轉(zhuǎn)自 AI生成未來 ,作者:Canyu Zhao等


原文鏈接:??https://mp.weixin.qq.com/s/bR0AwBo9Hy5KmChdcKXrIQ??

收藏
回復
舉報
回復
相關(guān)推薦