人人都是電影「導演」!MSRA聯(lián)合北大等高校提出:視頻、電影、短視頻生成模型
自從Stable Diffusion和Midjourney爆火之后,人們見識到了人工智能技術在圖片生成領域的強大實力。
而Stable Diffusion的開源,又進一步促進了定制化生成模型社區(qū)的建立,使得圖片生成得到了長足的發(fā)展。
然而,在更復雜、表達內容更豐富的視頻生成領域,卻缺乏一個有能力生成高質量視頻內容的模型,對于下游不同類型的視頻例如電影和短視頻的創(chuàng)作也更是「天方夜譚」。
為了打破這一窘境,微軟亞洲研究院(MSRA)聯(lián)合多所高校在視頻生成領域提出了一系列工作,涵蓋基礎生成模型和實現(xiàn)下游視頻生成任務的應用模型。
其中,有兩篇工作已經被ACM Multimedia 2023接收。
基礎模型
首先,北大和MSRA組成的聯(lián)合團隊針對將圖片生成模型拓展至視頻生成這一問題展開了細致的研究,提出了視頻生成基礎模型 VideoFactory。
作者列表:汪文靖,楊歡,拓子曦,何匯國,朱俊臣,傅建龍,劉家瑛
論文地址:https://arxiv.org/abs/2305.10874
1. 背景和動機
相較于圖像生成,視頻生成更為困難,其既包含空間域的單幀畫面建模,也包含時間域的跨幀運動建模。
然而,相較于大規(guī)模高質量圖像數(shù)據(jù),現(xiàn)有視頻數(shù)據(jù)集的質量和規(guī)模均存在嚴重缺陷。
受限于數(shù)據(jù)集,從零構建高質量視頻生成模型十分困難,因此大部分工作采用了將預訓練的圖像生成模型拓展至視頻生成的方案,更加便利高效。
在此背景下,如何將時序信息有效融入預訓練的圖像生成模型成為了研究的重點。
現(xiàn)有工作通常將獨立的一維卷積和注意力模塊分散地添加到視頻生成模型中,這會導致時空信息的交互不足。
同時,當前可用的視頻數(shù)據(jù)集質量也不令人滿意,從而導致現(xiàn)有工作的生成質量受限。
其中具有代表性的WebVid-10M數(shù)據(jù)集分辨率不足(360P),且畫面含明顯水印。
2. 方法和貢獻
2.1 基于交換式時空交叉注意力機制的模型設計
傳統(tǒng)的時空交互模塊設計如圖(a)-(c)所示,這些架構獨立地處理每個幀上的空域操作,而時域操作考慮每個空間位置的多個幀,這種方式忽略了時空信息的重要交互。
區(qū)別于(a)-(c)中的自注意力機制(self-attention),文章作者提出在空域和時域模塊之間引入交叉注意力機制:時域和空域特征會交替(swapped)地作為注意力機制中的Query和Key,以此充分將兩者的信息進行融合和交互。為減少計算開銷,進一步采用了3D窗口化的計算模式(3DW-MCA)。
這種設計鼓勵了更多的時空信息交互,強化了時空域特征,完整的網絡結構如下圖所示。
實驗結果表明,交替交叉注意力機制極大地提升了網絡對時空信息的建模能力,同時3D窗口的注意力優(yōu)化將計算開銷(包括運行時間和顯存消耗)顯著降低,并進一步提升了網絡的生成性能。
2.2 首個超大規(guī)模的高質量視頻生成數(shù)據(jù)集
豐富的文本-視頻數(shù)據(jù)對是訓練開放域文本到視頻生成模型的先決條件。
然而,現(xiàn)有的文本視頻數(shù)據(jù)集在規(guī)?;蛸|量上總是受到限制,影響了高質量視頻生成模型的構建。
文章作者詳細分析了現(xiàn)有數(shù)據(jù)集的規(guī)模和質量,并提出了業(yè)內首個同時滿足:高畫質、大規(guī)模、強標注的文本視頻對數(shù)據(jù)集HD-VG-130M。
該工作首先根據(jù)HD-VILA-100M[2]的視頻標簽進行采樣,從YouTube上收集原始高清視頻。
由于原始視頻具有復雜的場景轉換,不利于生成模型學習時間相關性,因此使用PySceneDetect檢測并分割這些原始視頻中的場景,最終得到130M個單場景視頻片段。
進一步,文章作者提取每個視頻片段的中心幀作為關鍵幀,使用BLIP-2為關鍵幀加上描述文本作為每個視頻片段的文本描述。
HD-VG-130M中的所有視頻片段都是單一場景,這確保了關鍵幀的描述在大多數(shù)情況下具有足夠的代表性,可以描述整個片段的內容。
該工作從視頻類型、視頻時長和描述文本長度三個方面對數(shù)據(jù)集進行了全面分析,確保了該數(shù)據(jù)集中的視頻具有豐富的多樣性,且時長與文本長度都利于視頻生成模型的訓練。
通過使用提出的大規(guī)模高質量數(shù)據(jù)集HD-VG-130M進行訓練,網絡在數(shù)值指標上得到了顯著的提升,同時在生成視覺效果得到了顯著的優(yōu)化,例如生成的樣本不再帶有水印。
3. 實驗結果
該工作以LDM作為預訓練的圖像生成網絡,使用了公開的WebVid-10M和HD-VG-130M進行聯(lián)合訓練。
推理時,聯(lián)合4x的預訓練的超分辨率網絡,最終生成1376 x 768的高清視頻。
3.1 數(shù)值指標
該工作在多個數(shù)據(jù)集上進行了與Zero-Shot和非Zero-Shot方法相比較的豐富實驗。
在UCF-101的實驗中,VideoFactory在Zero-Shot的設定下,顯著超越了其它同類型的模型,提升了FVD指標。
在MSR-VTT的實驗中,該方法證明了其生成的樣本與輸入的文本具有極高的匹配程度。
在WebVid-10M中,文章作者選取了5K的獨立測試集進行性能評估,該方法在生成指標上顯著領先于現(xiàn)有的其它方法。
最后,該方法進行了人工評測,測評指標包含:視頻畫面質量、文本和視頻內容的匹配程度、綜合視頻效果三個維度。
在與開源方法的對比中,VideoFactory以壓倒性(綜合偏好度93%)的優(yōu)勢獲得了測評人員的認可。
同時VideoFactory也嘗試了與當前的超大型閉源模型進行了性能的對比,該工作以超小的模型規(guī)模(僅12%~21%的參數(shù)量),在與這些模型公布的優(yōu)秀樣本對比中,取得了可匹敵的性能。
3.2 視覺效果
該工作也展示了與Imagen Video[3]、Make-A-Video[4]和Video LDM[5]的視覺效果對比。
值得注意的是,對比的方法均為當前未開源的超大模型,對比的樣本均為各方法對應主頁的優(yōu)秀展示樣本。
Make-A-Video只生成1:1的視頻,這限制了用戶體驗。
與Imagen Video和Video LDM相比,該工作的模型生成的熊貓和金毛犬具有更生動的細節(jié)。
同時該工作也展示了與現(xiàn)有的其它開源模型的生成樣本對比,可以明顯看出,在畫面構圖、時序連貫性等方面,該工作有顯著的效果領先。
更多生成樣本展示了該工作高質量的泛化性和穩(wěn)定性。
雖然目前該工作暫未公開項目主頁,但小編發(fā)現(xiàn)作者搭建了一個數(shù)據(jù)集GitHub項目https://github.com/daooshee/HD-VG-130M),其中數(shù)據(jù)集可以通過郵件作者的方式申請。
應用模型
基于基礎模型,團隊實現(xiàn)了兩個下游視頻的生成任務,用以完全釋放基礎模型的性能,并直接能夠與用戶交互,實現(xiàn)良好的體驗。
1. 電影生成模型MovieFactory
電子科技大學和MSRA等機構的研究人員提出了全自動化的電影生成模型。
用戶只需要給出一句簡單的電影主題,模型就可以幫用戶生成電影級畫質(3072 x 1280)、電影風格(多場景)和帶有音樂的高質量電影。
目前,該論文已被ACM Multimedia 2023 Brave New Idea(BNI)接收。
作者列表:朱俊臣,楊歡,何匯國,汪文靖,拓子曦,鄭文皇,高聯(lián)麗,宋井寬,傅建龍
論文地址:https://arxiv.org/abs/2306.07257
1.1 方法設計
作者結合了現(xiàn)有的語言和圖像生成大模型,構建出了可生成多幕場景的視頻生成器,并采用了檢索模型助力音頻部分的生成。
由于要生成高質量的多幕場景,視覺生成模型需要多個引導文本。
為了讓用戶輸入的簡單且高度概括化的文本變成電影所需要的詳細「劇本」,該工作采用了ChatGPT對文本進行擴充豐富。
作者設計了一套提示詞(prompts)用以實現(xiàn)該功能。這些提示詞引導ChatGPT形成一系列劇本,并且使得這些劇本能符合編劇的準則,同時能為用戶指定的主題引入創(chuàng)新和獨特的元素。此外,劇本也能有效地發(fā)揮視頻生成模型的能力。
有了劇本之后,視頻生成模型即可完成各幕的生成了。
考慮到電影與普通視頻域之間存在的差異,例如:超寬屏畫面和畫面風格。而高質量的電影的相關數(shù)據(jù)卻十分稀少,因此需要將預訓練的基礎模型快速遷移至電影生成上。
模型大體上與前文介紹的基礎模型VideoFactory保持一致,并設計了新的模塊用于實現(xiàn)快速的視頻域遷移。
從圖像生成模型拓展至視頻生成模型時,不同于之前的工作會訓練所有網絡參數(shù),該工作固定了預訓練的所有參數(shù),并添加了新的層對視頻的空間信息進行擬合。
這種設計有兩個優(yōu)點:
1)可以完全保留預訓練中的全部知識,從而生成訓練數(shù)據(jù)集中不包括的內容和場景,這對于電影奇幻場景的生成尤為重要;
2)可以在新的模塊中擬合多個視頻域分布,這使得對于任何視頻域數(shù)據(jù)的訓練都不會產生數(shù)據(jù)域偏離的問題,并保持了網絡生成高質量畫面的能力。
基于這種設計,MovieFactory能夠快速地從預訓練視頻遷移到電影畫面的生成。
有了豐富的畫面,電影還需要音樂和聲效。對此,作者提出了采用檢索模型依據(jù)畫面和電影腳本為視頻匹配合適的音頻。
該工作同時采用了文本到音頻和視頻到音頻的檢索模型,以保證音效的豐富性和合理性。
同時對于背景音樂的選取,作者利用ChatGPT總結了故事情節(jié)和基調,然后將推薦的基調類別與音樂信息檢索技術相結合,以識別合適的音樂曲目。
1.2 視頻生成
作者選擇Stable Diffusion 2.0作為基礎圖像生成模型,采用WebVid-10M和基礎模型中提出的HD-VG-130M聯(lián)合訓練基礎生成模型,并使用了少量的電影數(shù)據(jù)集進行畫面的擬合。最后采用了4x視頻超分辨率模型獲得3072×1280的高清超寬屏電影視頻。
視頻部分的生成結果展現(xiàn)了模型能夠生成具有清晰畫面(沒有任何水印)和平滑物體運動的高質量視頻。生成的視頻涵蓋真實與科幻的場景,并展示出了豐富的細節(jié)。
用戶僅需給出簡短的電影主題,例如一個宇航員的太空冒險(An Astronaut Space Adventure),該模型會自動生成電影的腳本,并由此生成多幕的帶有音頻的高質量電影。
2. 短視頻生成模型MobileVidFactory
另一篇來自電子科技大學、MSRA,以及羅切斯特大學等機構的工作,提出了全自動化的移動設備短視頻生成模型。
只需與用戶進行簡單的自然語言交互,模型即可生成豎屏、帶有定制化內容和帶有音樂的短視頻。
目前,該論文已被ACM Multimedia 2023 Demo接收。
作者列表:朱俊臣,楊歡,汪文靖,何匯國,拓子曦,喻永生,鄭文皇,高聯(lián)麗,宋井寬,傅建龍,羅杰波
鏈接:https://arxiv.org/abs/2307.16371
值得注意的是,作為共同作者的羅杰波教授也是之前的視頻生成工作latent-shift[1]的作者。
2.1 方法設計
該工作直擊當前最火熱的短視頻,借助高效的視頻生成模型和音頻檢索模型,結合基于文本的語音合成技術,構建出符合當前短視頻風格的生成框架。
該框架分為兩部分,分別是基礎生成部分和可選擇的定制化生成部分。
在基礎生成中,該工作與MovieFactory一致,獨立地生成視覺和聽覺內容。不同的是,該工作添加了可選擇的視頻插幀模型來提升整個模型輸出視頻的連貫性。
在定制化生成中,作者為用戶設計了兩個可選的自定義功能。
首先,模型支持在視頻中添加自定義的文本貼圖,以輔助作者概括視頻內容和表達創(chuàng)作想法。特別的,文本覆蓋還促進了聽力障礙者的無障礙性,并迎合了不同的受眾。
除此之外,為了增加個人風格,增強短視頻的故事性和提升整體真實感和互動性,模型允許用戶在視頻中添加配音。
依據(jù)用戶提供的文本,模型使用預訓練好的TTS(Text-To- Speech)將文本轉換為配音。在這個過程中,用戶可以選擇自己喜歡的語音,并且很好地支持各種語言,如英語和漢語。
2.2 短視頻生成
該工作在生成畫面的質量上符合短視頻的構圖和美感。
在最終的短視頻生成上,達到了豐富的創(chuàng)作表達,和實現(xiàn)了短視頻的趣味性。