自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

復(fù)旦大學(xué)聯(lián)合華為諾亞提出VidRD框架,實現(xiàn)迭代式的高質(zhì)量視頻生成

人工智能 新聞
本文提出了一個名為 “Reuse and Diffuse” 的框架。該框架可以在 LDM 已經(jīng)生成的少部分視頻幀之后,產(chǎn)生更多的視頻幀,從而實現(xiàn)迭代式地生成更長、更高質(zhì)量以及多樣化的視頻內(nèi)容。

復(fù)旦大學(xué)聯(lián)合華為諾亞方舟實驗室的研究者基于圖像擴散模型(LDM)提出了一種迭代式生成高質(zhì)量視頻的方案 ——VidRD (Reuse and Diffuse)。該方案旨在對生成視頻的質(zhì)量和序列長度上進行突破,實現(xiàn)了高質(zhì)量、長序列的可控視頻生成。有效減少了生成視頻幀間的抖動問題,具有較高的研究和實用價值,為當前火熱的AIGC社區(qū)貢獻了一份力量。

潛在擴散模型(LDM)是一種基于去噪自編碼器(Denoising Autoencoder)的生成模型,它可以通過逐步去除噪聲來從隨機初始化的數(shù)據(jù)生成高質(zhì)量的樣本。但由于在模型訓(xùn)練和推理過程中都存在著計算和內(nèi)存的限制,一個單獨的 LDM 通常只能生成數(shù)量非常有限的視頻幀。盡管現(xiàn)有的工作嘗試使用單獨的預(yù)測模型來生成更多的視頻幀,但這也會帶來額外的訓(xùn)練成本并產(chǎn)生幀級的抖動。

在本文中,受到潛在擴散模型(LDMs)在圖像合成方面的顯著成功的啟發(fā),提出了一個名為“Reuse and Diffuse”的框架,簡稱VidRD。該框架可以在 LDM 已經(jīng)生成的少部分視頻幀之后,產(chǎn)生更多的視頻幀,從而實現(xiàn)迭代式地生成更長、更高質(zhì)量以及多樣化的視頻內(nèi)容。VidRD 加載了預(yù)訓(xùn)練的圖像 LDM 模型進行高效訓(xùn)練,并使用添加有時序信息的 U-Net 網(wǎng)絡(luò)進行噪聲去除。


  • 論文標題:Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
  • 論文地址:https://arxiv.org/abs/2309.03549
  • 項目主頁:https://anonymous0x233.github.io/ReuseAndDiffuse/

本文的主要貢獻如下:

  1. 為了生成更加平滑的視頻,本文基于時序感知的 LDM 模型提出了一種迭代式的 “text-to-video” 生成方法。通過重復(fù)使用已經(jīng)生成視頻幀的潛空間特征以及每次都遵循先前的擴散過程,該方法可以迭代式地生成更多的視頻幀。
  2. 本文設(shè)計了一套數(shù)據(jù)處理方法來生成高質(zhì)量的 “文本 - 視頻” 數(shù)據(jù)集。針對現(xiàn)有的動作識別數(shù)據(jù)集,本文利用多模態(tài)大語言模型來為其中的視頻賦予文本描述。針對圖像數(shù)據(jù),本文采用隨機縮放和平移的方法來產(chǎn)生更多的視頻訓(xùn)練樣本。
  3. 在 UCF-101 數(shù)據(jù)集上,本文驗證了 FVD 和 IS 兩種評價指標以及可視化結(jié)果,定量和定性的結(jié)果顯示:相較于現(xiàn)有方法,VidRD 模型均取得了更好的效果。

方法介紹

圖 1. 本文提出的 VidRD 視頻生成框架示意圖

本文認為采用預(yù)訓(xùn)練的圖像 LDM 作為高質(zhì)量視頻合成的 LDM 訓(xùn)練起點是一種高效而明智的選擇。同時,這一觀點得到了 [1, 2] 等研究工作的進一步支持。在這樣的背景下,本文精心設(shè)計的模型基于預(yù)訓(xùn)練的穩(wěn)定擴散模型構(gòu)建,充分借鑒并繼承了其優(yōu)良的特性。這其中包括一個用于精準潛在表示的變分自編碼器(VAE)和一個功能強大的去噪網(wǎng)絡(luò) U-Net。圖 1 以清晰、直觀的方式展示了該模型的整體架構(gòu)。

在本文的模型設(shè)計中,一個顯著的特點是對預(yù)訓(xùn)練模型權(quán)重的充分利用。具體來說,大部分網(wǎng)絡(luò)層,包括 VAE 的各組件和 U-Net 的上采樣、下采樣層,均使用穩(wěn)定擴散模型的預(yù)訓(xùn)練權(quán)重進行初始化。這一策略不僅能顯著加速模型的訓(xùn)練過程,還能從一開始就確保模型表現(xiàn)出良好的穩(wěn)定性和可靠性。本文的模型可以在一個初始的包含少量幀的視頻片段的條件下,通過重用原始的潛在特征和模仿之前的擴散過程,迭代地生成額外的幀。此外,對于用于在像素空間和潛在空間之間進行轉(zhuǎn)換的自編碼器,本文在其解碼器中注入了和時序相關(guān)的網(wǎng)絡(luò)層,并對這些層進行了微調(diào),以提高時間一致性。

為了保證視頻幀間的連續(xù)性,本文在模型中添加了 3D Temp-conv 和 Temp-attn 層。Temp-conv 層緊跟在 3D ResNet 后面,該結(jié)構(gòu)可以實現(xiàn) 3D 卷積操作,以捕捉空間和時間的關(guān)聯(lián),進而理解視頻序列匯總的動態(tài)變化和連續(xù)性。Temp-Attn 結(jié)構(gòu)與 Self-attention 相似,用于分析和理解視頻序列中的幀間關(guān)系,使模型能夠精準地同步幀間的運行信息。這些參數(shù)在訓(xùn)練時隨機初始化,旨在為模型提供時序結(jié)構(gòu)上的理解和編碼。此外,為了適配該模型結(jié)構(gòu),數(shù)據(jù)的輸入也做了相應(yīng)的適配和調(diào)整。

圖 2. 本文提出的高質(zhì)量 “文本 - 視頻” 訓(xùn)練數(shù)據(jù)集構(gòu)建方法

為了訓(xùn)練 VidRD 模型,本文提出了一種構(gòu)建大規(guī)模 “文本 - 視頻” 訓(xùn)練數(shù)據(jù)集的方法,如圖 2 所示,該方法可以處理 “文本 - 圖像” 數(shù)據(jù)和無描述的 “文本 - 視頻” 數(shù)據(jù)。此外,為了實現(xiàn)高質(zhì)量的視頻生成,本文也嘗試對訓(xùn)練數(shù)據(jù)進行了去水印操作。

盡管當前市場上高質(zhì)量的視頻描述數(shù)據(jù)集相對稀缺,但存在大量的視頻分類數(shù)據(jù)集。這些數(shù)據(jù)集擁有豐富的視頻內(nèi)容,每段視頻都伴隨一個分類標簽。如 Moments-In-Time、Kinetics-700 和 VideoLT 就是三個代表性的大規(guī)模視頻分類數(shù)據(jù)集。Kinetics-700 涵蓋了 700 個人類動作類別,包含超過 60 萬的視頻片段。Moments-In-Time 則囊括了 339 個動作類別,總共有超過一百萬的視頻段落。而 VideoLT 則包含了 1004 個類別和 25 萬段未經(jīng)編輯的長視頻。

為了充分利用現(xiàn)有的視頻數(shù)據(jù),本文嘗試對這些視頻進行自動化地更加詳細的標注。本文采用了 BLIP-2、MiniGPT4 等多模態(tài)大語言模型,通過針對視頻中的關(guān)鍵幀,結(jié)合其原始的分類標簽,本文設(shè)計了許多 Prompts,以通過模型問答的方式產(chǎn)生標注。這種方法不僅增強了視頻數(shù)據(jù)的語音信息,而且可以為現(xiàn)有沒有詳細描述的視頻帶來更加全面、細致的視頻描述,從而實現(xiàn)了更加豐富的視頻標簽生成,以幫助 VidRD 模型帶來更好的訓(xùn)練效果。

此外,針對現(xiàn)有的非常豐富的圖像數(shù)據(jù),本文也設(shè)計了詳細的方法將圖像數(shù)據(jù)轉(zhuǎn)換為視頻格式以進行訓(xùn)練。具體操作為在圖像的不同位置、按照不同的速度進行平移和縮放,從而為每張圖像賦予獨特的動態(tài)展現(xiàn)形式,模擬現(xiàn)實生活中移動攝像頭來捕捉靜止物體的效果。通過這樣的方法,可以有效利用現(xiàn)有的圖像數(shù)據(jù)進行視頻訓(xùn)練。

效果展示

描述文本分別為:“Timelapse at the snow land with aurora in the sky.”、“A candle is burning.”、“An epic tornado attacking above a glowing city at night.”、以及“Aerial view of a white sandy beach on the shores of a beautiful sea.”。更多可視化效果可見項目主頁。

圖片

圖 3. 生成效果與現(xiàn)有的方法進行可視化對比

最后,如圖 3 所示,分別為本文生成結(jié)果與現(xiàn)有方法 Make-A-Video [3] 和 Imagen Video [4] 的可視化比較,展現(xiàn)了本文模型質(zhì)量更好的生成效果。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-06-07 14:16:12

數(shù)字化

2024-03-29 13:55:22

AI訓(xùn)練

2025-03-27 09:24:16

2025-01-07 09:30:00

模型論文AI

2025-01-22 10:30:00

圖像生成模型AI

2023-09-01 14:42:39

數(shù)據(jù)研究

2025-01-26 10:50:00

模型視頻生成

2023-10-23 12:43:05

模型訓(xùn)練

2024-03-11 00:50:00

AI框架數(shù)據(jù)

2025-03-20 09:20:00

2015-08-19 08:54:23

Android開發(fā)框架

2017-12-15 10:34:16

華為

2025-04-18 09:25:00

2024-10-16 14:10:00

AI視頻生成

2025-02-06 10:45:00

2017-07-14 09:54:47

代碼函數(shù)程序

2023-10-04 09:56:33

圖片AI

2023-01-27 23:46:36

嵌入式軟件技巧
點贊
收藏

51CTO技術(shù)棧公眾號