自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="bzepq"></sub>

<cite id="bzepq"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

復(fù)旦大學(xué)聯(lián)合華為諾亞提出VidRD框架，實現(xiàn)迭代式的高質(zhì)量視頻生成

作者：機器之心 2023-10-20 12:54:00

人工智能新聞

本文提出了一個名為 “Reuse and Diffuse” 的框架。該框架可以在 LDM 已經(jīng)生成的少部分視頻幀之后，產(chǎn)生更多的視頻幀，從而實現(xiàn)迭代式地生成更長、更高質(zhì)量以及多樣化的視頻內(nèi)容。

復(fù)旦大學(xué)聯(lián)合華為諾亞方舟實驗室的研究者基于圖像擴散模型（LDM）提出了一種迭代式生成高質(zhì)量視頻的方案 ——VidRD (Reuse and Diffuse)。該方案旨在對生成視頻的質(zhì)量和序列長度上進行突破，實現(xiàn)了高質(zhì)量、長序列的可控視頻生成。有效減少了生成視頻幀間的抖動問題，具有較高的研究和實用價值，為當前火熱的AIGC社區(qū)貢獻了一份力量。

潛在擴散模型（LDM）是一種基于去噪自編碼器（Denoising Autoencoder）的生成模型，它可以通過逐步去除噪聲來從隨機初始化的數(shù)據(jù)生成高質(zhì)量的樣本。但由于在模型訓(xùn)練和推理過程中都存在著計算和內(nèi)存的限制，一個單獨的 LDM 通常只能生成數(shù)量非常有限的視頻幀。盡管現(xiàn)有的工作嘗試使用單獨的預(yù)測模型來生成更多的視頻幀，但這也會帶來額外的訓(xùn)練成本并產(chǎn)生幀級的抖動。

在本文中，受到潛在擴散模型（LDMs）在圖像合成方面的顯著成功的啟發(fā)，提出了一個名為“Reuse and Diffuse”的框架，簡稱VidRD。該框架可以在 LDM 已經(jīng)生成的少部分視頻幀之后，產(chǎn)生更多的視頻幀，從而實現(xiàn)迭代式地生成更長、更高質(zhì)量以及多樣化的視頻內(nèi)容。VidRD 加載了預(yù)訓(xùn)練的圖像 LDM 模型進行高效訓(xùn)練，并使用添加有時序信息的 U-Net 網(wǎng)絡(luò)進行噪聲去除。

論文標題：Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
論文地址：https://arxiv.org/abs/2309.03549
項目主頁：https://anonymous0x233.github.io/ReuseAndDiffuse/

本文的主要貢獻如下：

為了生成更加平滑的視頻，本文基于時序感知的 LDM 模型提出了一種迭代式的 “text-to-video” 生成方法。通過重復(fù)使用已經(jīng)生成視頻幀的潛空間特征以及每次都遵循先前的擴散過程，該方法可以迭代式地生成更多的視頻幀。
本文設(shè)計了一套數(shù)據(jù)處理方法來生成高質(zhì)量的 “文本 - 視頻” 數(shù)據(jù)集。針對現(xiàn)有的動作識別數(shù)據(jù)集，本文利用多模態(tài)大語言模型來為其中的視頻賦予文本描述。針對圖像數(shù)據(jù)，本文采用隨機縮放和平移的方法來產(chǎn)生更多的視頻訓(xùn)練樣本。
在 UCF-101 數(shù)據(jù)集上，本文驗證了 FVD 和 IS 兩種評價指標以及可視化結(jié)果，定量和定性的結(jié)果顯示：相較于現(xiàn)有方法，VidRD 模型均取得了更好的效果。

方法介紹

圖 1. 本文提出的 VidRD 視頻生成框架示意圖

本文認為采用預(yù)訓(xùn)練的圖像 LDM 作為高質(zhì)量視頻合成的 LDM 訓(xùn)練起點是一種高效而明智的選擇。同時，這一觀點得到了 [1, 2] 等研究工作的進一步支持。在這樣的背景下，本文精心設(shè)計的模型基于預(yù)訓(xùn)練的穩(wěn)定擴散模型構(gòu)建，充分借鑒并繼承了其優(yōu)良的特性。這其中包括一個用于精準潛在表示的變分自編碼器（VAE）和一個功能強大的去噪網(wǎng)絡(luò) U-Net。圖 1 以清晰、直觀的方式展示了該模型的整體架構(gòu)。

在本文的模型設(shè)計中，一個顯著的特點是對預(yù)訓(xùn)練模型權(quán)重的充分利用。具體來說，大部分網(wǎng)絡(luò)層，包括 VAE 的各組件和 U-Net 的上采樣、下采樣層，均使用穩(wěn)定擴散模型的預(yù)訓(xùn)練權(quán)重進行初始化。這一策略不僅能顯著加速模型的訓(xùn)練過程，還能從一開始就確保模型表現(xiàn)出良好的穩(wěn)定性和可靠性。本文的模型可以在一個初始的包含少量幀的視頻片段的條件下，通過重用原始的潛在特征和模仿之前的擴散過程，迭代地生成額外的幀。此外，對于用于在像素空間和潛在空間之間進行轉(zhuǎn)換的自編碼器，本文在其解碼器中注入了和時序相關(guān)的網(wǎng)絡(luò)層，并對這些層進行了微調(diào)，以提高時間一致性。

為了保證視頻幀間的連續(xù)性，本文在模型中添加了 3D Temp-conv 和 Temp-attn 層。Temp-conv 層緊跟在 3D ResNet 后面，該結(jié)構(gòu)可以實現(xiàn) 3D 卷積操作，以捕捉空間和時間的關(guān)聯(lián)，進而理解視頻序列匯總的動態(tài)變化和連續(xù)性。Temp-Attn 結(jié)構(gòu)與 Self-attention 相似，用于分析和理解視頻序列中的幀間關(guān)系，使模型能夠精準地同步幀間的運行信息。這些參數(shù)在訓(xùn)練時隨機初始化，旨在為模型提供時序結(jié)構(gòu)上的理解和編碼。此外，為了適配該模型結(jié)構(gòu)，數(shù)據(jù)的輸入也做了相應(yīng)的適配和調(diào)整。

圖 2. 本文提出的高質(zhì)量 “文本 - 視頻” 訓(xùn)練數(shù)據(jù)集構(gòu)建方法

為了訓(xùn)練 VidRD 模型，本文提出了一種構(gòu)建大規(guī)模 “文本 - 視頻” 訓(xùn)練數(shù)據(jù)集的方法，如圖 2 所示，該方法可以處理 “文本 - 圖像” 數(shù)據(jù)和無描述的 “文本 - 視頻” 數(shù)據(jù)。此外，為了實現(xiàn)高質(zhì)量的視頻生成，本文也嘗試對訓(xùn)練數(shù)據(jù)進行了去水印操作。

盡管當前市場上高質(zhì)量的視頻描述數(shù)據(jù)集相對稀缺，但存在大量的視頻分類數(shù)據(jù)集。這些數(shù)據(jù)集擁有豐富的視頻內(nèi)容，每段視頻都伴隨一個分類標簽。如 Moments-In-Time、Kinetics-700 和 VideoLT 就是三個代表性的大規(guī)模視頻分類數(shù)據(jù)集。Kinetics-700 涵蓋了 700 個人類動作類別，包含超過 60 萬的視頻片段。Moments-In-Time 則囊括了 339 個動作類別，總共有超過一百萬的視頻段落。而 VideoLT 則包含了 1004 個類別和 25 萬段未經(jīng)編輯的長視頻。

為了充分利用現(xiàn)有的視頻數(shù)據(jù)，本文嘗試對這些視頻進行自動化地更加詳細的標注。本文采用了 BLIP-2、MiniGPT4 等多模態(tài)大語言模型，通過針對視頻中的關(guān)鍵幀，結(jié)合其原始的分類標簽，本文設(shè)計了許多 Prompts，以通過模型問答的方式產(chǎn)生標注。這種方法不僅增強了視頻數(shù)據(jù)的語音信息，而且可以為現(xiàn)有沒有詳細描述的視頻帶來更加全面、細致的視頻描述，從而實現(xiàn)了更加豐富的視頻標簽生成，以幫助 VidRD 模型帶來更好的訓(xùn)練效果。

此外，針對現(xiàn)有的非常豐富的圖像數(shù)據(jù)，本文也設(shè)計了詳細的方法將圖像數(shù)據(jù)轉(zhuǎn)換為視頻格式以進行訓(xùn)練。具體操作為在圖像的不同位置、按照不同的速度進行平移和縮放，從而為每張圖像賦予獨特的動態(tài)展現(xiàn)形式，模擬現(xiàn)實生活中移動攝像頭來捕捉靜止物體的效果。通過這樣的方法，可以有效利用現(xiàn)有的圖像數(shù)據(jù)進行視頻訓(xùn)練。

效果展示

描述文本分別為：“Timelapse at the snow land with aurora in the sky.”、“A candle is burning.”、“An epic tornado attacking above a glowing city at night.”、以及“Aerial view of a white sandy beach on the shores of a beautiful sea.”。更多可視化效果可見項目主頁。

圖 3. 生成效果與現(xiàn)有的方法進行可視化對比

最后，如圖 3 所示，分別為本文生成結(jié)果與現(xiàn)有方法 Make-A-Video [3] 和 Imagen Video [4] 的可視化比較，展現(xiàn)了本文模型質(zhì)量更好的生成效果。

責任編輯：張燕妮來源：機器之心

數(shù)據(jù)訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營