自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

兩萬字長文詳解視頻擴散模型的最新進展 精華

發(fā)布于 2024-4-22 12:06
瀏覽
1收藏

最近,AIGCer在使用一些視頻生成工具,對其中的技術點有了強烈興趣,正好搜索到了這篇視頻擴散模型綜述,方法果然浩如煙海,讀下來感覺受益良多,分享給大家。


人工智能生成內容(AIGC)浪潮在計算機視覺領域取得了巨大成功,擴散模型在這一成就中發(fā)揮著關鍵作用。由于其出色的生成能力,擴散模型逐漸取代了基于GAN和自回歸Transformer的方法,在圖像生成和編輯以及視頻相關研究領域表現(xiàn)出色。然而,現(xiàn)有的調查主要集中在圖像生成的背景下的擴散模型,對它們在視頻領域應用的最新評論相對較少。為了彌補這一差距,本文介紹了AIGC時代視頻擴散模型的全面回顧。具體而言,首先簡要介紹擴散模型的基礎知識和演變歷程。隨后,概述了視頻領域擴散模型研究的概況,將這方面的工作分為三個關鍵領域:視頻生成、視頻編輯和其他視頻理解任務。對這三個關鍵領域的文獻進行了徹底的回顧,包括在該領域中的進一步分類和實際貢獻。


最后,討論了該領域研究面臨的挑戰(zhàn),并勾勒了潛在的未來發(fā)展趨勢。本綜述中研究的視頻擴散模型的全面列表可在地址中查看:「https://github.com/ChenHsing/Awesome-Video-Diffusion-Models」

介紹

人工智能生成內容(AIGC)目前是計算機視覺和人工智能領域最重要的研究方向之一。它不僅引起了廣泛關注和學術研究,還在各行業(yè)和其他應用中產(chǎn)生了深遠的影響,如計算機圖形學、藝術與設計、醫(yī)學成像等。在這些努力中,以擴散模型為代表的一系列方法已經(jīng)取得了顯著的成功,迅速取代了基于生成對抗網(wǎng)絡(GANs)和自回歸Transformer的方法,成為圖像生成的主導方法。由于它們強大的可控性、逼真的生成和出色的多樣性,基于擴散的方法還在廣泛的計算機視覺任務中蓬勃發(fā)展,包括圖像編輯、密集預測和諸如視頻合成和3D生成等各種領域。


作為最重要的媒體之一,視頻在互聯(lián)網(wǎng)上嶄露頭角。與純文本和靜態(tài)圖像相比,視頻呈現(xiàn)了豐富的動態(tài)信息,為用戶提供了更全面、沉浸式的視覺體驗。基于擴散模型的視頻任務研究正逐漸引起關注。如下圖1所示,自2022年以來,視頻擴散模型研究論文的數(shù)量顯著增加,可以分為三個主要類別:視頻生成、視頻編輯和視頻理解。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

隨著視頻擴散模型的快速發(fā)展和其取得令人印象深刻的成果,追蹤和比較這一主題的最新研究變得非常重要。多篇綜述文章已經(jīng)涵蓋了AIGC時代基礎模型的研究,包括擴散模型本身和多模態(tài)學習。也有一些專門關注文本到圖像研究和文本到3D應用的綜述。然而,這些綜述要么只提供對視頻擴散模型的粗略覆蓋,要么更加強調圖像模型。因此,在這項工作中,作者旨在通過對擴散模型的方法論、實驗設置、基準數(shù)據(jù)集以及其他視頻應用進行全面回顧,填補這一空白。


「貢獻」:在這篇綜述中,系統(tǒng)地跟蹤和總結了有關視頻擴散模型的最新文獻,涵蓋視頻生成、編輯以及視頻理解的其他方面。通過提取共享的技術細節(jié),這次綜述涵蓋了該領域最具代表性的工作。還介紹了關于視頻擴散模型的背景和相關知識基礎。此外,對視頻生成的基準和設置進行了全面的分析和比較。更重要的是,由于視頻擴散的快速演進,可能沒有在這次綜述中涵蓋所有最新的進展。


「流程」:將介紹背景知識,包括問題定義、數(shù)據(jù)集、評估指標和相關研究領域。隨后,介紹主要概述視頻生成領域的方法。深入研究與視頻編輯任務相關的主要研究。后續(xù)闡明了利用擴散模型進行視頻理解的各種方向。再強調了現(xiàn)有的研究挑戰(zhàn)和潛在的未來發(fā)展方向,并總結結論。

預備知識

首先介紹擴散模型的基礎內容,隨后回顧相關研究領域。最后,介紹常用的數(shù)據(jù)集和評估指標。


擴散模型

擴散模型是一類概率生成模型,其任務是學習逆轉一個逐漸降低訓練數(shù)據(jù)結構的過程。這一類模型在深度生成模型領域取代了生成對抗網(wǎng)絡在一些挑戰(zhàn)性任務中的主導地位。目前的研究主要關注于三種主要的擴散模型表述:去噪擴散概率模型(DDPMs)、基于分數(shù)的生成模型(SGMs)和隨機微分方程(Score SDEs)。

去噪擴散概率模型(DDPMs)

去噪擴散概率模型(DDPM)包括兩個馬爾可夫鏈:一個前向鏈將數(shù)據(jù)擾動到噪聲,而一個反向鏈將噪聲轉換回數(shù)據(jù)。前者旨在將任何數(shù)據(jù)轉化為一個簡單的先驗分布,而后者學習轉換核以逆轉前者的過程。通過首先從先驗分布中抽樣一個隨機向量,然后通過反向馬爾可夫鏈進行原始抽樣,可以生成新的數(shù)據(jù)點。這個抽樣過程的關鍵是訓練反向馬爾可夫鏈以匹配前向馬爾可夫鏈的實際時間逆轉。


正式而言,假設存在一個數(shù)據(jù)分布 ??,前向馬爾可夫過程生成了一系列隨機變量 x?, x?, ..., ,其轉移核為 q(x? | x???)。在給定 x? 的條件下,x?, x?, ...,  的聯(lián)合分布,表示為 q(x?, ...,  | x?),可以分解為:

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

通常,轉移核被設計為:

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

其中,β? ∈ (0, 1) 是在模型訓練之前選擇的超參數(shù)。

反向馬爾可夫鏈由一個先驗分布 p() = N(; 0, I) 和一個可學習的轉移核 θ(x???|x?) 參數(shù)化,其形式為

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

在這里,θ 表示模型參數(shù),均值 μθ(x?, t) 和方差 θ(x?, t) 由深度神經(jīng)網(wǎng)絡參數(shù)化。利用反向馬爾可夫鏈,作者可以通過首先從噪聲向量  ~ p() 中抽樣,然后從可學習的轉移核 x??? ~ θ(x???|x?) 迭代抽樣直到 t = 1,生成新的數(shù)據(jù) x?。

基于分數(shù)的生成模型(SGMs)

基于分數(shù)的生成模型(SGMs)的關鍵思想是使用不同水平的噪聲擾動數(shù)據(jù),并同時通過訓練一個單一的條件分數(shù)網(wǎng)絡來估計與所有噪聲水平相對應的分數(shù)。通過在逐漸減小的噪聲水平上鏈接分數(shù)函數(shù)并使用基于分數(shù)的抽樣方法,生成樣本。在SGMs的公式中,訓練和抽樣是完全解耦的。


假設 q(x?) 是數(shù)據(jù)分布,且 0 < σ? < σ? < ... < σ? 是一系列噪聲水平。SGMs的一個典型示例涉及使用高斯噪聲分布 q(x?|x?) = N(x?; x?, σ??I) 將數(shù)據(jù)點 x? 擾動為 x?,從而產(chǎn)生一系列噪聲數(shù)據(jù)密度 q(x?), q(x?), ..., q(),其中 q(x?) := ∫ q(x?|x?)q(x?)dx?。噪聲條件分數(shù)網(wǎng)絡(NCSN)是一個深度神經(jīng)網(wǎng)絡 θ(x,t),其訓練目標是估計分數(shù)函數(shù) ?x? log q(x?)。作者可以直接使用分數(shù)匹配、去噪分數(shù)匹配和切片分數(shù)匹配等技術,從擾動的數(shù)據(jù)點中訓練作者的NCSN。


對于樣本生成,SGMs利用迭代方法,通過使用諸如淬火 Langevin 動力學(ALD)等技術,依次生成來自 θ(x,T), θ(x,T?1), ..., θ(x,0) 的樣本。

隨機微分方程(Score SDEs)

使用多個噪聲尺度擾動數(shù)據(jù)是上述方法成功的關鍵。Score SDEs 進一步將這個思想推廣到無限多個噪聲尺度。擴散過程可以被建模為以下隨機微分方程(SDE)的解:

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

其中,f(x, t) 和 g(t) 分別是 SDE 的擴散和漂移函數(shù), w是標準維納過程。從樣本 x(T)~開始并反轉過程,作者可以通過這個逆時間 SDE 獲得樣本 x(0)~p?:

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

其中, 是標準維納過程,當時間倒流時使用。一旦對于所有t已知每個邊際分布的分數(shù) ?log(x),作者可以從方程5推導出逆擴散過程并模擬它以從中抽樣。

相關工作

視頻擴散模型的應用涵蓋了廣泛的視頻分析任務,包括視頻生成、視頻編輯以及各種其他形式的視頻理解。這些任務的方法學存在相似性,通常將問題制定為擴散生成任務,或利用擴散模型在下游任務中強大的受控生成能力。在這份調查中,主要關注任務包括文本到視頻生成、無條件視頻生成以及文本引導的視頻編輯等。


「文本到視頻生成」:旨在根據(jù)文本描述自動生成相應的視頻。通常涉及理解文本描述中的場景、對象和動作,并將它們轉換為一系列連貫的視覺幀,生成既邏輯上一致又視覺上一致的視頻。文本到視頻生成具有廣泛的應用,包括自動生成電影、動畫、虛擬現(xiàn)實內容、教育演示視頻等。


「無條件視頻生成」:是一個生成建模任務,其目標是從隨機噪聲或固定初始狀態(tài)開始生成一系列連續(xù)且視覺上連貫的視頻,而無需依賴特定的輸入條件。與有條件視頻生成不同,無條件視頻生成不需要任何外部指導或先前信息。生成模型需要自主學習如何在沒有明確輸入的情況下捕捉時間動態(tài)、動作和視覺一致性,以生成既真實又多樣的視頻內容。這對于探索生成模型從無監(jiān)督數(shù)據(jù)中學習視頻內容并展示多樣性的能力至關重要。


「文本引導的視頻編輯」:是一種利用文本描述來引導編輯視頻內容的技術。在這個任務中,自然語言描述作為輸入,描述了要應用于視頻的期望更改或修改。系統(tǒng)然后分析文本輸入,提取相關信息,如對象、動作或場景,并使用這些信息來引導編輯過程。文本引導的視頻編輯通過允許編輯者使用自然語言傳達其意圖,從而提供了一種促進高效直觀編輯的方式,潛在地減少了手動費時的逐幀編輯的需求。

數(shù)據(jù)集與評估指標

數(shù)據(jù)

視頻理解任務的發(fā)展通常與視頻數(shù)據(jù)集的發(fā)展保持一致,視頻生成任務也是如此。在視頻生成的早期階段,任務受限于在低分辨率、小規(guī)模數(shù)據(jù)集以及特定領域上的訓練,導致生成的視頻相對單調。隨著大規(guī)模視頻文本配對數(shù)據(jù)集的出現(xiàn),諸如通用文本到視頻生成等任務開始受到關注。因此,視頻生成的數(shù)據(jù)集主要可分為標題級和類別級,將分別討論。


「標題級數(shù)據(jù)集」 包含與描述性文本標題配對的視頻,為訓練模型基于文本描述生成視頻提供了關鍵的數(shù)據(jù)。作者在下表1中列出了幾個常見的標題級數(shù)據(jù)集,這些數(shù)據(jù)集在規(guī)模和領域上各不相同。早期的標題級視頻數(shù)據(jù)集主要用于視頻文本檢索任務,規(guī)模較?。ㄐ∮?20K),并且重點關注特定領域(例如電影、動作、烹飪)。隨著開放領域WebVid-10M數(shù)據(jù)集的引入,文本到視頻(T2V)生成這一新任務開始受到關注,研究人員開始關注開放領域的T2V生成任務。盡管它是T2V任務的主流基準數(shù)據(jù)集,但仍存在分辨率低(360P)和帶水印的內容等問題。隨后,為提高一般文本到視頻(T2V)任務中視頻的分辨率和覆蓋范圍,VideoFactory和InternVid引入了更大規(guī)模(130M和234M)和高清晰度(720P)的開放領域數(shù)據(jù)集。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

「類別級數(shù)據(jù)集」 包含按特定類別分組的視頻,每個視頻都標有其類別。這些數(shù)據(jù)集通常用于無條件視頻生成或類別條件視頻生成任務。在下面表2中總結了常用的類別級視頻數(shù)據(jù)集。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

值得注意的是,其中一些數(shù)據(jù)集也應用于其他任務。例如,UCF-101、Kinetics和Something-Something是動作識別的典型基準。DAVIS最初是為視頻對象分割任務提出的,后來成為視頻編輯的常用基準。在這些數(shù)據(jù)集中,UCF-101是最廣泛應用于視頻生成的,既可以作為無條件視頻生成的基準,也可以作為基于類別的條件生成和視頻預測應用的基準。它包含來自YouTube的樣本,涵蓋101個動作類別,包括人體運動、樂器演奏和互動動作等。與UCF類似,Kinetics-400和Kinetics-600是兩個涵蓋更復雜動作類別和更大數(shù)據(jù)規(guī)模的數(shù)據(jù)集,同時保持了與UCF-101相同的應用范圍。


另一方面,Something-Something數(shù)據(jù)集具有類別級和標題級標簽,因此特別適用于文本條件的視頻預測任務。值得注意的是,這些最初在動作識別領域發(fā)揮關鍵作用的大規(guī)模數(shù)據(jù)集呈現(xiàn)出較小規(guī)模(小于50K)和單一類別、單一領域屬性(數(shù)字、駕駛風景、機器人)的特點,因此不足以生成高質量的視頻。因此,近年來,專門用于視頻生成任務的數(shù)據(jù)集被提出,通常具有獨特屬性,如高分辨率(1080P)或延長時長。例如,Long Video GAN提出了一個包含66個視頻的騎馬數(shù)據(jù)集,平均時長為6504幀,每秒30幀。Video LDM收集了RDS數(shù)據(jù)集,包括683,060個真實駕駛視頻,每個視頻長度為8秒,分辨率為1080P。

評估指標

總體來說,視頻生成的評估指標可以分為定量和定性兩類。定性評估通常通過人為主觀評價進行,包括參與者對生成的視頻與其他競爭模型合成的視頻進行比較,并對視頻的逼真度、自然連貫性和文本對齊等方面進行投票式評估。然而,人為評估成本高昂且有可能未能充分反映模型的全部能力。


因此,接下來主要探討圖像級和視頻級評估的定量標準。


「圖像級指標」 視頻由一系列圖像幀組成,因此圖像級評估指標可以在一定程度上提供對生成的視頻幀質量的見解。常用的圖像級指標包括Frechet Inception Distance(FID),峰值信噪比(PSNR),結構相似性指數(shù)(SSIM)和CLIPSIM。FID 通過比較合成視頻幀與真實視頻幀來評估生成視頻的質量。它涉及對圖像進行歸一化處理以使其具有一致的尺度,利用InceptionV3 從真實和合成視頻中提取特征,然后計算均值和協(xié)方差矩陣。然后將這些統(tǒng)計數(shù)據(jù)組合起來計算FID 分數(shù)。


SSIM 和PSNR都是像素級別的指標。SSIM評估原始圖像和生成圖像的亮度、對比度和結構特征,而PSNR是表示峰值信號和均方誤差(MSE)之間比率的系數(shù)。這兩個指標通常用于評估重建圖像幀的質量,并應用于超分辨率和修復等任務。


CLIPSIM 是用于測量圖像-文本相關性的方法。基于CLIP 模型,它提取圖像和文本特征,然后計算它們之間的相似性。這個度量通常用于文本條件的視頻生成或編輯任務

「視頻級指標」 盡管圖像級評估指標代表生成的視頻幀的質量,但它們主要關注單個幀,忽視了視頻的時空一致性。另一方面,視頻級指標將提供對視頻生成更全面的評估。Fr ?echet Video Distance(FVD)是一種基于FID 的視頻質量評估指標。與使用Inception網(wǎng)絡從單幀提取特征的圖像級方法不同,F(xiàn)VD利用在Kinetics 上預訓練的Inflated-3D Convnets (I3D)從視頻剪輯中提取特征。隨后,通過均值和協(xié)方差矩陣的組合來計算FVD分數(shù)。與FVD 類似,Kernel Video Distance (KVD) 也基于I3D特征,但它通過使用最大均值差異(MMD),一種基于核的方法,來評估生成視頻的質量。Video IS (Inception Score) 使用由3D-Convnets (C3D)提取的特征計算生成視頻的Inception分數(shù),這通常應用于UCF-101上的評估。高質量的視頻具有低熵概率,表示為P(y|x),而多樣性通過檢查所有視頻的邊際分布來評估,這應該表現(xiàn)出高熵水平。Frame Consistency CLIP Score通常用于視頻編輯任務,用于測量編輯視頻的一致性。其計算涉及計算編輯視頻的所有幀的CLIP圖像query,并報告所有視頻幀對之間的平均余弦相似性。

視頻生成

將視頻生成分為四個組別,并為每個組別提供詳細的評估:通用文本到視頻(T2V)生成、帶有其他條件的視頻生成、無條件視頻生成和視頻完成。最后,總結了設置和評估指標,并對各種模型進行了全面比較。視頻生成的分類細節(jié)在下圖2中展示。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

文本條件下的視頻生成

最近的研究表明,生成人工智能與自然語言之間的互動至關重要。雖然在從文本生成圖像方面取得了顯著進展,但Text-to-Video (T2V) 方法的發(fā)展仍處于早期階段。在這個背景下,首先簡要概述了一些非擴散方法,然后深入介紹了在基于訓練和基于無訓練擴散技術上引入T2V模型。


非擴散型T2V方法


在擴散型模型出現(xiàn)之前,該領域的早期努力主要基于GANs,VQ-VAE和自回歸Transformer框架。


在這些工作中,GODIVA是一個使用VQ-VAE進行通用T2V任務的表示性工作。它在包含超過100M視頻文本對的Howto100M數(shù)據(jù)集上進行了預訓練。該模型在當時表現(xiàn)出色,展示了卓越的零樣本性能。隨后,自回歸Transformer方法由于其明確的密度建模和與GANs相比更穩(wěn)定的訓練優(yōu)勢,成為主流T2V任務的引領者。其中,CogVideo是一個開源視頻生成模型,創(chuàng)新地利用預訓練的CogView2作為其視頻生成任務的骨干。此外,它擴展到使用Swin Attention進行自回歸視頻生成,有效減輕了長序列的時間和空間開銷。除了上述工作外,PHENAKI引入了用于可變長度視頻生成的新穎C-ViViT骨干。NUWA是一個基于自回歸Transformer的T2I、T2V和視頻預測任務的統(tǒng)一模型。MMVG提出了一種有效的蒙版策略,用于多個視頻生成任務,包括T2V、視頻預測和視頻補充。


基于訓練的T2V擴散方法


「早期T2V探索」 在眾多的努力中,VDM是為視頻生成設計視頻擴散模型方面的先驅。它將傳統(tǒng)的圖像擴散U-Net架構擴展到3D U-Net結構,并采用圖像和視頻的聯(lián)合訓練。它采用的條件采樣技術能夠生成質量更高、時長更長的視頻。作為對T2V擴散模型的首次探索,它還適應了無條件生成和視頻預測等任務。


與需要配對的視頻-文本數(shù)據(jù)集的VDM不同,Make-A-Video引入了一種新的范例。在這里,網(wǎng)絡從配對的圖像-文本數(shù)據(jù)中學習視覺-文本相關性,并從無監(jiān)督視頻數(shù)據(jù)中捕捉視頻運動。這種創(chuàng)新方法減少了對數(shù)據(jù)收集的依賴,從而生成了多樣且逼真的視頻。此外,通過使用多個超分辨率模型和插值網(wǎng)絡,它實現(xiàn)了更高清晰度和幀率的生成視頻。


「時間建模探索」 雖然先前的方法利用像素級的擴散,MagicVideo是最早使用潛在擴散模型(LDM)進行潛在空間中的T2V生成的工作之一。通過在較低維度的潛在空間中利用擴散模型,它顯著降低了計算復雜性,從而加速了處理速度。引入的逐幀輕量級適配器調整了圖像和視頻的分布,以便所提出的有向注意力更好地建模時間關系,確保視頻一致性。

與此同時,LVDM也將LDM作為其骨干,采用分層框架來建模潛在空間。通過采用掩碼采樣技術,該模型能夠生成更長的視頻。它結合了條件潛在擾動和無條件引導等技術,以減輕自回歸生成任務后期性能下降的影響。通過這種訓練方法,它可以應用于視頻預測任務,甚至生成包含數(shù)千幀的長視頻。


ModelScope在LDM中引入了空間-時間卷積和注意力,用于T2V任務。它采用了LAION和WebVid的混合訓練方法,并作為一個開源基準方法。


先前的方法主要依賴于1D卷積或時間注意力來建立時間關系。而Latent-Shift則側重于輕量級的時間建模。從TSM獲得啟示,它在卷積塊中在相鄰幀之間移動通道以進行時間建模。此外,該模型在生成視頻的同時保持了原始的T2I能力。


「多階段T2V方法」 Imagen Video擴展了成熟的T2I模型Imagen,用于視頻生成任務。級聯(lián)視頻擴散模型由七個子模型組成,其中一個專門用于基礎視頻生成,三個用于空間超分辨率,三個用于時間超分辨率。這些子模型共同形成一個全面的三階段訓練流程。它驗證了在T2I訓練中采用的許多訓練技術的有效性,例如無分類器引導、條件增強和v-參數(shù)化。此外,作者利用漸進蒸餾技術來加速視頻擴散模型的采樣時間。其中引入的多階段訓練技術已成為主流高清視頻生成的有效策略。


Video LDM同時訓練一個由三個訓練階段組成的T2V網(wǎng)絡,包括關鍵幀T2V生成、視頻幀插值和空間超分辨率模塊。它在空間層上添加了時間注意力層和3D卷積層,使得第一階段可以生成關鍵幀。隨后,通過實施掩碼采樣方法,訓練了一個幀插值模型,將短視頻的關鍵幀擴展到更高的幀率。最后,使用視頻超分辨率模型增強分辨率。


LAVIE使用了一個由三個階段組成的級聯(lián)視頻擴散模型:基礎T2V階段、時間插值階段和視頻超分辨率階段。此外,它驗證了聯(lián)合圖像-視頻微調的過程可以產(chǎn)生高質量且富有創(chuàng)意的結果。


Show-1首次引入了基于像素和基于潛在擴散模型的融合,用于T2V生成。其框架包括四個不同的階段,最初的三個在低分辨率像素級別運行:關鍵幀生成、幀插值和超分辨率。值得注意的是,像素級階段可以生成具有精確文本對齊的視頻。第四階段由一個潛在超分辨率模塊組成,提供了一種經(jīng)濟有效的增強視頻分辨率的方法。


「噪聲先驗探索」 雖然大多數(shù)方法通過擴散模型獨立地對每一幀進行去噪,但VideoFusion通過考慮不同幀之間的內容冗余和時間相關性而脫穎而出。具體而言,它使用每一幀的共享基礎噪聲和沿時間軸的殘余噪聲來分解擴散過程。這種噪聲分解是通過兩個共同訓練的網(wǎng)絡實現(xiàn)的。這種方法旨在確保在生成幀運動時的一致性,盡管這可能導致有限的多樣性。此外,論文表明,使用T2I骨干模型(例如DALLE-2)來訓練T2V模型可以加速收斂,但其文本query可能面臨理解長時序文本序列的挑戰(zhàn)。


PYoCo承認直接將圖像的噪聲先驗擴展到視頻可能在T2V任務中產(chǎn)生次優(yōu)結果。作為解決方案,它巧妙地設計了視頻噪聲先驗,并對eDiff-I模型進行微調以用于視頻生成。提出的噪聲先驗涉及在視頻的不同幀之間采樣相關噪聲。作者驗證了提出的混合和漸進噪聲模型更適合T2V任務。


「數(shù)據(jù)集貢獻」 VideoFactory針對先前廣泛使用的WebVid數(shù)據(jù)集存在低分辨率和水印問題提出了改進。為此,它構建了一個大規(guī)模視頻數(shù)據(jù)集HD-VG-130M,包含了來自開放領域的130百萬個視頻文本對。該數(shù)據(jù)集是通過BLIP-2字幕從HD-VILA中收集而來,聲稱具有高分辨率并且沒有水印。此外,VideoFactory引入了一種交換的交叉注意力機制,以促進時空模塊之間的交互,從而改善了時序關系建模。在這個高清數(shù)據(jù)集上訓練的方法能夠生成分辨率為(1376×768)的高清視頻。


VidRD引入了“重用和擴散”框架,通過重復使用原始潛在表示并遵循先前的擴散過程來迭代生成額外的幀。此外,它在構建視頻文本數(shù)據(jù)集時使用了靜態(tài)圖像、長視頻和短視頻。對于靜態(tài)圖像,通過隨機縮放或平移操作引入了動態(tài)因素。對于短視頻,使用BLIP-2標注進行分類,而長視頻首先進行分割,然后基于MiniGPT-4進行注釋以保留所需的視頻剪輯。在視頻文本數(shù)據(jù)集中構建多樣的類別和分布被證明對提升視頻生成的質量非常有效。


「高效訓練」 ED-T2V使用LDM作為其主干,并凍結了大部分參數(shù)以降低訓練成本。它引入了身份關注和時間交叉關注以確保時間上的一致性。本文提出的方法在保持可比的T2V生成性能的同時成功降低了訓練成本。


SimDA設計了一種參數(shù)高效的T2V任務訓練方法,通過保持T2I模型的參數(shù)固定。它引入了輕量級的空間適配器來傳遞T2V學習的視覺信息。此外,它還引入了一個時間適配器,以在較低的特征維度中建模時間關系。提出的潛在轉移關注有助于保持視頻的一致性。此外,輕量級架構使得推理速度加快,適用于視頻編輯任務。


「個性化視頻生成」 通常指的是根據(jù)特定主題或風格創(chuàng)建定制視頻,涉及生成根據(jù)個人偏好或特征定制的視頻。AnimateDiff注意到LoRA和Dreambooth在個性化T2I模型方面取得的成功,并旨在將它們的效果擴展到視頻動畫。此外,作者的目標是訓練一個可以適應生成各種個性化視頻的模型,而無需在視頻數(shù)據(jù)集上反復訓練。這包括使用T2I模型作為基礎生成器,并添加一個運動模塊來學習運動動態(tài)。在推理過程中,個性化T2I模型可以替換基礎T2I權重,實現(xiàn)個性化視頻生成。


「去除偽影」 為解決T2V生成的視頻中出現(xiàn)的閃爍和偽影問題,DSDN引入了一個雙流擴散模型,一個用于視頻內容,另一個用于運動。通過這種方式,它可以保持內容和運動之間的強對齊性。通過將視頻生成過程分解為內容和運動組件,可以生成具有更少閃爍的連續(xù)視頻。


VideoGen首先利用T2I模型生成基于文本提示的圖像,作為引導視頻生成的參考圖像。隨后,引入了一個高效的級聯(lián)潛在擴散模塊,采用基于流的時間上采樣步驟來提高時間分辨率。與先前的方法相比,引入?yún)⒖紙D像提高了視覺保真度并減少了偽影,使模型能夠更專注于學習視頻動態(tài)。


「復雜動態(tài)建?!?/strong> 在生成文本到視頻(T2V)時,面臨著對復雜動態(tài)建模的挑戰(zhàn),尤其是在處理動作一致性中的干擾方面。為了解決這個問題,Dysen-VDM引入了一種將文本信息轉化為動態(tài)場景圖的方法。利用大型語言模型(LLM),Dysen-VDM從輸入文本中識別關鍵動作,并按照時間順序排列它們,通過添加相關的描述性細節(jié)來豐富場景。此外,模型從LLM的上下文學習中受益,賦予了它強大的時空建模能力。這種方法在合成復雜動作方面展現(xiàn)了顯著的優(yōu)勢。


VideoDirGPT也利用LLM來規(guī)劃視頻內容的生成。對于給定的文本輸入,它通過GPT-4將其擴展為一個視頻計劃,其中包括場景描述、實體及其布局,以及實體在背景中的分布。隨后,模型通過對布局進行明確的控制生成相應的視頻。這種方法在復雜動態(tài)視頻生成的布局和運動控制方面展現(xiàn)了顯著的優(yōu)勢。


「領域特定的文本到視頻生成」 Video-Adapter引入了一種新穎的設置,通過將預訓練的通用T2V模型轉移到特定領域的T2V任務中。通過將特定領域的視頻分布分解為預訓練的噪聲和一個小的訓練組件,它大幅降低了轉移訓練的成本。該方法在T2V生成中的Ego4D和Bridge Data場景中的有效性得到了驗證。


NUWA-XL采用了一種由粗到細的生成范式,促進了并行視頻生成。它最初使用全局擴散生成關鍵幀,然后利用局部擴散模型在兩個幀之間進行插值。這種方法使得能夠創(chuàng)建長達3376幀的視頻,從而為動畫生成建立了一個基準。該工作專注于卡通視頻生成領域,利用其技術來制作持續(xù)數(shù)分鐘的卡通視頻。


Text2Performer將以人為中心的視頻分解為外觀和運動表示。首先,它利用VQVAE的潛在空間對自然人類視頻進行無監(jiān)督訓練,以解開外觀和姿態(tài)表示。隨后,它利用連續(xù)的VQ-diffuser對連續(xù)姿態(tài)query進行采樣。最后,作者在姿態(tài)query的時空域上采用了一種運動感知的掩碼策略,以增強時空相關性。


無訓練T2V擴散方法


前述方法都是基于訓練的T2V方法,通常依賴于廣泛的數(shù)據(jù)集,如WebVid或其他視頻數(shù)據(jù)集。一些最近的研究旨在通過開發(fā)無訓練的T2V方法來減少龐大的訓練成本,接下來將介紹這些方法。


Text2Video-Zero利用預訓練的T2I模型Stable Diffusion進行視頻合成。為了在不同幀之間保持一致性,它在每一幀和第一幀之間執(zhí)行交叉注意力機制。此外,通過修改潛在代碼的采樣方法,它豐富了運動動態(tài)。此外,該方法可以與條件生成和編輯技術(如ControlNet和InstructPix2Pix)結合使用,實現(xiàn)對視頻的可控生成。


另一方面,DirecT2V和Free-Bloom引入了大型語言模型(LLM)來基于單個抽象用戶提示生成逐幀描述。LLM導向器用于將用戶輸入分解為幀級描述。此外,為了在幀之間保持連續(xù)性,DirecT2V使用了一種新穎的值映射和雙Softmax過濾方法。Free-Bloom提出了一系列反向處理增強方法,包括聯(lián)合噪聲采樣、步驟感知注意力轉移和雙路徑插值。實驗證明這些修改增強了零樣本視頻生成的能力。


為了處理復雜的時空提示,LVD首先利用LLM生成動態(tài)場景布局,然后利用這些布局指導視頻生成。它的方法無需訓練,并通過根據(jù)布局調整注意力圖來引導視頻擴散模型,從而實現(xiàn)復雜動態(tài)視頻的生成。


DiffSynth提出了一種潛在迭代去閃爍框架和視頻去閃爍算法,以減輕閃爍并生成連貫的視頻。此外,它可以應用于各種領域,包括視頻風格化和3D渲染。

具有其他條件的視頻生成

大多數(shù)先前介紹的方法涉及文本到視頻生成。在本小節(jié)中,關注基于其他模態(tài)條件(例如姿態(tài)、聲音和深度)的視頻生成。在圖3中展示了受條件控制的視頻生成的例子。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

姿態(tài)引導的視頻生成


Follow Your Pose: 采用由姿態(tài)和文本控制驅動的頻生成模型。它通過利用圖像-姿態(tài)對和不帶姿態(tài)的視頻進行兩階段的訓練。在第一階段,通過使用(圖像,姿態(tài))對來微調T2I(文本到圖像)模型,實現(xiàn)了姿態(tài)控制的生成。在第二階段,模型利用未標記的視頻進行學習,通過引入時間注意力和跨幀注意力機制來進行時間建模。這兩階段的訓練賦予了模型姿態(tài)控制和時間建模的能力。


Dreampose: 構建了一個雙通道的CLIP-VAE圖像編碼器和適配器模塊,用于替換LDM中原始的CLIP文本編碼器作為條件組件。給定單個人類圖像和姿態(tài)序列,該研究可以基于提供的姿態(tài)信息生成相應的人體姿態(tài)視頻。


Dancing Avatar: 專注于合成人類舞蹈視頻。它利用一個T2I模型以自回歸方式生成視頻的每一幀。為了確保整個視頻的一致性,它使用了一個幀對齊模塊,結合了ChatGPT的見解,以增強相鄰幀之間的一致性。此外,它利用OpenPose ControlNet的能力,基于姿態(tài)生成高質量的人體視頻。


Disco:解決了一個稱為參考人類舞蹈生成的新問題設置。它利用ControlNet、Grounded-SAM和OpenPose進行背景控制、前景提取和姿態(tài)骨架提取。此外,它使用了大規(guī)模圖像數(shù)據(jù)集進行人類屬性預訓練。通過結合這些訓練步驟,Disco為人類特定的視頻生成任務奠定了堅實的基礎。


運動引導的視頻生成


MCDiff 是在考慮運動作為控制視頻合成的條件方面的先驅。該方法涉及提供視頻的第一幀以及一系列筆畫運動。首先,使用流完成模型基于稀疏筆畫運動控制來預測密集視頻運動。隨后,該模型采用自回歸方法,利用密集運動圖預測隨后的幀,最終實現(xiàn)完整視頻的合成。


DragNUWA 同時引入文本、圖像和軌跡信息,以從語義、空間和時間的角度對視頻內容進行精細控制。為了進一步解決先前作品中缺乏開放域軌跡控制的問題,作者提出了Trajectory Sampler(TS)以實現(xiàn)對任意軌跡的開放域控制,Multiscale Fusion(MF)以在不同粒度上控制軌跡,并采用自適應訓練(AT)策略生成遵循軌跡的一致視頻。


聲音引導的視頻生成


AADiff 引入了將音頻和文本一起作為視頻合成的條件的概念。該方法首先使用專用編碼器分別對文本和音頻進行編碼。然后,計算文本和音頻query之間的相似性,并選擇具有最高相似性的文本標記。所選的文本標記以prompt2prompt的方式用于編輯幀。這種方法使得可以生成與音頻同步的視頻,而無需額外的訓練。


Generative Disco 是一個針對音樂可視化的文本到視頻生成的AI系統(tǒng)。該系統(tǒng)采用了一個包括大型語言模型和文本到圖像模型的流程來實現(xiàn)其目標。


TPoS 將具有可變時間語義和大小的音頻輸入與LDM的基礎結合起來,以擴展在生成模型中利用音頻模態(tài)的應用。這種方法在客觀評估和用戶研究中表現(xiàn)出色,超越了廣泛使用的音頻到視頻基準,突顯了其卓越的性能。


圖像引導的視頻生成


成器訓練來生成視頻運動。通過這種以運動為指導的方法,模型實現(xiàn)了在給定第一幀的情況下生成高質量感知視頻的能力。


LFDM 利用條件圖像和文本進行以人為中心的視頻生成。在初始階段,訓練一個潛在流自編碼器來重構視頻。此外,在中間步驟可以使用流預測器來預測流動運動。隨后,在第二階段,使用圖像、流動和文本提示作為條件來訓練擴散模型,生成連貫的視頻。


Generative Dynamics 提出了一種在圖像空間建模場景動態(tài)的方法。它從展示自然運動的實際視頻序列中提取運動軌跡。對于單個圖像,擴散模型通過一個頻率協(xié)調的擴散采樣過程,在傅立葉域中為每個像素預測了長期運動表示。這個表示可以轉換成貫穿整個視頻的密集運動軌跡。當與圖像渲染模塊結合時,它能夠將靜態(tài)圖像轉化為無縫循環(huán)的動態(tài)視頻,促進用戶與所描繪對象進行逼真的交互。


brain導引的視頻生成


MinD-Video 是探索通過連續(xù)fMRI數(shù)據(jù)進行視頻生成的開創(chuàng)性嘗試。該方法從將MRI數(shù)據(jù)與圖像和文本進行對比學習開始。接下來,一個經(jīng)過訓練的MRI編碼器替換了CLIP文本編碼器作為輸入進行條件編碼。通過設計一個時間注意力模塊來建模序列動態(tài),進一步增強了模型。由此產(chǎn)生的模型能夠重構具有精確語義、運動和場景動態(tài)的視頻,超越了基準性能,并在該領域設立了新的基準。


深度引導的視頻生成


Make-Your-Video 采用了一種新穎的方法進行文本深度條件視頻生成。它通過在訓練過程中使用MiDas提取深度信息,并將其整合為一個條件因素。此外,該方法引入了因果關注掩碼,以促進更長視頻的合成。與最先進的技術進行比較顯示出該方法在可控文本到視頻生成方面的優(yōu)越性,展示了更好的定量和定性性能。


Animate-A-Story 引入了一種創(chuàng)新的方法,將視頻生成分為兩個步驟。第一步是Motion Structure Retrieval,涉及根據(jù)給定的文本提示從大型視頻數(shù)據(jù)庫中檢索最相關的視頻。利用離線深度估計方法獲得這些檢索到的視頻的深度圖,然后作為運動引導。在第二步中,采用Structure-Guided Text-to-Video Synthesis來訓練一個視頻生成模型,該模型由深度圖導出的結構性運動進行引導。這種兩步法使得可以基于定制文本描述創(chuàng)建個性化視頻。

多模態(tài)引導的視頻生成


VideoComposer 專注于以多模態(tài)為條件生成視頻,包括文本、空間和時間條件。具體而言,它引入了一個時空條件編碼器,允許各種條件的靈活組合。這最終使得可以整合多種模態(tài),如草圖、蒙版、深度和運動矢量。通過利用多模態(tài)的控制,VideoComposer實現(xiàn)了更高質量的視頻和生成內容中細節(jié)的改進。


MM-Diffusion 是聯(lián)合音視頻生成的首次嘗試。為了實現(xiàn)多模態(tài)內容的生成,它引入了一個包含兩個子網(wǎng)絡的分叉架構,分別負責視頻和音頻的生成。為了確保這兩個子網(wǎng)絡的輸出之間的一致性,設計了基于隨機位移的注意力塊來建立相互連接。除了具有無條件音視頻生成的能力外,《MM-Diffusion》還在視頻到音頻轉換方面展現(xiàn)了顯著的才華。


MovieFactory 致力于將擴散模型應用于電影風格視頻的生成。它利用ChatGPT詳細闡述用戶提供的文本,為電影生成目的創(chuàng)建全面的順序腳本。此外,設計了一個音頻檢索系統(tǒng),為視頻提供配音。通過上述技術,實現(xiàn)了生成多模態(tài)音頻-視覺內容。


CoDi 提出了一種具有創(chuàng)建輸出模態(tài)多樣組合能力的新型生成模型,包括語言、圖像、視頻或音頻,可以從不同的輸入模態(tài)組合中生成。這是通過構建一個共享的多模態(tài)空間實現(xiàn)的,通過在不同模態(tài)之間對齊輸入和輸出空間來促進任意模態(tài)組合的生成。


NExT-GPT 呈現(xiàn)了一個端到端的、任意到任意的多模態(tài)LLM系統(tǒng)。它將LLM與多模態(tài)適配器和多樣的擴散解碼器集成在一起,使系統(tǒng)能夠感知任意組合的文本、圖像、視頻和音頻輸入,并生成相應的輸出。在訓練過程中,它只微調了一個小的參數(shù)子集。此外,它引入了一個模態(tài)切換指令調整(MosIT)機制,并手動策劃了一個高質量的MosIT數(shù)據(jù)集。該數(shù)據(jù)集促進了對復雜的跨模態(tài)語義理解和內容生成能力的獲取。

無條件視頻生成

在這一部分,將深入探討了無條件視頻生成。這指的是生成屬于特定領域的視頻,而無需額外的條件。這些研究的焦點圍繞著視頻表示的設計和擴散模型網(wǎng)絡的架構。「基于U-Net的生成」:VIDM是無條件視頻擴散模型的早期作品之一,后來成為重要的基準方法之一。它利用兩個流:內容生成流用于生成視頻幀內容,動作流定義了視頻運動。通過合并這兩個流,生成一致的視頻。此外,作者使用位置分組歸一化(PosGN) 來增強視頻的連續(xù)性,并探索隱式運動條件(IMC)和PosGN的組合,以解決長視頻的生成一致性。


「類似于LDM的方法」:PVDM與LDM類似,首先訓練一個自編碼器將像素映射到較低維度的潛在空間,然后在潛在空間中應用擴散去噪生成模型來合成視頻。這種方法既減少了訓練和推斷的成本,同時又能保持令人滿意的生成質量。


「針對駕駛場景視頻的生成」:GD-VDM主要專注于合成駕駛場景視頻。它首先生成深度圖視頻,其中場景和布局生成被優(yōu)先考慮,而細節(jié)和紋理則被抽象掉。然后,生成的深度圖作為條件信號被提供,用于進一步生成視頻的其余細節(jié)。這種方法保留了出色的細節(jié)生成能力,特別適用于復雜的駕駛場景視頻生成任務。


「LEO方法」:LEO通過一系列流動圖在生成過程中表示運動,從而在本質上將運動與外觀分離。它通過基于流動圖的圖像動畫器和潛在運動擴散模型的組合實現(xiàn)人類視頻生成。前者學習從流動圖到運動代碼的重構,而后者捕捉運動先驗以獲取運動代碼。這兩種方法的協(xié)同作用使得能夠有效地學習人類視頻的相關性。此外,這種方法可以擴展到無限長度的人類視頻合成和保持內容的視頻編輯等任務。


「基于Transformer的生成」:與大多數(shù)基于U-Net結構的方法不同,VDT是在Transformer架構基礎上探索視頻擴散模型的先驅者。利用Transformer的多功能可擴展性,作者研究了各種時間建模方法。此外,他們將VDT應用于多個任務,如無條件生成和視頻預測。

視頻補全

視頻補全是視頻生成領域內的一個關鍵任務。在接下來的章節(jié)中,將詳述視頻增強與恢復以及視頻預測的不同方面。


視頻增強與恢復


「CaDM」:CaDM引入了一種新穎的神經(jīng)增強視頻流傳遞范式,旨在顯著降低流傳遞比特率,同時與現(xiàn)有方法相比,保持明顯提升的恢復能力。首先,CaDM方法通過同時減小視頻流中的幀分辨率和顏色位深度,提高編碼器的壓縮效能。此外,CaDM通過使解碼器具備卓越的增強能力,賦予去噪擴散恢復過程對編碼器規(guī)定的分辨率-顏色條件的認知。


「LDMVFI」: LDMVFI是首次嘗試采用條件潛在擴散模型方法來解決視頻幀插值(VFI)任務。為了利用潛在擴散模型進行VFI,該工作引入了一系列開創(chuàng)性的概念。值得注意的是,提出了一個專門用于視頻幀插值的自動編碼網(wǎng)絡,它集成了高效的自注意模塊,并采用基于可變形核的幀合成技術,顯著提升了性能。


「VIDM」: VIDM利用預訓練的LDM來解決視頻修復任務。通過為第一人稱視角的視頻提供一個mask,該方法利用了LDM的圖像補全先驗來生成修復的視頻。


視頻預測


Seer: 專注于探索文本引導的視頻預測任務。它利用潛在擴散模型(LDM)作為其基礎骨架。通過在自回歸框架內整合時空注意力,以及實施幀順序文本分解模塊,Seer熟練地將文本到圖像(T2I)模型的知識先驗轉移到視頻預測領域。這種遷移導致了顯著的性能提升,尤其在基準測試中得到了顯著證明。


FDM:引入了一種新穎的層次抽樣方案,用于長視頻預測任務。此外,提出了一個新的CARLA數(shù)據(jù)集。與自回歸方法相比,該方法不僅更高效,而且產(chǎn)生了更優(yōu)秀的生成結果。

MCVD:采用概率條件評分為基礎的去噪擴散模型,用于無條件生成和插值任務。引入的掩模方法能夠遮蔽所有過去或未來的幀,從而實現(xiàn)對過去或未來幀的預測。此外,它采用自回歸方法以塊狀方式生成可變長度的視頻。MCVD的有效性在各種基準測試中得到驗證,包括預測和插值任務。


LGC-VD:由于自回歸方法在生成長視頻時產(chǎn)生不切實際的結果的傾向,引入了一個局部-全局上下文引導的視頻擴散模型,旨在包含多樣的感知條件。LGC-VD采用兩階段訓練方法,并將預測錯誤視為一種數(shù)據(jù)增強形式。這種策略有效地解決了預測錯誤,并顯著增強了在長視頻預測任務背景下的穩(wěn)定性。


RVD (Residual Video Diffusion):采用了一種擴散模型,該模型利用卷積循環(huán)神經(jīng)網(wǎng)絡(RNN)的上下文向量作為條件生成殘差,然后將其添加到確定性的下一幀預測中。作者證明采用殘差預測比直接預測未來幀更有效。該工作與基于生成對抗網(wǎng)絡(GANs)和變分自動編碼器(VAEs)的先前方法進行了廣泛比較,為其有效性提供了實質性的證據(jù)。


RaMViD: 采用3D卷積將圖像擴散模型擴展到視頻任務領域。它引入了一種新穎的條件訓練技術,并利用掩碼條件擴展其適用范圍,包括視頻預測、填充和上采樣等各種完成任務。

基準測試結果

本節(jié)對視頻生成任務的各種方法進行了系統(tǒng)比較,分為零樣本和微調兩種不同的設置。對于每種設置,首先介紹它們常用的數(shù)據(jù)集。隨后,說明了每個數(shù)據(jù)集所使用的詳細評估指標。最后,對這些方法在不同設置下的性能進行了全面比較。


零樣本文本到視頻生成


「數(shù)據(jù)集:」 通用文本到視頻(T2V)方法,如Make-A-Video和 VideoLDM,主要在MSRVTT和UCF-101數(shù)據(jù)集上以零樣本方式進行評估。MSRVTT是一個視頻檢索數(shù)據(jù)集,其中每個視頻剪輯都附有約20個自然語句的描述。通常,用于測試集中的2,990個視頻剪輯的文本描述被用作提示,以生成相應的生成視頻。UCF-101 是一個包含101個動作類別的動作識別數(shù)據(jù)集。在T2V模型的上下文中,視頻通常是基于這些動作類別的類別名稱或手動設置的提示生成的。


「評估指標:」 在零樣本設置下進行評估時,通常使用MSRVTT數(shù)據(jù)集上的FVD 和FID指標來評估視頻質量。CLIPSIM用于衡量文本和視頻之間的對齊性。對于UCF-101數(shù)據(jù)集,典型的評估指標包括Inception Score、FVD和FID,用于評估生成的視頻及其幀的質量。


「結果比較:」 在下表3中,作者展示了當前通用T2V方法在MSRVTT和UCF-101上的零樣本性能。作者還提供了關于它們的參數(shù)數(shù)量、訓練數(shù)據(jù)、額外依賴項和分辨率的信息??梢杂^察到,依賴于ChatGPT或其他輸入條件的方法在性能上明顯優(yōu)于其他方法,并且使用額外數(shù)據(jù)通常會導致性能提升。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

微調視頻生成

數(shù)據(jù)集:微調視頻生成方法指的是在特定數(shù)據(jù)集上進行微調后生成視頻。這通常包括無條件視頻生成和類條件視頻生成。主要關注三個特定的數(shù)據(jù)集:UCF-101 、Taichi-HD和 Time-lapse。這些數(shù)據(jù)集涉及不同的領域:UCF-101 集中在人類運動領域,Taichi-HD 主要包括太極拳視頻,而Time-lapse 主要包含天空的延時攝影鏡頭。此外,還有其他幾個可用的基準測試,但作者選擇這三個,因為它們是最常用的。


評估指標:在微調視頻生成任務的評估中,UCF-101數(shù)據(jù)集的常用指標包括 IS Inception Score)和 FVD(Fréchet Video Distance)。對于Time-lapse和 Taichi-HD數(shù)據(jù)集,常見的評估指標包括 FVD 和 KVD。


結果比較:在下表4中,展示了在基準數(shù)據(jù)集上進行微調的當前最先進方法的性能。同樣,提供了有關方法類型、分辨率和額外依賴項的進一步細節(jié)。顯然,基于擴散的方法相比傳統(tǒng)的GAN和自回歸Transformer方法具有顯著優(yōu)勢。此外,如果有大規(guī)模的預訓練或類別條件,性能往往會進一步提升。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

視頻編輯

隨著擴散模型的發(fā)展,視頻編輯領域的研究研究呈指數(shù)增長。根據(jù)許多研究的共識,視頻編輯任務應滿足以下標準:


  1. 保真度:每一幀都應在內容上與原始視頻的相應幀保持一致;
  2. 對齊:生成的視頻應與輸入的控制信息對齊;
  3. 質量:生成的視頻應在時間上保持一致且質量高。


雖然預訓練的圖像擴散模型可以通過逐幀處理來用于視頻編輯,但跨幀的語義一致性不足使得逐幀編輯視頻變得不可行,使視頻編輯成為一項具有挑戰(zhàn)性的任務。在這一部分,將視頻編輯分為三個類別:文本引導視頻編輯,模態(tài)引導視頻編輯和領域特定視頻編輯。視頻編輯的分類細節(jié)總結在下圖4中。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

文本引導視頻編輯

在文本引導視頻編輯中,用戶提供輸入視頻和描述所期望結果視頻屬性的文本提示。然而,與圖像編輯不同,文本引導視頻編輯帶來了幀一致性和時間建模的新挑戰(zhàn)??傮w而言,有兩種主要的基于文本的視頻編輯方法:

  1. 在大規(guī)模文本視頻配對數(shù)據(jù)集上訓練T2V擴散模型;
  2. 將預訓練的T2I擴散模型擴展到視頻編輯;由于大規(guī)模文本視頻數(shù)據(jù)集難以獲取且訓練T2V模型計算成本高昂,后者更受關注。為了捕捉視頻中的運動,向T2I模型引入了各種時間模塊。然而,擴展T2I模型的方法存在兩個關鍵問題:時間不一致,即編輯后的視頻在幀間呈現(xiàn)視覺上的閃爍;語義差異,即視頻未根據(jù)給定文本提示的語義進行更改。一些研究從不同角度解決了這些問題。

基于訓練的方法


基于訓練的方法是指在大規(guī)模文本-視頻數(shù)據(jù)集上進行訓練,使其成為一個通用的視頻編輯模型。


「GEN-1」 提出了一種結構和內容感知的模型,該模型在時間、內容和結構一致性上提供了全面的控制。該模型引入了時間層到預訓練的T2I模型中,并聯(lián)合對圖像和視頻進行訓練,實現(xiàn)了對時間一致性的實時控制。


「Dreamix」 的高保真度源于兩個主要創(chuàng)新:使用原始視頻的低分辨率版本初始化生成,并在原始視頻上進行生成模型的微調。他們進一步提出了一種混合微調方法,具有完全的時間注意力和時間注意力屏蔽,顯著提高了運動可編輯性。


「TCVE」 提出了一種Temporal U-Net,能有效捕捉輸入視頻的時間一致性。為了連接Temporal U-Net和預訓練的T2I U-Net,作者引入了一個連貫的時空建模單元。


「Control-A-Video」 基于預訓練的T2I擴散模型,集成了一個時空自注意模塊和可訓練的時間層。此外,他們提出了一種首幀調節(jié)策略(即基于第一幀生成視頻序列),使Control-A-Video能夠使用自回歸方法生成任意長度的視頻。與大多數(shù)同時在單一框架中建模外觀和時間表示的方法不同,MagicEdit 創(chuàng)新地將內容、結構和運動的學習分離,以實現(xiàn)高保真度和時間一致性。


「MagicProp」視頻編輯任務劃分為外觀編輯和運動感知外觀傳播,實現(xiàn)了時間一致性和編輯靈活性。他們首先從輸入視頻中選擇一幀,并將其外觀作為參考進行編輯。然后,他們使用圖像擴散模型自回歸生成目標幀,受其前一幀、目標深度和參考外觀的控制。


無訓練方法


無訓練方法涉及利用預訓練的T2I或T2V模型,并以zero-shot方式進行調整,以適應視頻編輯任務。與基于訓練的方法相比,無訓練方法不需要昂貴的訓練成本。然而,它們可能會遇到一些潛在的缺點。首先,在zero-shot方式編輯的視頻可能會產(chǎn)生時空失真和不一致性。此外,使用T2V模型的方法可能仍然會產(chǎn)生高昂的訓練和推理成本。作者簡要檢查用于解決這些問題的技術。


「TokenFlow」 展示了通過在擴散特征空間中強制實施一致性來實現(xiàn)編輯視頻的一致性。具體而言,通過對關鍵幀進行采樣,聯(lián)合編輯它們,并基于原始視頻特征提供的對應關系將特征傳播到所有其他幀,從而明確地保持原始視頻特征的一致性和細粒度共享表示。


「VidEdit」 結合了基于圖譜的方法和預訓練的T2I模型,既具有高時空一致性,又能在視頻內容外觀上提供對象級別的控制。該方法將視頻分解為帶有內容語義統(tǒng)一表示的分層神經(jīng)圖譜,然后應用預訓練的、以文本驅動的圖像擴散模型進行zero-shot圖譜編輯。同時,通過在圖譜空間中編碼時空外觀和空間位置來保持結構。


「Rerender-A-Video」 使用分層的跨幀約束來強制時空一致性。其關鍵思想是使用光流應用密集的跨幀約束,先前渲染的幀作為當前幀的低級參考,并首次渲染的幀作為錨點,以保持樣式、形狀、紋理和顏色的一致性。


「FateZero」 通過在反演過程的每個階段存儲全面的注意力圖來解決圖譜學習和每個視頻調整的高昂成本問題,以保持卓越的運動和結構信息。此外,它還整合了時空塊以增強視覺一致性。


「Vid2Vid-Zero」 利用一個null-text反演模塊來將文本與視頻對齊,一個空間正則化模塊用于視頻到視頻的一致性,以及一個跨幀建模模塊用于時態(tài)一致性。與FateZero 類似,它還包括一個時空注意模塊。


「Pix2Video」 初始使用預訓練的結構引導的T2I模型對錨定幀進行文本引導編輯,確保生成的圖像保持對編輯提示的真實性。隨后,他們使用自注意特征注入逐漸傳播到未來幀的修改,保持時間一致性。


「InFusion」 由兩個主要組件組成:首先,它將解碼器層中的殘差塊和注意特征合并到編輯提示的去噪管道中,突出了其zero-shot編輯能力。其次,通過使用從交叉關注映射獲得的掩碼提取來合并已編輯和未編輯概念的關注,以確保一致性。


「」 直接采用ControlNet的體系結構和權重,通過完全跨幀交互擴展自注意力以實現(xiàn)高質量和一致性。為了管理長視頻編輯任務,它實現(xiàn)了一個分層采樣器,將長視頻劃分為短片段,并通過對關鍵幀對的條件進行全局一致性。


「EVE」 提出了兩種策略來強化時態(tài)一致性:深度圖引導,用于定位移動對象的空間布局和運動軌跡,以及幀對齊注意力,迫使模型同時關注先前幀和當前幀。


「MeDM」 利用明確的光流來建立跨視頻幀的像素對應關系的實用編碼,從而保持時態(tài)一致性。此外,他們使用從光流派生的提供的時態(tài)對應關系指導,迭代地對視頻幀中的嘈雜像素進行對齊。


「Gen-L-Video」 通過將長視頻視為時序重疊的短視頻來探索長視頻編輯。通過提出的時序協(xié)同去噪方法,它將現(xiàn)成的短視頻編輯模型擴展到處理包含數(shù)百幀的編輯視頻,同時保持一致性。


為了確保編輯后視頻的所有幀之間的一致性,F(xiàn)LATTEN 將光流整合到擴散模型的注意機制中。提出的Flow-guided attention允許來自不同幀的補丁放置在注意模塊內的相同流路徑上,從而實現(xiàn)相互關注并增強視頻編輯的一致性。


One-shot調整方法


使用特定視頻實例對預訓練的T2I模型進行微調,從而能夠生成具有相似運動或內容的視頻。雖然這需要額外的訓練開銷,但與無訓練方法相比,這些方法提供了更大的編輯靈活性。


「SinFusion」 先驅性的one-shot調整擴散模型,可以從僅有的幾幀中學習單個輸入視頻的運動。其骨干是一個完全卷積的DDPM網(wǎng)絡,因此可以用于生成任何大小的圖像。


「SAVE」 通過微調參數(shù)空間的譜偏移,使得學習輸入視頻的基本運動概念以及內容信息。此外,它提出了一個譜偏移正則化器來限制變化。


「Edit-A-Video」 包含兩個階段:第一階段將預訓練的T2I模型擴展到T2V模型,并使用單個<文本,視頻>對進行微調,而第二階段是傳統(tǒng)的擴散和去噪過程。一個關鍵觀察是編輯后的視頻往往受到背景不一致性的影響。為了解決這個問題,他們提出了一種稱為稀疏因果混合的屏蔽方法,該方法自動生成一個掩碼來近似編輯區(qū)域。


「Tune-A-Video」 利用稀疏時空注意機制,該機制僅訪問第一幀和前一幀視頻,以及一種有效的調整策略,僅更新注意塊中的投影矩陣。此外,它在推斷時從輸入視頻中尋求結構引導,以彌補缺乏運動一致性的問題。


「Video-P2P」 不使用T2I模型,而是將其改變?yōu)槲谋镜郊夏P停═2S),通過用幀注意力替換自注意力,從而產(chǎn)生一個生成一組語義一致圖像的模型。此外,他們使用了一種解耦引導策略,以提高對提示更改的魯棒性。


「」 主要集中在改進擴散模型和ControlNet中的注意模塊。他們將原始的空間自注意轉化為關鍵幀注意,將所有幀與所選幀對齊。此外,他們還結合了時空注意模塊以保持一致性。


「Shape-aware TLVE」 利用T2I模型,并通過在輸入和編輯的關鍵幀之間傳播變形場來處理形狀變化。


「」 進行了兩個關鍵創(chuàng)新:Shift-restricted Temporal Attention Module(STAM)用于限制時序注意力模塊中引入的新參數(shù),解決語義差異問題,以及Fine-coarse Frame Attention Module(FFAM)用于時序一致性,通過在空間維度上沿著時序維度采樣來利用時序維度的信息。通過結合這些技術,他們創(chuàng)建了一個T2V擴散模型。


「StableVideo」 在現(xiàn)有的T2I模型和聚合網(wǎng)絡之上設計了一個幀間傳播機制,以從關鍵幀生成編輯后的圖集,從而實現(xiàn)時空一致性。

其他模態(tài)引導的視頻編輯

先前介紹的大多數(shù)方法都側重于文本引導的視頻編輯。在這一小節(jié)中,將重點關注由其他模態(tài)(例如,指令和聲音)引導的視頻編輯。


指令引導的視頻編輯


指令引導的視頻編輯旨在根據(jù)給定的輸入視頻和指令生成視頻。由于缺乏視頻-指令數(shù)據(jù)集,InstructVid2Vid 利用 ChatGPT、BLIP和 Tune-A-Video的聯(lián)合使用以相對較低的成本獲取輸入視頻、指令和編輯視頻的三元組。在訓練過程中,他們提出了幀差異損失(Frame Difference Loss),引導模型生成具有時間一致性的幀。CSD首先使用 Stein 變分梯度下降(SVGD),其中多個樣本共享其從擴散模型中知識蒸餾,以實現(xiàn)樣本間的一致性。然后,他們將協(xié)作分數(shù)蒸餾(CSD)與 Instruct-Pix2Pix 結合起來,實現(xiàn)具有指令的多圖像的一致性編輯。


聲音引導的視頻編輯


聲音引導的視頻編輯旨在使視覺變化與目標區(qū)域的聲音保持一致。為了實現(xiàn)這一目標,Soundini提出了局部聲音引導和擴散采樣的光流引導。具體而言,音頻編碼器使聲音的潛在表示與潛在圖像表示在語義上保持一致?;跀U散模型,SDVE引入了一個特征串聯(lián)機制以實現(xiàn)時間上的一致性。他們通過在殘差層中始終通過噪聲信號提供頻譜特征query來進一步在網(wǎng)絡上進行語音條件化。


運動引導的視頻編輯


受到視頻編碼過程的啟發(fā),VideoControlNet同時利用了擴散模型和ControlNet。該方法將第一幀設置為 I 幀,其余幀分為不同的圖片組(GoP)。不同 GoP 的最后一幀被設置為 P 幀,而其他幀被設置為 B 幀。然后,對于給定的輸入視頻,模型首先基于輸入的 I 幀直接使用擴散模型和ControlNet 生成 I 幀,然后通過運動引導的 P 幀生成模塊(MgPG)生成 P 幀,其中利用了光流信息。最后,B 幀是基于參考 I/P 幀和運動信息插值而來,而不是使用耗時的擴散模型。


多模態(tài)視頻編輯


「Make-A-Protagonist」 提出了一個多模態(tài)的條件視頻編輯框架,用于更改主角。具體而言,他們利用BLIP-2進行視頻字幕,使用CLIP Vision Model  和DALLE-2 Prior進行視覺和文本線索編碼,以及使用ControlNet進行視頻一致性。在推斷過程中,他們提出了一個基于mask的去噪采樣,結合專家實現(xiàn)無標注的視頻編輯。「CCEdit」 為可控創(chuàng)意視頻編輯解耦了視頻結構和外觀。它使用基礎的ControlNet保留視頻結構,同時通過文本提示、個性化模型權重和定制中心幀進行外觀編輯。此外,提出的時間一致性模塊和插值模型可以無縫生成高幀率視頻。

領域特定的視頻編輯

在這一小節(jié)中,將簡要概述為特定領域量身定制的幾種視頻編輯技術,從視頻著色和視頻風格轉移方法開始,然后是為以人為中心的視頻設計的幾種視頻編輯方法。


著色和重塑


「著色」 涉及為灰度幀推斷合理且時間一致的顏色,這需要同時考慮時間、空間和語義的一致性以及顏色的豐富性和忠實度?;陬A訓練的T2I模型,ColorDiffuser提出了兩種新穎的技術:Color Propagation Attention 作為光流的替代,以及Alternated Sampling Strategy 用于捕捉相鄰幀之間的時空關系。「重塑」 Style-A-Video 設計了一種綜合的控制條件:用于樣式指導的文本,用于內容指導的視頻幀,以及用于詳細指導的注意力圖。值得注意的是,該工作具有zero-shot訓練,即無需額外的每個視頻訓練或微調。


人類視頻編輯


「Diffusion Video Autoencoders」 提出了一種擴散視頻自動編碼器,從給定的以人為中心的視頻中提取單一的時間不變特征(ID)和每幀的時變特征(運動和背景),并進一步操縱單一的不變特征以獲取所需的屬性,從而實現(xiàn)了時間一致的編輯和高效計算。

「Instruct-Video2Avatar」 為了滿足輕松創(chuàng)建高質量3D場景的不斷增長的需求,Instruct-Video2Avatar采用了一種頭部視頻和編輯指令的方法,并輸出了一個編輯過的3D神經(jīng)頭像。他們同時利用Instruct-Pix2Pix進行圖像編輯,EbSynth進行視頻樣式化,以及INSTA用于照片逼真的3D神經(jīng)頭像。


「TGDM」 采用zero-shot訓練的CLIP引導模型來實現(xiàn)靈活的情感控制。此外,他們提出了一個基于多條件擴散模型的pipeline,以實現(xiàn)復雜的紋理和身份轉移。

視頻理解

除了在生成任務中的應用,如視頻生成和編輯,擴散模型還被應用于基本的視頻理解任務,如視頻時間分割,視頻異常檢測 ,文本-視頻檢索等,將在本節(jié)介紹。視頻理解的分類詳細信息總結下圖中。

兩萬字長文詳解視頻擴散模型的最新進展-AI.x社區(qū)

時間動作檢測與分割

受到DiffusionDet的啟發(fā),DiffTAD探索了將擴散模型應用于時間動作檢測任務。這涉及到對長視頻的真實proposal進行擴散,隨后學習去噪過程,通過在DETR架構中引入專門的時間位置query來完成。值得注意的是,該方法在ActivityNet和THUMOS等基準上取得了最先進的性能結果。


類似地,DiffAct采用了一種可比較的方法來解決時間動作分割任務,其中動作段從隨機噪聲中迭代生成,輸入視頻特征作為條件。該方法在廣泛使用的基準數(shù)據(jù)集上進行了驗證,包括GTEA,50Salads和Breakfast。

視頻異常檢測

專注于無監(jiān)督視頻異常檢測,DiffVAD和CMR利用擴散模型的重構能力來識別異常視頻,因為高重構誤差通常表示異常。在兩個大規(guī)?;鶞蕼y試上進行的實驗證明了這種范例的有效性,因此相比之前的研究顯著提高了性能。MoCoDAD專注于基于骨架的視頻異常檢測。該方法應用擴散模型生成基于個體過去動作的多樣且合理的未來動作。通過對未來模式進行統(tǒng)計聚合,當生成的一組動作偏離實際未來趨勢時,就會檢測到異常。

文本-視頻檢索

DiffusionRet將檢索任務構建為從噪聲生成聯(lián)合分布 p(candidates,query) 的逐步過程。在訓練期間,生成器使用生成損失進行優(yōu)化,而特征提取器則使用對比損失進行訓練。通過這種方式,DiffusionRet巧妙地結合了生成和判別方法的優(yōu)勢,在開放領域場景中取得了出色的性能,展示了其泛化能力。


MomentDiff和DiffusionVMR解決了視頻時刻檢索任務,旨在識別與給定文本描述相對應的視頻中的特定時間間隔。這兩種方法將實際時間間隔擴展到隨機噪聲,并學會將隨機噪聲去噪回到原始時間間隔。這個過程使模型能夠學習從任意隨機位置到實際位置的映射,從而便于從隨機初始化中精確定位視頻片段。

視頻字幕生成

RSFD研究了視頻字幕生成中經(jīng)常被忽視的長尾問題。它提出了一種新的Refined Semantic enhancement approach for Frequency Diffusion (RSFD),通過不斷識別不常見token的語言表示來改善字幕生成。這使得模型能夠理解低頻token的語義,從而提高字幕生成的質量。

視頻目標分割

Pix2Seq-D將全景分割重新定義為離散數(shù)據(jù)生成問題。它采用基于模擬位的擴散模型來建模全景掩碼,利用靈活的架構和損失函數(shù)。此外,Pix2Seq-D可以通過整合先前幀的預測來建模視頻,從而實現(xiàn)對象實例跟蹤和視頻對象分割的自動學習。

視頻姿態(tài)估計

DiffPose通過將視頻人體姿態(tài)估計問題制定為條件熱力圖生成任務來解決。在每個去噪步驟生成的特征的條件下,該方法引入了一個空間-時間表示學習器,該學習器聚合跨幀的視覺特征。此外,還提出了一種基于查找的多尺度特征交互機制,用于在局部關節(jié)和全局上下文之間創(chuàng)建多尺度的相關性。這種技術產(chǎn)生了關鍵點區(qū)域的精細表示。

音頻-視頻分離

DAVIS利用生成方法解決了音頻-視覺聲源分離任務。該模型利用擴散過程從高斯噪聲中生成分離的幅度,條件是音頻混合和視覺內容。由于其生成目標,DAVIS更適合實現(xiàn)跨不同類別的高質量聲音分離。

動作識別

DDA專注于基于骨架的人體動作識別。該方法引入了基于擴散的數(shù)據(jù)增強,以獲取高質量和多樣的動作序列。它利用DDPMs生成合成的動作序列,生成過程由空間-時間Transformer準確引導。實驗證明了這種方法在自然性和多樣性指標方面的優(yōu)越性。此外,它證實了將合成的高質量數(shù)據(jù)應用于現(xiàn)有動作識別模型的有效性。

視頻聲音跟蹤器

LORIS專注于生成與視覺提示的節(jié)奏同步的音樂配樂。該系統(tǒng)利用潛在條件擴散概率模型進行波形合成。此外,它還結合了上下文感知的條件編碼器,以考慮時間信息,促進長期波形生成。作者還擴展了模型的適用性,可以在各種體育場景中生成具有出色音樂質量和節(jié)奏對應性的長期音軌。

視頻過程規(guī)劃

PDPP專注于教學視頻中的過程規(guī)劃。該方法使用擴散模型描繪整個中間動作序列的分布,將規(guī)劃問題轉化為從該分布中進行采樣的過程。此外,使用基于擴散的U-Net模型提供了基于初始和最終觀察的準確條件指導,增強了對從學習的分布中采樣的動作序列的學習。

挑戰(zhàn)與未來趨勢

盡管基于擴散的方法在視頻生成、編輯和理解方面取得了顯著進展,但仍存在一些值得探討的開放問題。在本節(jié)中,總結了當前的挑戰(zhàn)和潛在的未來方向。


「大規(guī)模視頻文本數(shù)據(jù)集的收集」:文本到圖像合成取得的重大成就主要源于數(shù)十億高質量(文本,圖像)對的可用性。然而,用于文本到視頻(T2V)任務的常用數(shù)據(jù)集相對較小,為視頻內容收集同樣龐大的數(shù)據(jù)集是一項相當具有挑戰(zhàn)性的工作。例如,WebVid數(shù)據(jù)集僅包含1000萬個實例,并且存在顯著缺陷,即分辨率較低,僅為360P,進一步受到水印偽影的影響。盡管正在進行獲取新數(shù)據(jù)集的方法的努力,但仍急需改進數(shù)據(jù)集規(guī)模、注釋準確性和視頻質量。


「高效的訓練和推理」:T2V模型的大量訓練成本是一個重大挑戰(zhàn),一些任務需要使用數(shù)百個GPU。盡管方法(例如SimDA)已經(jīng)努力減輕訓練費用,但數(shù)據(jù)集規(guī)模和時間復雜性的挑戰(zhàn)仍然是一個關鍵問題。因此,研究更高效的模型訓練和減少推理時間的策略是未來研究的有價值的方向。


「基準和評估方法」:盡管存在用于開放域視頻生成的基準和評估方法,但它們在范圍上相對有限。由于在文本到視頻(T2V)生成中缺乏生成視頻的真實標準,現(xiàn)有的度量指標(例如Fréchet Video Distance(FVD)和Inception Score(IS))主要強調生成視頻分布與真實視頻分布之間的差異。這使得很難擁有一個全面評估指標,準確反映視頻生成的質量。目前,相當依賴用戶AB測試和主觀評分,這是一項費時的工作,并可能因主觀性而存在偏見。未來構建更貼合的評估基準和度量方法也是一條有意義的研究途徑。


「模型容量不足」:盡管現(xiàn)有方法取得了顯著進展,但由于模型容量的限制,仍然存在許多局限性。例如,視頻編輯方法在某些情況下往往會出現(xiàn)時間一致性失敗,例如用動物替換人物。此外,觀察到在前面討論的大多數(shù)方法中,對象替換僅限于生成具有相似屬性的輸出。此外,為了追求高保真度,許多當前基于T2I的模型使用原始視頻的關鍵幀。然而,由于現(xiàn)有圖像生成模型的固有限制,尚未解決在保持結構和時間一致性的同時注入額外對象的問題。進一步的研究和增強是解決這些局限性的關鍵。

結論

本調查深入探討了AIGC(AI生成內容)時代的最新發(fā)展,重點關注了視頻擴散模型。據(jù)知,這是這類調查的首次嘗試。全面概述了擴散過程的基本概念、流行的基準數(shù)據(jù)集和常用的評估方法。在此基礎上,全面回顧了100多種關注視頻生成、編輯和理解任務的作品,并根據(jù)它們的技術觀點和研究目標進行了分類。此外,在實驗部分,詳細描述了實驗設置,并在各種基準數(shù)據(jù)集上進行了公正的比較分析。最后,提出了視頻擴散模型未來研究方向的幾個建議。


本文轉自  AIGCer ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/zxGuSFP7t4DDAeNc4cDo1g??

標簽
收藏 1
回復
舉報
回復
相關推薦