自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展 精華

發(fā)布于 2024-9-18 10:27
瀏覽
0收藏

最近,AIGCer在使用一些視頻生成工具,對其中的技術(shù)點(diǎn)有了強(qiáng)烈興趣,正好搜索到了這篇視頻擴(kuò)散模型綜述,方法果然浩如煙海,讀下來感覺受益良多,分享給大家。


人工智能生成內(nèi)容(AIGC)浪潮在計(jì)算機(jī)視覺領(lǐng)域取得了巨大成功,擴(kuò)散模型在這一成就中發(fā)揮著關(guān)鍵作用。由于其出色的生成能力,擴(kuò)散模型逐漸取代了基于GAN和自回歸Transformer的方法,在圖像生成和編輯以及視頻相關(guān)研究領(lǐng)域表現(xiàn)出色。然而,現(xiàn)有的調(diào)查主要集中在圖像生成的背景下的擴(kuò)散模型,對它們在視頻領(lǐng)域應(yīng)用的最新評論相對較少。為了彌補(bǔ)這一差距,本文介紹了AIGC時(shí)代視頻擴(kuò)散模型的全面回顧。具體而言,首先簡要介紹擴(kuò)散模型的基礎(chǔ)知識和演變歷程。隨后,概述了視頻領(lǐng)域擴(kuò)散模型研究的概況,將這方面的工作分為三個(gè)關(guān)鍵領(lǐng)域:視頻生成、視頻編輯和其他視頻理解任務(wù)。對這三個(gè)關(guān)鍵領(lǐng)域的文獻(xiàn)進(jìn)行了徹底的回顧,包括在該領(lǐng)域中的進(jìn)一步分類和實(shí)際貢獻(xiàn)。最后,討論了該領(lǐng)域研究面臨的挑戰(zhàn),并勾勒了潛在的未來發(fā)展趨勢。本綜述中研究的視頻擴(kuò)散模型的全面列表可在地址中查看:「https://github.com/ChenHsing/Awesome-Video-Diffusion-Models」

介紹

人工智能生成內(nèi)容(AIGC)目前是計(jì)算機(jī)視覺和人工智能領(lǐng)域最重要的研究方向之一。它不僅引起了廣泛關(guān)注和學(xué)術(shù)研究,還在各行業(yè)和其他應(yīng)用中產(chǎn)生了深遠(yuǎn)的影響,如計(jì)算機(jī)圖形學(xué)、藝術(shù)與設(shè)計(jì)、醫(yī)學(xué)成像等。在這些努力中,以擴(kuò)散模型為代表的一系列方法已經(jīng)取得了顯著的成功,迅速取代了基于生成對抗網(wǎng)絡(luò)(GANs)和自回歸Transformer的方法,成為圖像生成的主導(dǎo)方法。由于它們強(qiáng)大的可控性、逼真的生成和出色的多樣性,基于擴(kuò)散的方法還在廣泛的計(jì)算機(jī)視覺任務(wù)中蓬勃發(fā)展,包括圖像編輯、密集預(yù)測和諸如視頻合成和3D生成等各種領(lǐng)域。


作為最重要的媒體之一,視頻在互聯(lián)網(wǎng)上嶄露頭角。與純文本和靜態(tài)圖像相比,視頻呈現(xiàn)了豐富的動(dòng)態(tài)信息,為用戶提供了更全面、沉浸式的視覺體驗(yàn)?;跀U(kuò)散模型的視頻任務(wù)研究正逐漸引起關(guān)注。如下圖1所示,自2022年以來,視頻擴(kuò)散模型研究論文的數(shù)量顯著增加,可以分為三個(gè)主要類別:視頻生成、視頻編輯和視頻理解。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

隨著視頻擴(kuò)散模型的快速發(fā)展和其取得令人印象深刻的成果,追蹤和比較這一主題的最新研究變得非常重要。多篇綜述文章已經(jīng)涵蓋了AIGC時(shí)代基礎(chǔ)模型的研究,包括擴(kuò)散模型本身和多模態(tài)學(xué)習(xí)。也有一些專門關(guān)注文本到圖像研究和文本到3D應(yīng)用的綜述。然而,這些綜述要么只提供對視頻擴(kuò)散模型的粗略覆蓋,要么更加強(qiáng)調(diào)圖像模型。因此,在這項(xiàng)工作中,作者旨在通過對擴(kuò)散模型的方法論、實(shí)驗(yàn)設(shè)置、基準(zhǔn)數(shù)據(jù)集以及其他視頻應(yīng)用進(jìn)行全面回顧,填補(bǔ)這一空白。


「貢獻(xiàn)」:在這篇綜述中,系統(tǒng)地跟蹤和總結(jié)了有關(guān)視頻擴(kuò)散模型的最新文獻(xiàn),涵蓋視頻生成、編輯以及視頻理解的其他方面。通過提取共享的技術(shù)細(xì)節(jié),這次綜述涵蓋了該領(lǐng)域最具代表性的工作。還介紹了關(guān)于視頻擴(kuò)散模型的背景和相關(guān)知識基礎(chǔ)。此外,對視頻生成的基準(zhǔn)和設(shè)置進(jìn)行了全面的分析和比較。更重要的是,由于視頻擴(kuò)散的快速演進(jìn),可能沒有在這次綜述中涵蓋所有最新的進(jìn)展。


「流程」:將介紹背景知識,包括問題定義、數(shù)據(jù)集、評估指標(biāo)和相關(guān)研究領(lǐng)域。隨后,介紹主要概述視頻生成領(lǐng)域的方法。深入研究與視頻編輯任務(wù)相關(guān)的主要研究。后續(xù)闡明了利用擴(kuò)散模型進(jìn)行視頻理解的各種方向。再強(qiáng)調(diào)了現(xiàn)有的研究挑戰(zhàn)和潛在的未來發(fā)展方向,并總結(jié)結(jié)論。

預(yù)備知識

首先介紹擴(kuò)散模型的基礎(chǔ)內(nèi)容,隨后回顧相關(guān)研究領(lǐng)域。最后,介紹常用的數(shù)據(jù)集和評估指標(biāo)。

擴(kuò)散模型

擴(kuò)散模型是一類概率生成模型,其任務(wù)是學(xué)習(xí)逆轉(zhuǎn)一個(gè)逐漸降低訓(xùn)練數(shù)據(jù)結(jié)構(gòu)的過程。這一類模型在深度生成模型領(lǐng)域取代了生成對抗網(wǎng)絡(luò)在一些挑戰(zhàn)性任務(wù)中的主導(dǎo)地位。目前的研究主要關(guān)注于三種主要的擴(kuò)散模型表述:去噪擴(kuò)散概率模型(DDPMs)、基于分?jǐn)?shù)的生成模型(SGMs)和隨機(jī)微分方程(Score SDEs)。

去噪擴(kuò)散概率模型(DDPMs)

去噪擴(kuò)散概率模型(DDPM)包括兩個(gè)馬爾可夫鏈:一個(gè)前向鏈將數(shù)據(jù)擾動(dòng)到噪聲,而一個(gè)反向鏈將噪聲轉(zhuǎn)換回?cái)?shù)據(jù)。前者旨在將任何數(shù)據(jù)轉(zhuǎn)化為一個(gè)簡單的先驗(yàn)分布,而后者學(xué)習(xí)轉(zhuǎn)換核以逆轉(zhuǎn)前者的過程。通過首先從先驗(yàn)分布中抽樣一個(gè)隨機(jī)向量,然后通過反向馬爾可夫鏈進(jìn)行原始抽樣,可以生成新的數(shù)據(jù)點(diǎn)。這個(gè)抽樣過程的關(guān)鍵是訓(xùn)練反向馬爾可夫鏈以匹配前向馬爾可夫鏈的實(shí)際時(shí)間逆轉(zhuǎn)。


正式而言,假設(shè)存在一個(gè)數(shù)據(jù)分布 ??,前向馬爾可夫過程生成了一系列隨機(jī)變量 x?, x?, ..., ,其轉(zhuǎn)移核為 q(x? | x???)。在給定 x? 的條件下,x?, x?, ...,  的聯(lián)合分布,表示為 q(x?, ...,  | x?),可以分解為:

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

通常,轉(zhuǎn)移核被設(shè)計(jì)為:

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

其中,β? ∈ (0, 1) 是在模型訓(xùn)練之前選擇的超參數(shù)。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

基于分?jǐn)?shù)的生成模型(SGMs)

基于分?jǐn)?shù)的生成模型(SGMs)的關(guān)鍵思想是使用不同水平的噪聲擾動(dòng)數(shù)據(jù),并同時(shí)通過訓(xùn)練一個(gè)單一的條件分?jǐn)?shù)網(wǎng)絡(luò)來估計(jì)與所有噪聲水平相對應(yīng)的分?jǐn)?shù)。通過在逐漸減小的噪聲水平上鏈接分?jǐn)?shù)函數(shù)并使用基于分?jǐn)?shù)的抽樣方法,生成樣本。在SGMs的公式中,訓(xùn)練和抽樣是完全解耦的。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

隨機(jī)微分方程(Score SDEs)

使用多個(gè)噪聲尺度擾動(dòng)數(shù)據(jù)是上述方法成功的關(guān)鍵。Score SDEs 進(jìn)一步將這個(gè)思想推廣到無限多個(gè)噪聲尺度。擴(kuò)散過程可以被建模為以下隨機(jī)微分方程(SDE)的解:

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

相關(guān)工作

視頻擴(kuò)散模型的應(yīng)用涵蓋了廣泛的視頻分析任務(wù),包括視頻生成、視頻編輯以及各種其他形式的視頻理解。這些任務(wù)的方法學(xué)存在相似性,通常將問題制定為擴(kuò)散生成任務(wù),或利用擴(kuò)散模型在下游任務(wù)中強(qiáng)大的受控生成能力。在這份調(diào)查中,主要關(guān)注任務(wù)包括文本到視頻生成、無條件視頻生成以及文本引導(dǎo)的視頻編輯等。


「文本到視頻生成」:旨在根據(jù)文本描述自動(dòng)生成相應(yīng)的視頻。通常涉及理解文本描述中的場景、對象和動(dòng)作,并將它們轉(zhuǎn)換為一系列連貫的視覺幀,生成既邏輯上一致又視覺上一致的視頻。文本到視頻生成具有廣泛的應(yīng)用,包括自動(dòng)生成電影、動(dòng)畫、虛擬現(xiàn)實(shí)內(nèi)容、教育演示視頻等。


「無條件視頻生成」:是一個(gè)生成建模任務(wù),其目標(biāo)是從隨機(jī)噪聲或固定初始狀態(tài)開始生成一系列連續(xù)且視覺上連貫的視頻,而無需依賴特定的輸入條件。與有條件視頻生成不同,無條件視頻生成不需要任何外部指導(dǎo)或先前信息。生成模型需要自主學(xué)習(xí)如何在沒有明確輸入的情況下捕捉時(shí)間動(dòng)態(tài)、動(dòng)作和視覺一致性,以生成既真實(shí)又多樣的視頻內(nèi)容。這對于探索生成模型從無監(jiān)督數(shù)據(jù)中學(xué)習(xí)視頻內(nèi)容并展示多樣性的能力至關(guān)重要。


「文本引導(dǎo)的視頻編輯」:是一種利用文本描述來引導(dǎo)編輯視頻內(nèi)容的技術(shù)。在這個(gè)任務(wù)中,自然語言描述作為輸入,描述了要應(yīng)用于視頻的期望更改或修改。系統(tǒng)然后分析文本輸入,提取相關(guān)信息,如對象、動(dòng)作或場景,并使用這些信息來引導(dǎo)編輯過程。文本引導(dǎo)的視頻編輯通過允許編輯者使用自然語言傳達(dá)其意圖,從而提供了一種促進(jìn)高效直觀編輯的方式,潛在地減少了手動(dòng)費(fèi)時(shí)的逐幀編輯的需求。

數(shù)據(jù)集與評估指標(biāo)

數(shù)據(jù)

視頻理解任務(wù)的發(fā)展通常與視頻數(shù)據(jù)集的發(fā)展保持一致,視頻生成任務(wù)也是如此。在視頻生成的早期階段,任務(wù)受限于在低分辨率、小規(guī)模數(shù)據(jù)集以及特定領(lǐng)域上的訓(xùn)練,導(dǎo)致生成的視頻相對單調(diào)。隨著大規(guī)模視頻文本配對數(shù)據(jù)集的出現(xiàn),諸如通用文本到視頻生成等任務(wù)開始受到關(guān)注。因此,視頻生成的數(shù)據(jù)集主要可分為標(biāo)題級和類別級,將分別討論。


「標(biāo)題級數(shù)據(jù)集」 包含與描述性文本標(biāo)題配對的視頻,為訓(xùn)練模型基于文本描述生成視頻提供了關(guān)鍵的數(shù)據(jù)。作者在下表1中列出了幾個(gè)常見的標(biāo)題級數(shù)據(jù)集,這些數(shù)據(jù)集在規(guī)模和領(lǐng)域上各不相同。早期的標(biāo)題級視頻數(shù)據(jù)集主要用于視頻文本檢索任務(wù),規(guī)模較?。ㄐ∮?20K),并且重點(diǎn)關(guān)注特定領(lǐng)域(例如電影、動(dòng)作、烹飪)。隨著開放領(lǐng)域WebVid-10M數(shù)據(jù)集的引入,文本到視頻(T2V)生成這一新任務(wù)開始受到關(guān)注,研究人員開始關(guān)注開放領(lǐng)域的T2V生成任務(wù)。盡管它是T2V任務(wù)的主流基準(zhǔn)數(shù)據(jù)集,但仍存在分辨率低(360P)和帶水印的內(nèi)容等問題。隨后,為提高一般文本到視頻(T2V)任務(wù)中視頻的分辨率和覆蓋范圍,VideoFactory和InternVid引入了更大規(guī)模(130M和234M)和高清晰度(720P)的開放領(lǐng)域數(shù)據(jù)集。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

「類別級數(shù)據(jù)集」 包含按特定類別分組的視頻,每個(gè)視頻都標(biāo)有其類別。這些數(shù)據(jù)集通常用于無條件視頻生成或類別條件視頻生成任務(wù)。在下面表2中總結(jié)了常用的類別級視頻數(shù)據(jù)集。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

值得注意的是,其中一些數(shù)據(jù)集也應(yīng)用于其他任務(wù)。例如,UCF-101、Kinetics和Something-Something是動(dòng)作識別的典型基準(zhǔn)。DAVIS最初是為視頻對象分割任務(wù)提出的,后來成為視頻編輯的常用基準(zhǔn)。在這些數(shù)據(jù)集中,UCF-101是最廣泛應(yīng)用于視頻生成的,既可以作為無條件視頻生成的基準(zhǔn),也可以作為基于類別的條件生成和視頻預(yù)測應(yīng)用的基準(zhǔn)。它包含來自YouTube的樣本,涵蓋101個(gè)動(dòng)作類別,包括人體運(yùn)動(dòng)、樂器演奏和互動(dòng)動(dòng)作等。與UCF類似,Kinetics-400和Kinetics-600是兩個(gè)涵蓋更復(fù)雜動(dòng)作類別和更大數(shù)據(jù)規(guī)模的數(shù)據(jù)集,同時(shí)保持了與UCF-101相同的應(yīng)用范圍。


另一方面,Something-Something數(shù)據(jù)集具有類別級和標(biāo)題級標(biāo)簽,因此特別適用于文本條件的視頻預(yù)測任務(wù)。值得注意的是,這些最初在動(dòng)作識別領(lǐng)域發(fā)揮關(guān)鍵作用的大規(guī)模數(shù)據(jù)集呈現(xiàn)出較小規(guī)模(小于50K)和單一類別、單一領(lǐng)域?qū)傩裕〝?shù)字、駕駛風(fēng)景、機(jī)器人)的特點(diǎn),因此不足以生成高質(zhì)量的視頻。因此,近年來,專門用于視頻生成任務(wù)的數(shù)據(jù)集被提出,通常具有獨(dú)特屬性,如高分辨率(1080P)或延長時(shí)長。例如,Long Video GAN提出了一個(gè)包含66個(gè)視頻的騎馬數(shù)據(jù)集,平均時(shí)長為6504幀,每秒30幀。Video LDM收集了RDS數(shù)據(jù)集,包括683,060個(gè)真實(shí)駕駛視頻,每個(gè)視頻長度為8秒,分辨率為1080P。

評估指標(biāo)

總體來說,視頻生成的評估指標(biāo)可以分為定量和定性兩類。定性評估通常通過人為主觀評價(jià)進(jìn)行,包括參與者對生成的視頻與其他競爭模型合成的視頻進(jìn)行比較,并對視頻的逼真度、自然連貫性和文本對齊等方面進(jìn)行投票式評估。然而,人為評估成本高昂且有可能未能充分反映模型的全部能力。


因此,接下來主要探討圖像級和視頻級評估的定量標(biāo)準(zhǔn)。


「圖像級指標(biāo)」 視頻由一系列圖像幀組成,因此圖像級評估指標(biāo)可以在一定程度上提供對生成的視頻幀質(zhì)量的見解。常用的圖像級指標(biāo)包括Frechet Inception Distance(FID),峰值信噪比(PSNR),結(jié)構(gòu)相似性指數(shù)(SSIM)和CLIPSIM。FID 通過比較合成視頻幀與真實(shí)視頻幀來評估生成視頻的質(zhì)量。它涉及對圖像進(jìn)行歸一化處理以使其具有一致的尺度,利用InceptionV3 從真實(shí)和合成視頻中提取特征,然后計(jì)算均值和協(xié)方差矩陣。然后將這些統(tǒng)計(jì)數(shù)據(jù)組合起來計(jì)算FID 分?jǐn)?shù)。


SSIM 和PSNR都是像素級別的指標(biāo)。SSIM評估原始圖像和生成圖像的亮度、對比度和結(jié)構(gòu)特征,而PSNR是表示峰值信號和均方誤差(MSE)之間比率的系數(shù)。這兩個(gè)指標(biāo)通常用于評估重建圖像幀的質(zhì)量,并應(yīng)用于超分辨率和修復(fù)等任務(wù)。


CLIPSIM 是用于測量圖像-文本相關(guān)性的方法?;贑LIP 模型,它提取圖像和文本特征,然后計(jì)算它們之間的相似性。這個(gè)度量通常用于文本條件的視頻生成或編輯任務(wù)

「視頻級指標(biāo)」 盡管圖像級評估指標(biāo)代表生成的視頻幀的質(zhì)量,但它們主要關(guān)注單個(gè)幀,忽視了視頻的時(shí)空一致性。另一方面,視頻級指標(biāo)將提供對視頻生成更全面的評估。Fr ?echet Video Distance(FVD)是一種基于FID 的視頻質(zhì)量評估指標(biāo)。與使用Inception網(wǎng)絡(luò)從單幀提取特征的圖像級方法不同,F(xiàn)VD利用在Kinetics 上預(yù)訓(xùn)練的Inflated-3D Convnets (I3D)從視頻剪輯中提取特征。隨后,通過均值和協(xié)方差矩陣的組合來計(jì)算FVD分?jǐn)?shù)。與FVD 類似,Kernel Video Distance (KVD) 也基于I3D特征,但它通過使用最大均值差異(MMD),一種基于核的方法,來評估生成視頻的質(zhì)量。Video IS (Inception Score) 使用由3D-Convnets (C3D)提取的特征計(jì)算生成視頻的Inception分?jǐn)?shù),這通常應(yīng)用于UCF-101上的評估。高質(zhì)量的視頻具有低熵概率,表示為P(y|x),而多樣性通過檢查所有視頻的邊際分布來評估,這應(yīng)該表現(xiàn)出高熵水平。Frame Consistency CLIP Score通常用于視頻編輯任務(wù),用于測量編輯視頻的一致性。其計(jì)算涉及計(jì)算編輯視頻的所有幀的CLIP圖像query,并報(bào)告所有視頻幀對之間的平均余弦相似性。

視頻生成

將視頻生成分為四個(gè)組別,并為每個(gè)組別提供詳細(xì)的評估:通用文本到視頻(T2V)生成、帶有其他條件的視頻生成、無條件視頻生成和視頻完成。最后,總結(jié)了設(shè)置和評估指標(biāo),并對各種模型進(jìn)行了全面比較。視頻生成的分類細(xì)節(jié)在下圖2中展示。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

文本條件下的視頻生成

最近的研究表明,生成人工智能與自然語言之間的互動(dòng)至關(guān)重要。雖然在從文本生成圖像方面取得了顯著進(jìn)展,但Text-to-Video (T2V) 方法的發(fā)展仍處于早期階段。在這個(gè)背景下,首先簡要概述了一些非擴(kuò)散方法,然后深入介紹了在基于訓(xùn)練和基于無訓(xùn)練擴(kuò)散技術(shù)上引入T2V模型。

非擴(kuò)散型T2V方法

在擴(kuò)散型模型出現(xiàn)之前,該領(lǐng)域的早期努力主要基于GANs,VQ-VAE和自回歸Transformer框架。


在這些工作中,GODIVA是一個(gè)使用VQ-VAE進(jìn)行通用T2V任務(wù)的表示性工作。它在包含超過100M視頻文本對的Howto100M數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。該模型在當(dāng)時(shí)表現(xiàn)出色,展示了卓越的零樣本性能。隨后,自回歸Transformer方法由于其明確的密度建模和與GANs相比更穩(wěn)定的訓(xùn)練優(yōu)勢,成為主流T2V任務(wù)的引領(lǐng)者。其中,CogVideo是一個(gè)開源視頻生成模型,創(chuàng)新地利用預(yù)訓(xùn)練的CogView2作為其視頻生成任務(wù)的骨干。此外,它擴(kuò)展到使用Swin Attention進(jìn)行自回歸視頻生成,有效減輕了長序列的時(shí)間和空間開銷。除了上述工作外,PHENAKI引入了用于可變長度視頻生成的新穎C-ViViT骨干。NUWA是一個(gè)基于自回歸Transformer的T2I、T2V和視頻預(yù)測任務(wù)的統(tǒng)一模型。MMVG提出了一種有效的蒙版策略,用于多個(gè)視頻生成任務(wù),包括T2V、視頻預(yù)測和視頻補(bǔ)充。

基于訓(xùn)練的T2V擴(kuò)散方法

「早期T2V探索」 在眾多的努力中,VDM是為視頻生成設(shè)計(jì)視頻擴(kuò)散模型方面的先驅(qū)。它將傳統(tǒng)的圖像擴(kuò)散U-Net架構(gòu)擴(kuò)展到3D U-Net結(jié)構(gòu),并采用圖像和視頻的聯(lián)合訓(xùn)練。它采用的條件采樣技術(shù)能夠生成質(zhì)量更高、時(shí)長更長的視頻。作為對T2V擴(kuò)散模型的首次探索,它還適應(yīng)了無條件生成和視頻預(yù)測等任務(wù)。


與需要配對的視頻-文本數(shù)據(jù)集的VDM不同,Make-A-Video引入了一種新的范例。在這里,網(wǎng)絡(luò)從配對的圖像-文本數(shù)據(jù)中學(xué)習(xí)視覺-文本相關(guān)性,并從無監(jiān)督視頻數(shù)據(jù)中捕捉視頻運(yùn)動(dòng)。這種創(chuàng)新方法減少了對數(shù)據(jù)收集的依賴,從而生成了多樣且逼真的視頻。此外,通過使用多個(gè)超分辨率模型和插值網(wǎng)絡(luò),它實(shí)現(xiàn)了更高清晰度和幀率的生成視頻。


「時(shí)間建模探索」 雖然先前的方法利用像素級的擴(kuò)散,MagicVideo是最早使用潛在擴(kuò)散模型(LDM)進(jìn)行潛在空間中的T2V生成的工作之一。通過在較低維度的潛在空間中利用擴(kuò)散模型,它顯著降低了計(jì)算復(fù)雜性,從而加速了處理速度。引入的逐幀輕量級適配器調(diào)整了圖像和視頻的分布,以便所提出的有向注意力更好地建模時(shí)間關(guān)系,確保視頻一致性。

與此同時(shí),LVDM也將LDM作為其骨干,采用分層框架來建模潛在空間。通過采用掩碼采樣技術(shù),該模型能夠生成更長的視頻。它結(jié)合了條件潛在擾動(dòng)和無條件引導(dǎo)等技術(shù),以減輕自回歸生成任務(wù)后期性能下降的影響。通過這種訓(xùn)練方法,它可以應(yīng)用于視頻預(yù)測任務(wù),甚至生成包含數(shù)千幀的長視頻。


ModelScope在LDM中引入了空間-時(shí)間卷積和注意力,用于T2V任務(wù)。它采用了LAION和WebVid的混合訓(xùn)練方法,并作為一個(gè)開源基準(zhǔn)方法。


先前的方法主要依賴于1D卷積或時(shí)間注意力來建立時(shí)間關(guān)系。而Latent-Shift則側(cè)重于輕量級的時(shí)間建模。從TSM獲得啟示,它在卷積塊中在相鄰幀之間移動(dòng)通道以進(jìn)行時(shí)間建模。此外,該模型在生成視頻的同時(shí)保持了原始的T2I能力。


「多階段T2V方法」 Imagen Video擴(kuò)展了成熟的T2I模型Imagen,用于視頻生成任務(wù)。級聯(lián)視頻擴(kuò)散模型由七個(gè)子模型組成,其中一個(gè)專門用于基礎(chǔ)視頻生成,三個(gè)用于空間超分辨率,三個(gè)用于時(shí)間超分辨率。這些子模型共同形成一個(gè)全面的三階段訓(xùn)練流程。它驗(yàn)證了在T2I訓(xùn)練中采用的許多訓(xùn)練技術(shù)的有效性,例如無分類器引導(dǎo)、條件增強(qiáng)和v-參數(shù)化。此外,作者利用漸進(jìn)蒸餾技術(shù)來加速視頻擴(kuò)散模型的采樣時(shí)間。其中引入的多階段訓(xùn)練技術(shù)已成為主流高清視頻生成的有效策略。


Video LDM同時(shí)訓(xùn)練一個(gè)由三個(gè)訓(xùn)練階段組成的T2V網(wǎng)絡(luò),包括關(guān)鍵幀T2V生成、視頻幀插值和空間超分辨率模塊。它在空間層上添加了時(shí)間注意力層和3D卷積層,使得第一階段可以生成關(guān)鍵幀。隨后,通過實(shí)施掩碼采樣方法,訓(xùn)練了一個(gè)幀插值模型,將短視頻的關(guān)鍵幀擴(kuò)展到更高的幀率。最后,使用視頻超分辨率模型增強(qiáng)分辨率。


LAVIE使用了一個(gè)由三個(gè)階段組成的級聯(lián)視頻擴(kuò)散模型:基礎(chǔ)T2V階段、時(shí)間插值階段和視頻超分辨率階段。此外,它驗(yàn)證了聯(lián)合圖像-視頻微調(diào)的過程可以產(chǎn)生高質(zhì)量且富有創(chuàng)意的結(jié)果。


Show-1首次引入了基于像素和基于潛在擴(kuò)散模型的融合,用于T2V生成。其框架包括四個(gè)不同的階段,最初的三個(gè)在低分辨率像素級別運(yùn)行:關(guān)鍵幀生成、幀插值和超分辨率。值得注意的是,像素級階段可以生成具有精確文本對齊的視頻。第四階段由一個(gè)潛在超分辨率模塊組成,提供了一種經(jīng)濟(jì)有效的增強(qiáng)視頻分辨率的方法。


「噪聲先驗(yàn)探索」 雖然大多數(shù)方法通過擴(kuò)散模型獨(dú)立地對每一幀進(jìn)行去噪,但VideoFusion通過考慮不同幀之間的內(nèi)容冗余和時(shí)間相關(guān)性而脫穎而出。具體而言,它使用每一幀的共享基礎(chǔ)噪聲和沿時(shí)間軸的殘余噪聲來分解擴(kuò)散過程。這種噪聲分解是通過兩個(gè)共同訓(xùn)練的網(wǎng)絡(luò)實(shí)現(xiàn)的。這種方法旨在確保在生成幀運(yùn)動(dòng)時(shí)的一致性,盡管這可能導(dǎo)致有限的多樣性。此外,論文表明,使用T2I骨干模型(例如DALLE-2)來訓(xùn)練T2V模型可以加速收斂,但其文本query可能面臨理解長時(shí)序文本序列的挑戰(zhàn)。


PYoCo承認(rèn)直接將圖像的噪聲先驗(yàn)擴(kuò)展到視頻可能在T2V任務(wù)中產(chǎn)生次優(yōu)結(jié)果。作為解決方案,它巧妙地設(shè)計(jì)了視頻噪聲先驗(yàn),并對eDiff-I模型進(jìn)行微調(diào)以用于視頻生成。提出的噪聲先驗(yàn)涉及在視頻的不同幀之間采樣相關(guān)噪聲。作者驗(yàn)證了提出的混合和漸進(jìn)噪聲模型更適合T2V任務(wù)。


「數(shù)據(jù)集貢獻(xiàn)」 VideoFactory針對先前廣泛使用的WebVid數(shù)據(jù)集存在低分辨率和水印問題提出了改進(jìn)。為此,它構(gòu)建了一個(gè)大規(guī)模視頻數(shù)據(jù)集HD-VG-130M,包含了來自開放領(lǐng)域的130百萬個(gè)視頻文本對。該數(shù)據(jù)集是通過BLIP-2字幕從HD-VILA中收集而來,聲稱具有高分辨率并且沒有水印。此外,VideoFactory引入了一種交換的交叉注意力機(jī)制,以促進(jìn)時(shí)空模塊之間的交互,從而改善了時(shí)序關(guān)系建模。在這個(gè)高清數(shù)據(jù)集上訓(xùn)練的方法能夠生成分辨率為(1376×768)的高清視頻。


VidRD引入了“重用和擴(kuò)散”框架,通過重復(fù)使用原始潛在表示并遵循先前的擴(kuò)散過程來迭代生成額外的幀。此外,它在構(gòu)建視頻文本數(shù)據(jù)集時(shí)使用了靜態(tài)圖像、長視頻和短視頻。對于靜態(tài)圖像,通過隨機(jī)縮放或平移操作引入了動(dòng)態(tài)因素。對于短視頻,使用BLIP-2標(biāo)注進(jìn)行分類,而長視頻首先進(jìn)行分割,然后基于MiniGPT-4進(jìn)行注釋以保留所需的視頻剪輯。在視頻文本數(shù)據(jù)集中構(gòu)建多樣的類別和分布被證明對提升視頻生成的質(zhì)量非常有效。


「高效訓(xùn)練」 ED-T2V使用LDM作為其主干,并凍結(jié)了大部分參數(shù)以降低訓(xùn)練成本。它引入了身份關(guān)注和時(shí)間交叉關(guān)注以確保時(shí)間上的一致性。本文提出的方法在保持可比的T2V生成性能的同時(shí)成功降低了訓(xùn)練成本。


SimDA設(shè)計(jì)了一種參數(shù)高效的T2V任務(wù)訓(xùn)練方法,通過保持T2I模型的參數(shù)固定。它引入了輕量級的空間適配器來傳遞T2V學(xué)習(xí)的視覺信息。此外,它還引入了一個(gè)時(shí)間適配器,以在較低的特征維度中建模時(shí)間關(guān)系。提出的潛在轉(zhuǎn)移關(guān)注有助于保持視頻的一致性。此外,輕量級架構(gòu)使得推理速度加快,適用于視頻編輯任務(wù)。


「個(gè)性化視頻生成」 通常指的是根據(jù)特定主題或風(fēng)格創(chuàng)建定制視頻,涉及生成根據(jù)個(gè)人偏好或特征定制的視頻。AnimateDiff注意到LoRA和Dreambooth在個(gè)性化T2I模型方面取得的成功,并旨在將它們的效果擴(kuò)展到視頻動(dòng)畫。此外,作者的目標(biāo)是訓(xùn)練一個(gè)可以適應(yīng)生成各種個(gè)性化視頻的模型,而無需在視頻數(shù)據(jù)集上反復(fù)訓(xùn)練。這包括使用T2I模型作為基礎(chǔ)生成器,并添加一個(gè)運(yùn)動(dòng)模塊來學(xué)習(xí)運(yùn)動(dòng)動(dòng)態(tài)。在推理過程中,個(gè)性化T2I模型可以替換基礎(chǔ)T2I權(quán)重,實(shí)現(xiàn)個(gè)性化視頻生成。


「去除偽影」 為解決T2V生成的視頻中出現(xiàn)的閃爍和偽影問題,DSDN引入了一個(gè)雙流擴(kuò)散模型,一個(gè)用于視頻內(nèi)容,另一個(gè)用于運(yùn)動(dòng)。通過這種方式,它可以保持內(nèi)容和運(yùn)動(dòng)之間的強(qiáng)對齊性。通過將視頻生成過程分解為內(nèi)容和運(yùn)動(dòng)組件,可以生成具有更少閃爍的連續(xù)視頻。


VideoGen首先利用T2I模型生成基于文本提示的圖像,作為引導(dǎo)視頻生成的參考圖像。隨后,引入了一個(gè)高效的級聯(lián)潛在擴(kuò)散模塊,采用基于流的時(shí)間上采樣步驟來提高時(shí)間分辨率。與先前的方法相比,引入?yún)⒖紙D像提高了視覺保真度并減少了偽影,使模型能夠更專注于學(xué)習(xí)視頻動(dòng)態(tài)。


「復(fù)雜動(dòng)態(tài)建?!?/strong> 在生成文本到視頻(T2V)時(shí),面臨著對復(fù)雜動(dòng)態(tài)建模的挑戰(zhàn),尤其是在處理動(dòng)作一致性中的干擾方面。為了解決這個(gè)問題,Dysen-VDM引入了一種將文本信息轉(zhuǎn)化為動(dòng)態(tài)場景圖的方法。利用大型語言模型(LLM),Dysen-VDM從輸入文本中識別關(guān)鍵動(dòng)作,并按照時(shí)間順序排列它們,通過添加相關(guān)的描述性細(xì)節(jié)來豐富場景。此外,模型從LLM的上下文學(xué)習(xí)中受益,賦予了它強(qiáng)大的時(shí)空建模能力。這種方法在合成復(fù)雜動(dòng)作方面展現(xiàn)了顯著的優(yōu)勢。


VideoDirGPT也利用LLM來規(guī)劃視頻內(nèi)容的生成。對于給定的文本輸入,它通過GPT-4將其擴(kuò)展為一個(gè)視頻計(jì)劃,其中包括場景描述、實(shí)體及其布局,以及實(shí)體在背景中的分布。隨后,模型通過對布局進(jìn)行明確的控制生成相應(yīng)的視頻。這種方法在復(fù)雜動(dòng)態(tài)視頻生成的布局和運(yùn)動(dòng)控制方面展現(xiàn)了顯著的優(yōu)勢。


「領(lǐng)域特定的文本到視頻生成」 Video-Adapter引入了一種新穎的設(shè)置,通過將預(yù)訓(xùn)練的通用T2V模型轉(zhuǎn)移到特定領(lǐng)域的T2V任務(wù)中。通過將特定領(lǐng)域的視頻分布分解為預(yù)訓(xùn)練的噪聲和一個(gè)小的訓(xùn)練組件,它大幅降低了轉(zhuǎn)移訓(xùn)練的成本。該方法在T2V生成中的Ego4D和Bridge Data場景中的有效性得到了驗(yàn)證。


NUWA-XL采用了一種由粗到細(xì)的生成范式,促進(jìn)了并行視頻生成。它最初使用全局?jǐn)U散生成關(guān)鍵幀,然后利用局部擴(kuò)散模型在兩個(gè)幀之間進(jìn)行插值。這種方法使得能夠創(chuàng)建長達(dá)3376幀的視頻,從而為動(dòng)畫生成建立了一個(gè)基準(zhǔn)。該工作專注于卡通視頻生成領(lǐng)域,利用其技術(shù)來制作持續(xù)數(shù)分鐘的卡通視頻。


Text2Performer將以人為中心的視頻分解為外觀和運(yùn)動(dòng)表示。首先,它利用VQVAE的潛在空間對自然人類視頻進(jìn)行無監(jiān)督訓(xùn)練,以解開外觀和姿態(tài)表示。隨后,它利用連續(xù)的VQ-diffuser對連續(xù)姿態(tài)query進(jìn)行采樣。最后,作者在姿態(tài)query的時(shí)空域上采用了一種運(yùn)動(dòng)感知的掩碼策略,以增強(qiáng)時(shí)空相關(guān)性。

無訓(xùn)練T2V擴(kuò)散方法

前述方法都是基于訓(xùn)練的T2V方法,通常依賴于廣泛的數(shù)據(jù)集,如WebVid或其他視頻數(shù)據(jù)集。一些最近的研究旨在通過開發(fā)無訓(xùn)練的T2V方法來減少龐大的訓(xùn)練成本,接下來將介紹這些方法。


Text2Video-Zero利用預(yù)訓(xùn)練的T2I模型Stable Diffusion進(jìn)行視頻合成。為了在不同幀之間保持一致性,它在每一幀和第一幀之間執(zhí)行交叉注意力機(jī)制。此外,通過修改潛在代碼的采樣方法,它豐富了運(yùn)動(dòng)動(dòng)態(tài)。此外,該方法可以與條件生成和編輯技術(shù)(如ControlNet和InstructPix2Pix)結(jié)合使用,實(shí)現(xiàn)對視頻的可控生成。


另一方面,DirecT2V和Free-Bloom引入了大型語言模型(LLM)來基于單個(gè)抽象用戶提示生成逐幀描述。LLM導(dǎo)向器用于將用戶輸入分解為幀級描述。此外,為了在幀之間保持連續(xù)性,DirecT2V使用了一種新穎的值映射和雙Softmax過濾方法。Free-Bloom提出了一系列反向處理增強(qiáng)方法,包括聯(lián)合噪聲采樣、步驟感知注意力轉(zhuǎn)移和雙路徑插值。實(shí)驗(yàn)證明這些修改增強(qiáng)了零樣本視頻生成的能力。


為了處理復(fù)雜的時(shí)空提示,LVD首先利用LLM生成動(dòng)態(tài)場景布局,然后利用這些布局指導(dǎo)視頻生成。它的方法無需訓(xùn)練,并通過根據(jù)布局調(diào)整注意力圖來引導(dǎo)視頻擴(kuò)散模型,從而實(shí)現(xiàn)復(fù)雜動(dòng)態(tài)視頻的生成。


DiffSynth提出了一種潛在迭代去閃爍框架和視頻去閃爍算法,以減輕閃爍并生成連貫的視頻。此外,它可以應(yīng)用于各種領(lǐng)域,包括視頻風(fēng)格化和3D渲染。

具有其他條件的視頻生成

大多數(shù)先前介紹的方法涉及文本到視頻生成。在本小節(jié)中,關(guān)注基于其他模態(tài)條件(例如姿態(tài)、聲音和深度)的視頻生成。在圖3中展示了受條件控制的視頻生成的例子。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

姿態(tài)引導(dǎo)的視頻生成

Follow Your Pose: 采用由姿態(tài)和文本控制驅(qū)動(dòng)的頻生成模型。它通過利用圖像-姿態(tài)對和不帶姿態(tài)的視頻進(jìn)行兩階段的訓(xùn)練。在第一階段,通過使用(圖像,姿態(tài))對來微調(diào)T2I(文本到圖像)模型,實(shí)現(xiàn)了姿態(tài)控制的生成。在第二階段,模型利用未標(biāo)記的視頻進(jìn)行學(xué)習(xí),通過引入時(shí)間注意力和跨幀注意力機(jī)制來進(jìn)行時(shí)間建模。這兩階段的訓(xùn)練賦予了模型姿態(tài)控制和時(shí)間建模的能力。


Dreampose: 構(gòu)建了一個(gè)雙通道的CLIP-VAE圖像編碼器和適配器模塊,用于替換LDM中原始的CLIP文本編碼器作為條件組件。給定單個(gè)人類圖像和姿態(tài)序列,該研究可以基于提供的姿態(tài)信息生成相應(yīng)的人體姿態(tài)視頻。


Dancing Avatar: 專注于合成人類舞蹈視頻。它利用一個(gè)T2I模型以自回歸方式生成視頻的每一幀。為了確保整個(gè)視頻的一致性,它使用了一個(gè)幀對齊模塊,結(jié)合了ChatGPT的見解,以增強(qiáng)相鄰幀之間的一致性。此外,它利用OpenPose ControlNet的能力,基于姿態(tài)生成高質(zhì)量的人體視頻。


Disco:解決了一個(gè)稱為參考人類舞蹈生成的新問題設(shè)置。它利用ControlNet、Grounded-SAM和OpenPose進(jìn)行背景控制、前景提取和姿態(tài)骨架提取。此外,它使用了大規(guī)模圖像數(shù)據(jù)集進(jìn)行人類屬性預(yù)訓(xùn)練。通過結(jié)合這些訓(xùn)練步驟,Disco為人類特定的視頻生成任務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ)。

運(yùn)動(dòng)引導(dǎo)的視頻生成

MCDiff 是在考慮運(yùn)動(dòng)作為控制視頻合成的條件方面的先驅(qū)。該方法涉及提供視頻的第一幀以及一系列筆畫運(yùn)動(dòng)。首先,使用流完成模型基于稀疏筆畫運(yùn)動(dòng)控制來預(yù)測密集視頻運(yùn)動(dòng)。隨后,該模型采用自回歸方法,利用密集運(yùn)動(dòng)圖預(yù)測隨后的幀,最終實(shí)現(xiàn)完整視頻的合成。


DragNUWA 同時(shí)引入文本、圖像和軌跡信息,以從語義、空間和時(shí)間的角度對視頻內(nèi)容進(jìn)行精細(xì)控制。為了進(jìn)一步解決先前作品中缺乏開放域軌跡控制的問題,作者提出了Trajectory Sampler(TS)以實(shí)現(xiàn)對任意軌跡的開放域控制,Multiscale Fusion(MF)以在不同粒度上控制軌跡,并采用自適應(yīng)訓(xùn)練(AT)策略生成遵循軌跡的一致視頻。

聲音引導(dǎo)的視頻生成

AADiff 引入了將音頻和文本一起作為視頻合成的條件的概念。該方法首先使用專用編碼器分別對文本和音頻進(jìn)行編碼。然后,計(jì)算文本和音頻query之間的相似性,并選擇具有最高相似性的文本標(biāo)記。所選的文本標(biāo)記以prompt2prompt的方式用于編輯幀。這種方法使得可以生成與音頻同步的視頻,而無需額外的訓(xùn)練。


Generative Disco 是一個(gè)針對音樂可視化的文本到視頻生成的AI系統(tǒng)。該系統(tǒng)采用了一個(gè)包括大型語言模型和文本到圖像模型的流程來實(shí)現(xiàn)其目標(biāo)。


TPoS 將具有可變時(shí)間語義和大小的音頻輸入與LDM的基礎(chǔ)結(jié)合起來,以擴(kuò)展在生成模型中利用音頻模態(tài)的應(yīng)用。這種方法在客觀評估和用戶研究中表現(xiàn)出色,超越了廣泛使用的音頻到視頻基準(zhǔn),突顯了其卓越的性能。

圖像引導(dǎo)的視頻生成

成器訓(xùn)練來生成視頻運(yùn)動(dòng)。通過這種以運(yùn)動(dòng)為指導(dǎo)的方法,模型實(shí)現(xiàn)了在給定第一幀的情況下生成高質(zhì)量感知視頻的能力。


LFDM 利用條件圖像和文本進(jìn)行以人為中心的視頻生成。在初始階段,訓(xùn)練一個(gè)潛在流自編碼器來重構(gòu)視頻。此外,在中間步驟可以使用流預(yù)測器來預(yù)測流動(dòng)運(yùn)動(dòng)。隨后,在第二階段,使用圖像、流動(dòng)和文本提示作為條件來訓(xùn)練擴(kuò)散模型,生成連貫的視頻。


Generative Dynamics 提出了一種在圖像空間建模場景動(dòng)態(tài)的方法。它從展示自然運(yùn)動(dòng)的實(shí)際視頻序列中提取運(yùn)動(dòng)軌跡。對于單個(gè)圖像,擴(kuò)散模型通過一個(gè)頻率協(xié)調(diào)的擴(kuò)散采樣過程,在傅立葉域中為每個(gè)像素預(yù)測了長期運(yùn)動(dòng)表示。這個(gè)表示可以轉(zhuǎn)換成貫穿整個(gè)視頻的密集運(yùn)動(dòng)軌跡。當(dāng)與圖像渲染模塊結(jié)合時(shí),它能夠?qū)㈧o態(tài)圖像轉(zhuǎn)化為無縫循環(huán)的動(dòng)態(tài)視頻,促進(jìn)用戶與所描繪對象進(jìn)行逼真的交互。

brain導(dǎo)引的視頻生成

MinD-Video 是探索通過連續(xù)fMRI數(shù)據(jù)進(jìn)行視頻生成的開創(chuàng)性嘗試。該方法從將MRI數(shù)據(jù)與圖像和文本進(jìn)行對比學(xué)習(xí)開始。接下來,一個(gè)經(jīng)過訓(xùn)練的MRI編碼器替換了CLIP文本編碼器作為輸入進(jìn)行條件編碼。通過設(shè)計(jì)一個(gè)時(shí)間注意力模塊來建模序列動(dòng)態(tài),進(jìn)一步增強(qiáng)了模型。由此產(chǎn)生的模型能夠重構(gòu)具有精確語義、運(yùn)動(dòng)和場景動(dòng)態(tài)的視頻,超越了基準(zhǔn)性能,并在該領(lǐng)域設(shè)立了新的基準(zhǔn)。

深度引導(dǎo)的視頻生成

Make-Your-Video 采用了一種新穎的方法進(jìn)行文本深度條件視頻生成。它通過在訓(xùn)練過程中使用MiDas提取深度信息,并將其整合為一個(gè)條件因素。此外,該方法引入了因果關(guān)注掩碼,以促進(jìn)更長視頻的合成。與最先進(jìn)的技術(shù)進(jìn)行比較顯示出該方法在可控文本到視頻生成方面的優(yōu)越性,展示了更好的定量和定性性能。


Animate-A-Story 引入了一種創(chuàng)新的方法,將視頻生成分為兩個(gè)步驟。第一步是Motion Structure Retrieval,涉及根據(jù)給定的文本提示從大型視頻數(shù)據(jù)庫中檢索最相關(guān)的視頻。利用離線深度估計(jì)方法獲得這些檢索到的視頻的深度圖,然后作為運(yùn)動(dòng)引導(dǎo)。在第二步中,采用Structure-Guided Text-to-Video Synthesis來訓(xùn)練一個(gè)視頻生成模型,該模型由深度圖導(dǎo)出的結(jié)構(gòu)性運(yùn)動(dòng)進(jìn)行引導(dǎo)。這種兩步法使得可以基于定制文本描述創(chuàng)建個(gè)性化視頻。

多模態(tài)引導(dǎo)的視頻生成

VideoComposer 專注于以多模態(tài)為條件生成視頻,包括文本、空間和時(shí)間條件。具體而言,它引入了一個(gè)時(shí)空條件編碼器,允許各種條件的靈活組合。這最終使得可以整合多種模態(tài),如草圖、蒙版、深度和運(yùn)動(dòng)矢量。通過利用多模態(tài)的控制,VideoComposer實(shí)現(xiàn)了更高質(zhì)量的視頻和生成內(nèi)容中細(xì)節(jié)的改進(jìn)。


MM-Diffusion 是聯(lián)合音視頻生成的首次嘗試。為了實(shí)現(xiàn)多模態(tài)內(nèi)容的生成,它引入了一個(gè)包含兩個(gè)子網(wǎng)絡(luò)的分叉架構(gòu),分別負(fù)責(zé)視頻和音頻的生成。為了確保這兩個(gè)子網(wǎng)絡(luò)的輸出之間的一致性,設(shè)計(jì)了基于隨機(jī)位移的注意力塊來建立相互連接。除了具有無條件音視頻生成的能力外,《MM-Diffusion》還在視頻到音頻轉(zhuǎn)換方面展現(xiàn)了顯著的才華。


MovieFactory 致力于將擴(kuò)散模型應(yīng)用于電影風(fēng)格視頻的生成。它利用ChatGPT詳細(xì)闡述用戶提供的文本,為電影生成目的創(chuàng)建全面的順序腳本。此外,設(shè)計(jì)了一個(gè)音頻檢索系統(tǒng),為視頻提供配音。通過上述技術(shù),實(shí)現(xiàn)了生成多模態(tài)音頻-視覺內(nèi)容。


CoDi 提出了一種具有創(chuàng)建輸出模態(tài)多樣組合能力的新型生成模型,包括語言、圖像、視頻或音頻,可以從不同的輸入模態(tài)組合中生成。這是通過構(gòu)建一個(gè)共享的多模態(tài)空間實(shí)現(xiàn)的,通過在不同模態(tài)之間對齊輸入和輸出空間來促進(jìn)任意模態(tài)組合的生成。


NExT-GPT 呈現(xiàn)了一個(gè)端到端的、任意到任意的多模態(tài)LLM系統(tǒng)。它將LLM與多模態(tài)適配器和多樣的擴(kuò)散解碼器集成在一起,使系統(tǒng)能夠感知任意組合的文本、圖像、視頻和音頻輸入,并生成相應(yīng)的輸出。在訓(xùn)練過程中,它只微調(diào)了一個(gè)小的參數(shù)子集。此外,它引入了一個(gè)模態(tài)切換指令調(diào)整(MosIT)機(jī)制,并手動(dòng)策劃了一個(gè)高質(zhì)量的MosIT數(shù)據(jù)集。該數(shù)據(jù)集促進(jìn)了對復(fù)雜的跨模態(tài)語義理解和內(nèi)容生成能力的獲取。

無條件視頻生成

在這一部分,將深入探討了無條件視頻生成。這指的是生成屬于特定領(lǐng)域的視頻,而無需額外的條件。這些研究的焦點(diǎn)圍繞著視頻表示的設(shè)計(jì)和擴(kuò)散模型網(wǎng)絡(luò)的架構(gòu)。「基于U-Net的生成」:VIDM是無條件視頻擴(kuò)散模型的早期作品之一,后來成為重要的基準(zhǔn)方法之一。

它利用兩個(gè)流:內(nèi)容生成流用于生成視頻幀內(nèi)容,動(dòng)作流定義了視頻運(yùn)動(dòng)。通過合并這兩個(gè)流,生成一致的視頻。此外,作者使用位置分組歸一化(PosGN) 來增強(qiáng)視頻的連續(xù)性,并探索隱式運(yùn)動(dòng)條件(IMC)和PosGN的組合,以解決長視頻的生成一致性。


「類似于LDM的方法」:PVDM與LDM類似,首先訓(xùn)練一個(gè)自編碼器將像素映射到較低維度的潛在空間,然后在潛在空間中應(yīng)用擴(kuò)散去噪生成模型來合成視頻。這種方法既減少了訓(xùn)練和推斷的成本,同時(shí)又能保持令人滿意的生成質(zhì)量。


「針對駕駛場景視頻的生成」:GD-VDM主要專注于合成駕駛場景視頻。它首先生成深度圖視頻,其中場景和布局生成被優(yōu)先考慮,而細(xì)節(jié)和紋理則被抽象掉。然后,生成的深度圖作為條件信號被提供,用于進(jìn)一步生成視頻的其余細(xì)節(jié)。這種方法保留了出色的細(xì)節(jié)生成能力,特別適用于復(fù)雜的駕駛場景視頻生成任務(wù)。


「LEO方法」:LEO通過一系列流動(dòng)圖在生成過程中表示運(yùn)動(dòng),從而在本質(zhì)上將運(yùn)動(dòng)與外觀分離。它通過基于流動(dòng)圖的圖像動(dòng)畫器和潛在運(yùn)動(dòng)擴(kuò)散模型的組合實(shí)現(xiàn)人類視頻生成。前者學(xué)習(xí)從流動(dòng)圖到運(yùn)動(dòng)代碼的重構(gòu),而后者捕捉運(yùn)動(dòng)先驗(yàn)以獲取運(yùn)動(dòng)代碼。這兩種方法的協(xié)同作用使得能夠有效地學(xué)習(xí)人類視頻的相關(guān)性。此外,這種方法可以擴(kuò)展到無限長度的人類視頻合成和保持內(nèi)容的視頻編輯等任務(wù)。


「基于Transformer的生成」:與大多數(shù)基于U-Net結(jié)構(gòu)的方法不同,VDT是在Transformer架構(gòu)基礎(chǔ)上探索視頻擴(kuò)散模型的先驅(qū)者。利用Transformer的多功能可擴(kuò)展性,作者研究了各種時(shí)間建模方法。此外,他們將VDT應(yīng)用于多個(gè)任務(wù),如無條件生成和視頻預(yù)測。

視頻補(bǔ)全

視頻補(bǔ)全是視頻生成領(lǐng)域內(nèi)的一個(gè)關(guān)鍵任務(wù)。在接下來的章節(jié)中,將詳述視頻增強(qiáng)與恢復(fù)以及視頻預(yù)測的不同方面。

視頻增強(qiáng)與恢復(fù)

「CaDM」:CaDM引入了一種新穎的神經(jīng)增強(qiáng)視頻流傳遞范式,旨在顯著降低流傳遞比特率,同時(shí)與現(xiàn)有方法相比,保持明顯提升的恢復(fù)能力。首先,CaDM方法通過同時(shí)減小視頻流中的幀分辨率和顏色位深度,提高編碼器的壓縮效能。此外,CaDM通過使解碼器具備卓越的增強(qiáng)能力,賦予去噪擴(kuò)散恢復(fù)過程對編碼器規(guī)定的分辨率-顏色條件的認(rèn)知。


「LDMVFI」: LDMVFI是首次嘗試采用條件潛在擴(kuò)散模型方法來解決視頻幀插值(VFI)任務(wù)。為了利用潛在擴(kuò)散模型進(jìn)行VFI,該工作引入了一系列開創(chuàng)性的概念。值得注意的是,提出了一個(gè)專門用于視頻幀插值的自動(dòng)編碼網(wǎng)絡(luò),它集成了高效的自注意模塊,并采用基于可變形核的幀合成技術(shù),顯著提升了性能。


「VIDM」: VIDM利用預(yù)訓(xùn)練的LDM來解決視頻修復(fù)任務(wù)。通過為第一人稱視角的視頻提供一個(gè)mask,該方法利用了LDM的圖像補(bǔ)全先驗(yàn)來生成修復(fù)的視頻。

視頻預(yù)測

Seer: 專注于探索文本引導(dǎo)的視頻預(yù)測任務(wù)。它利用潛在擴(kuò)散模型(LDM)作為其基礎(chǔ)骨架。通過在自回歸框架內(nèi)整合時(shí)空注意力,以及實(shí)施幀順序文本分解模塊,Seer熟練地將文本到圖像(T2I)模型的知識先驗(yàn)轉(zhuǎn)移到視頻預(yù)測領(lǐng)域。這種遷移導(dǎo)致了顯著的性能提升,尤其在基準(zhǔn)測試中得到了顯著證明。


FDM:引入了一種新穎的層次抽樣方案,用于長視頻預(yù)測任務(wù)。此外,提出了一個(gè)新的CARLA數(shù)據(jù)集。與自回歸方法相比,該方法不僅更高效,而且產(chǎn)生了更優(yōu)秀的生成結(jié)果。

MCVD:采用概率條件評分為基礎(chǔ)的去噪擴(kuò)散模型,用于無條件生成和插值任務(wù)。引入的掩模方法能夠遮蔽所有過去或未來的幀,從而實(shí)現(xiàn)對過去或未來幀的預(yù)測。此外,它采用自回歸方法以塊狀方式生成可變長度的視頻。MCVD的有效性在各種基準(zhǔn)測試中得到驗(yàn)證,包括預(yù)測和插值任務(wù)。


LGC-VD:由于自回歸方法在生成長視頻時(shí)產(chǎn)生不切實(shí)際的結(jié)果的傾向,引入了一個(gè)局部-全局上下文引導(dǎo)的視頻擴(kuò)散模型,旨在包含多樣的感知條件。LGC-VD采用兩階段訓(xùn)練方法,并將預(yù)測錯(cuò)誤視為一種數(shù)據(jù)增強(qiáng)形式。這種策略有效地解決了預(yù)測錯(cuò)誤,并顯著增強(qiáng)了在長視頻預(yù)測任務(wù)背景下的穩(wěn)定性。


RVD (Residual Video Diffusion):采用了一種擴(kuò)散模型,該模型利用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的上下文向量作為條件生成殘差,然后將其添加到確定性的下一幀預(yù)測中。作者證明采用殘差預(yù)測比直接預(yù)測未來幀更有效。該工作與基于生成對抗網(wǎng)絡(luò)(GANs)和變分自動(dòng)編碼器(VAEs)的先前方法進(jìn)行了廣泛比較,為其有效性提供了實(shí)質(zhì)性的證據(jù)。

RaMViD: 采用3D卷積將圖像擴(kuò)散模型擴(kuò)展到視頻任務(wù)領(lǐng)域。它引入了一種新穎的條件訓(xùn)練技術(shù),并利用掩碼條件擴(kuò)展其適用范圍,包括視頻預(yù)測、填充和上采樣等各種完成任務(wù)。

基準(zhǔn)測試結(jié)果

本節(jié)對視頻生成任務(wù)的各種方法進(jìn)行了系統(tǒng)比較,分為零樣本和微調(diào)兩種不同的設(shè)置。對于每種設(shè)置,首先介紹它們常用的數(shù)據(jù)集。隨后,說明了每個(gè)數(shù)據(jù)集所使用的詳細(xì)評估指標(biāo)。最后,對這些方法在不同設(shè)置下的性能進(jìn)行了全面比較。

零樣本文本到視頻生成

「數(shù)據(jù)集:」 通用文本到視頻(T2V)方法,如Make-A-Video和 VideoLDM,主要在MSRVTT和UCF-101數(shù)據(jù)集上以零樣本方式進(jìn)行評估。MSRVTT是一個(gè)視頻檢索數(shù)據(jù)集,其中每個(gè)視頻剪輯都附有約20個(gè)自然語句的描述。通常,用于測試集中的2,990個(gè)視頻剪輯的文本描述被用作提示,以生成相應(yīng)的生成視頻。UCF-101 是一個(gè)包含101個(gè)動(dòng)作類別的動(dòng)作識別數(shù)據(jù)集。在T2V模型的上下文中,視頻通常是基于這些動(dòng)作類別的類別名稱或手動(dòng)設(shè)置的提示生成的。


「評估指標(biāo):」 在零樣本設(shè)置下進(jìn)行評估時(shí),通常使用MSRVTT數(shù)據(jù)集上的FVD 和FID指標(biāo)來評估視頻質(zhì)量。CLIPSIM用于衡量文本和視頻之間的對齊性。對于UCF-101數(shù)據(jù)集,典型的評估指標(biāo)包括Inception Score、FVD和FID,用于評估生成的視頻及其幀的質(zhì)量。


「結(jié)果比較:」 在下表3中,作者展示了當(dāng)前通用T2V方法在MSRVTT和UCF-101上的零樣本性能。作者還提供了關(guān)于它們的參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)、額外依賴項(xiàng)和分辨率的信息??梢杂^察到,依賴于ChatGPT或其他輸入條件的方法在性能上明顯優(yōu)于其他方法,并且使用額外數(shù)據(jù)通常會(huì)導(dǎo)致性能提升。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

微調(diào)視頻生成

數(shù)據(jù)集:微調(diào)視頻生成方法指的是在特定數(shù)據(jù)集上進(jìn)行微調(diào)后生成視頻。這通常包括無條件視頻生成和類條件視頻生成。主要關(guān)注三個(gè)特定的數(shù)據(jù)集:UCF-101 、Taichi-HD和 Time-lapse。這些數(shù)據(jù)集涉及不同的領(lǐng)域:UCF-101 集中在人類運(yùn)動(dòng)領(lǐng)域,Taichi-HD 主要包括太極拳視頻,而Time-lapse 主要包含天空的延時(shí)攝影鏡頭。此外,還有其他幾個(gè)可用的基準(zhǔn)測試,但作者選擇這三個(gè),因?yàn)樗鼈兪亲畛S玫摹?/p>


評估指標(biāo):在微調(diào)視頻生成任務(wù)的評估中,UCF-101數(shù)據(jù)集的常用指標(biāo)包括 IS Inception Score)和 FVD(Fréchet Video Distance)。對于Time-lapse和 Taichi-HD數(shù)據(jù)集,常見的評估指標(biāo)包括 FVD 和 KVD。


結(jié)果比較:在下表4中,展示了在基準(zhǔn)數(shù)據(jù)集上進(jìn)行微調(diào)的當(dāng)前最先進(jìn)方法的性能。同樣,提供了有關(guān)方法類型、分辨率和額外依賴項(xiàng)的進(jìn)一步細(xì)節(jié)。顯然,基于擴(kuò)散的方法相比傳統(tǒng)的GAN和自回歸Transformer方法具有顯著優(yōu)勢。此外,如果有大規(guī)模的預(yù)訓(xùn)練或類別條件,性能往往會(huì)進(jìn)一步提升。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

視頻編輯

隨著擴(kuò)散模型的發(fā)展,視頻編輯領(lǐng)域的研究研究呈指數(shù)增長。根據(jù)許多研究的共識,視頻編輯任務(wù)應(yīng)滿足以下標(biāo)準(zhǔn):

  1. 保真度:每一幀都應(yīng)在內(nèi)容上與原始視頻的相應(yīng)幀保持一致;
  2. 對齊:生成的視頻應(yīng)與輸入的控制信息對齊;
  3. 質(zhì)量:生成的視頻應(yīng)在時(shí)間上保持一致且質(zhì)量高。

雖然預(yù)訓(xùn)練的圖像擴(kuò)散模型可以通過逐幀處理來用于視頻編輯,但跨幀的語義一致性不足使得逐幀編輯視頻變得不可行,使視頻編輯成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。在這一部分,將視頻編輯分為三個(gè)類別:文本引導(dǎo)視頻編輯,模態(tài)引導(dǎo)視頻編輯和領(lǐng)域特定視頻編輯。視頻編輯的分類細(xì)節(jié)總結(jié)在下圖4中。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

文本引導(dǎo)視頻編輯

在文本引導(dǎo)視頻編輯中,用戶提供輸入視頻和描述所期望結(jié)果視頻屬性的文本提示。然而,與圖像編輯不同,文本引導(dǎo)視頻編輯帶來了幀一致性和時(shí)間建模的新挑戰(zhàn)??傮w而言,有兩種主要的基于文本的視頻編輯方法:

  1. 在大規(guī)模文本視頻配對數(shù)據(jù)集上訓(xùn)練T2V擴(kuò)散模型;
  2. 將預(yù)訓(xùn)練的T2I擴(kuò)散模型擴(kuò)展到視頻編輯;由于大規(guī)模文本視頻數(shù)據(jù)集難以獲取且訓(xùn)練T2V模型計(jì)算成本高昂,后者更受關(guān)注。為了捕捉視頻中的運(yùn)動(dòng),向T2I模型引入了各種時(shí)間模塊。然而,擴(kuò)展T2I模型的方法存在兩個(gè)關(guān)鍵問題:時(shí)間不一致,即編輯后的視頻在幀間呈現(xiàn)視覺上的閃爍;語義差異,即視頻未根據(jù)給定文本提示的語義進(jìn)行更改。一些研究從不同角度解決了這些問題。

基于訓(xùn)練的方法

基于訓(xùn)練的方法是指在大規(guī)模文本-視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,使其成為一個(gè)通用的視頻編輯模型。


「GEN-1」 提出了一種結(jié)構(gòu)和內(nèi)容感知的模型,該模型在時(shí)間、內(nèi)容和結(jié)構(gòu)一致性上提供了全面的控制。該模型引入了時(shí)間層到預(yù)訓(xùn)練的T2I模型中,并聯(lián)合對圖像和視頻進(jìn)行訓(xùn)練,實(shí)現(xiàn)了對時(shí)間一致性的實(shí)時(shí)控制。


「Dreamix」 的高保真度源于兩個(gè)主要?jiǎng)?chuàng)新:使用原始視頻的低分辨率版本初始化生成,并在原始視頻上進(jìn)行生成模型的微調(diào)。他們進(jìn)一步提出了一種混合微調(diào)方法,具有完全的時(shí)間注意力和時(shí)間注意力屏蔽,顯著提高了運(yùn)動(dòng)可編輯性。


「TCVE」 提出了一種Temporal U-Net,能有效捕捉輸入視頻的時(shí)間一致性。為了連接Temporal U-Net和預(yù)訓(xùn)練的T2I U-Net,作者引入了一個(gè)連貫的時(shí)空建模單元。


「Control-A-Video」 基于預(yù)訓(xùn)練的T2I擴(kuò)散模型,集成了一個(gè)時(shí)空自注意模塊和可訓(xùn)練的時(shí)間層。此外,他們提出了一種首幀調(diào)節(jié)策略(即基于第一幀生成視頻序列),使Control-A-Video能夠使用自回歸方法生成任意長度的視頻。與大多數(shù)同時(shí)在單一框架中建模外觀和時(shí)間表示的方法不同,MagicEdit 創(chuàng)新地將內(nèi)容、結(jié)構(gòu)和運(yùn)動(dòng)的學(xué)習(xí)分離,以實(shí)現(xiàn)高保真度和時(shí)間一致性。


「MagicProp」視頻編輯任務(wù)劃分為外觀編輯和運(yùn)動(dòng)感知外觀傳播,實(shí)現(xiàn)了時(shí)間一致性和編輯靈活性。他們首先從輸入視頻中選擇一幀,并將其外觀作為參考進(jìn)行編輯。然后,他們使用圖像擴(kuò)散模型自回歸生成目標(biāo)幀,受其前一幀、目標(biāo)深度和參考外觀的控制。

無訓(xùn)練方法

無訓(xùn)練方法涉及利用預(yù)訓(xùn)練的T2I或T2V模型,并以zero-shot方式進(jìn)行調(diào)整,以適應(yīng)視頻編輯任務(wù)。與基于訓(xùn)練的方法相比,無訓(xùn)練方法不需要昂貴的訓(xùn)練成本。然而,它們可能會(huì)遇到一些潛在的缺點(diǎn)。首先,在zero-shot方式編輯的視頻可能會(huì)產(chǎn)生時(shí)空失真和不一致性。此外,使用T2V模型的方法可能仍然會(huì)產(chǎn)生高昂的訓(xùn)練和推理成本。作者簡要檢查用于解決這些問題的技術(shù)。


「TokenFlow」 展示了通過在擴(kuò)散特征空間中強(qiáng)制實(shí)施一致性來實(shí)現(xiàn)編輯視頻的一致性。具體而言,通過對關(guān)鍵幀進(jìn)行采樣,聯(lián)合編輯它們,并基于原始視頻特征提供的對應(yīng)關(guān)系將特征傳播到所有其他幀,從而明確地保持原始視頻特征的一致性和細(xì)粒度共享表示。


「VidEdit」 結(jié)合了基于圖譜的方法和預(yù)訓(xùn)練的T2I模型,既具有高時(shí)空一致性,又能在視頻內(nèi)容外觀上提供對象級別的控制。該方法將視頻分解為帶有內(nèi)容語義統(tǒng)一表示的分層神經(jīng)圖譜,然后應(yīng)用預(yù)訓(xùn)練的、以文本驅(qū)動(dòng)的圖像擴(kuò)散模型進(jìn)行zero-shot圖譜編輯。同時(shí),通過在圖譜空間中編碼時(shí)空外觀和空間位置來保持結(jié)構(gòu)。


「Rerender-A-Video」 使用分層的跨幀約束來強(qiáng)制時(shí)空一致性。其關(guān)鍵思想是使用光流應(yīng)用密集的跨幀約束,先前渲染的幀作為當(dāng)前幀的低級參考,并首次渲染的幀作為錨點(diǎn),以保持樣式、形狀、紋理和顏色的一致性。


「FateZero」 通過在反演過程的每個(gè)階段存儲全面的注意力圖來解決圖譜學(xué)習(xí)和每個(gè)視頻調(diào)整的高昂成本問題,以保持卓越的運(yùn)動(dòng)和結(jié)構(gòu)信息。此外,它還整合了時(shí)空塊以增強(qiáng)視覺一致性。


「Vid2Vid-Zero」 利用一個(gè)null-text反演模塊來將文本與視頻對齊,一個(gè)空間正則化模塊用于視頻到視頻的一致性,以及一個(gè)跨幀建模模塊用于時(shí)態(tài)一致性。與FateZero 類似,它還包括一個(gè)時(shí)空注意模塊。


「Pix2Video」 初始使用預(yù)訓(xùn)練的結(jié)構(gòu)引導(dǎo)的T2I模型對錨定幀進(jìn)行文本引導(dǎo)編輯,確保生成的圖像保持對編輯提示的真實(shí)性。隨后,他們使用自注意特征注入逐漸傳播到未來幀的修改,保持時(shí)間一致性。


「InFusion」 由兩個(gè)主要組件組成:首先,它將解碼器層中的殘差塊和注意特征合并到編輯提示的去噪管道中,突出了其zero-shot編輯能力。其次,通過使用從交叉關(guān)注映射獲得的掩碼提取來合并已編輯和未編輯概念的關(guān)注,以確保一致性。


超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)


「EVE」 提出了兩種策略來強(qiáng)化時(shí)態(tài)一致性:深度圖引導(dǎo),用于定位移動(dòng)對象的空間布局和運(yùn)動(dòng)軌跡,以及幀對齊注意力,迫使模型同時(shí)關(guān)注先前幀和當(dāng)前幀。


「MeDM」 利用明確的光流來建立跨視頻幀的像素對應(yīng)關(guān)系的實(shí)用編碼,從而保持時(shí)態(tài)一致性。此外,他們使用從光流派生的提供的時(shí)態(tài)對應(yīng)關(guān)系指導(dǎo),迭代地對視頻幀中的嘈雜像素進(jìn)行對齊。


「Gen-L-Video」 通過將長視頻視為時(shí)序重疊的短視頻來探索長視頻編輯。通過提出的時(shí)序協(xié)同去噪方法,它將現(xiàn)成的短視頻編輯模型擴(kuò)展到處理包含數(shù)百幀的編輯視頻,同時(shí)保持一致性。


為了確保編輯后視頻的所有幀之間的一致性,F(xiàn)LATTEN 將光流整合到擴(kuò)散模型的注意機(jī)制中。提出的Flow-guided attention允許來自不同幀的補(bǔ)丁放置在注意模塊內(nèi)的相同流路徑上,從而實(shí)現(xiàn)相互關(guān)注并增強(qiáng)視頻編輯的一致性。

One-shot調(diào)整方法

使用特定視頻實(shí)例對預(yù)訓(xùn)練的T2I模型進(jìn)行微調(diào),從而能夠生成具有相似運(yùn)動(dòng)或內(nèi)容的視頻。雖然這需要額外的訓(xùn)練開銷,但與無訓(xùn)練方法相比,這些方法提供了更大的編輯靈活性。


「SinFusion」 先驅(qū)性的one-shot調(diào)整擴(kuò)散模型,可以從僅有的幾幀中學(xué)習(xí)單個(gè)輸入視頻的運(yùn)動(dòng)。其骨干是一個(gè)完全卷積的DDPM網(wǎng)絡(luò),因此可以用于生成任何大小的圖像。


「SAVE」 通過微調(diào)參數(shù)空間的譜偏移,使得學(xué)習(xí)輸入視頻的基本運(yùn)動(dòng)概念以及內(nèi)容信息。此外,它提出了一個(gè)譜偏移正則化器來限制變化。


「Edit-A-Video」 包含兩個(gè)階段:第一階段將預(yù)訓(xùn)練的T2I模型擴(kuò)展到T2V模型,并使用單個(gè)<文本,視頻>對進(jìn)行微調(diào),而第二階段是傳統(tǒng)的擴(kuò)散和去噪過程。一個(gè)關(guān)鍵觀察是編輯后的視頻往往受到背景不一致性的影響。為了解決這個(gè)問題,他們提出了一種稱為稀疏因果混合的屏蔽方法,該方法自動(dòng)生成一個(gè)掩碼來近似編輯區(qū)域。


「Tune-A-Video」 利用稀疏時(shí)空注意機(jī)制,該機(jī)制僅訪問第一幀和前一幀視頻,以及一種有效的調(diào)整策略,僅更新注意塊中的投影矩陣。此外,它在推斷時(shí)從輸入視頻中尋求結(jié)構(gòu)引導(dǎo),以彌補(bǔ)缺乏運(yùn)動(dòng)一致性的問題。


「Video-P2P」 不使用T2I模型,而是將其改變?yōu)槲谋镜郊夏P停═2S),通過用幀注意力替換自注意力,從而產(chǎn)生一個(gè)生成一組語義一致圖像的模型。此外,他們使用了一種解耦引導(dǎo)策略,以提高對提示更改的魯棒性。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

「StableVideo」 在現(xiàn)有的T2I模型和聚合網(wǎng)絡(luò)之上設(shè)計(jì)了一個(gè)幀間傳播機(jī)制,以從關(guān)鍵幀生成編輯后的圖集,從而實(shí)現(xiàn)時(shí)空一致性。

其他模態(tài)引導(dǎo)的視頻編輯

先前介紹的大多數(shù)方法都側(cè)重于文本引導(dǎo)的視頻編輯。在這一小節(jié)中,將重點(diǎn)關(guān)注由其他模態(tài)(例如,指令和聲音)引導(dǎo)的視頻編輯。

指令引導(dǎo)的視頻編輯

指令引導(dǎo)的視頻編輯旨在根據(jù)給定的輸入視頻和指令生成視頻。由于缺乏視頻-指令數(shù)據(jù)集,InstructVid2Vid 利用 ChatGPT、BLIP和 Tune-A-Video的聯(lián)合使用以相對較低的成本獲取輸入視頻、指令和編輯視頻的三元組。在訓(xùn)練過程中,他們提出了幀差異損失(Frame Difference Loss),引導(dǎo)模型生成具有時(shí)間一致性的幀。CSD首先使用 Stein 變分梯度下降(SVGD),其中多個(gè)樣本共享其從擴(kuò)散模型中知識蒸餾,以實(shí)現(xiàn)樣本間的一致性。然后,他們將協(xié)作分?jǐn)?shù)蒸餾(CSD)與 Instruct-Pix2Pix 結(jié)合起來,實(shí)現(xiàn)具有指令的多圖像的一致性編輯。

聲音引導(dǎo)的視頻編輯

聲音引導(dǎo)的視頻編輯旨在使視覺變化與目標(biāo)區(qū)域的聲音保持一致。為了實(shí)現(xiàn)這一目標(biāo),Soundini提出了局部聲音引導(dǎo)和擴(kuò)散采樣的光流引導(dǎo)。具體而言,音頻編碼器使聲音的潛在表示與潛在圖像表示在語義上保持一致?;跀U(kuò)散模型,SDVE引入了一個(gè)特征串聯(lián)機(jī)制以實(shí)現(xiàn)時(shí)間上的一致性。他們通過在殘差層中始終通過噪聲信號提供頻譜特征query來進(jìn)一步在網(wǎng)絡(luò)上進(jìn)行語音條件化。

運(yùn)動(dòng)引導(dǎo)的視頻編輯

受到視頻編碼過程的啟發(fā),VideoControlNet同時(shí)利用了擴(kuò)散模型和ControlNet。該方法將第一幀設(shè)置為 I 幀,其余幀分為不同的圖片組(GoP)。不同 GoP 的最后一幀被設(shè)置為 P 幀,而其他幀被設(shè)置為 B 幀。然后,對于給定的輸入視頻,模型首先基于輸入的 I 幀直接使用擴(kuò)散模型和ControlNet 生成 I 幀,然后通過運(yùn)動(dòng)引導(dǎo)的 P 幀生成模塊(MgPG)生成 P 幀,其中利用了光流信息。最后,B 幀是基于參考 I/P 幀和運(yùn)動(dòng)信息插值而來,而不是使用耗時(shí)的擴(kuò)散模型。

多模態(tài)視頻編輯

「Make-A-Protagonist」 提出了一個(gè)多模態(tài)的條件視頻編輯框架,用于更改主角。具體而言,他們利用BLIP-2進(jìn)行視頻字幕,使用CLIP Vision Model  和DALLE-2 Prior進(jìn)行視覺和文本線索編碼,以及使用ControlNet進(jìn)行視頻一致性。在推斷過程中,他們提出了一個(gè)基于mask的去噪采樣,結(jié)合專家實(shí)現(xiàn)無標(biāo)注的視頻編輯。「CCEdit」 為可控創(chuàng)意視頻編輯解耦了視頻結(jié)構(gòu)和外觀。它使用基礎(chǔ)的ControlNet保留視頻結(jié)構(gòu),同時(shí)通過文本提示、個(gè)性化模型權(quán)重和定制中心幀進(jìn)行外觀編輯。此外,提出的時(shí)間一致性模塊和插值模型可以無縫生成高幀率視頻。

領(lǐng)域特定的視頻編輯

在這一小節(jié)中,將簡要概述為特定領(lǐng)域量身定制的幾種視頻編輯技術(shù),從視頻著色和視頻風(fēng)格轉(zhuǎn)移方法開始,然后是為以人為中心的視頻設(shè)計(jì)的幾種視頻編輯方法。

著色和重塑

「著色」 涉及為灰度幀推斷合理且時(shí)間一致的顏色,這需要同時(shí)考慮時(shí)間、空間和語義的一致性以及顏色的豐富性和忠實(shí)度?;陬A(yù)訓(xùn)練的T2I模型,ColorDiffuser提出了兩種新穎的技術(shù):Color Propagation Attention 作為光流的替代,以及Alternated Sampling Strategy 用于捕捉相鄰幀之間的時(shí)空關(guān)系。「重塑」 Style-A-Video 設(shè)計(jì)了一種綜合的控制條件:用于樣式指導(dǎo)的文本,用于內(nèi)容指導(dǎo)的視頻幀,以及用于詳細(xì)指導(dǎo)的注意力圖。值得注意的是,該工作具有zero-shot訓(xùn)練,即無需額外的每個(gè)視頻訓(xùn)練或微調(diào)。

人類視頻編輯

「Diffusion Video Autoencoders」 提出了一種擴(kuò)散視頻自動(dòng)編碼器,從給定的以人為中心的視頻中提取單一的時(shí)間不變特征(ID)和每幀的時(shí)變特征(運(yùn)動(dòng)和背景),并進(jìn)一步操縱單一的不變特征以獲取所需的屬性,從而實(shí)現(xiàn)了時(shí)間一致的編輯和高效計(jì)算。


「Instruct-Video2Avatar」 為了滿足輕松創(chuàng)建高質(zhì)量3D場景的不斷增長的需求,Instruct-Video2Avatar采用了一種頭部視頻和編輯指令的方法,并輸出了一個(gè)編輯過的3D神經(jīng)頭像。他們同時(shí)利用Instruct-Pix2Pix進(jìn)行圖像編輯,EbSynth進(jìn)行視頻樣式化,以及INSTA用于照片逼真的3D神經(jīng)頭像。


「TGDM」 采用zero-shot訓(xùn)練的CLIP引導(dǎo)模型來實(shí)現(xiàn)靈活的情感控制。此外,他們提出了一個(gè)基于多條件擴(kuò)散模型的pipeline,以實(shí)現(xiàn)復(fù)雜的紋理和身份轉(zhuǎn)移。

視頻理解

除了在生成任務(wù)中的應(yīng)用,如視頻生成和編輯,擴(kuò)散模型還被應(yīng)用于基本的視頻理解任務(wù),如視頻時(shí)間分割,視頻異常檢測 ,文本-視頻檢索等,將在本節(jié)介紹。視頻理解的分類詳細(xì)信息總結(jié)下圖中。

超全兩萬字長文詳解視頻擴(kuò)散模型的最新進(jìn)展-AI.x社區(qū)

時(shí)間動(dòng)作檢測與分割

受到DiffusionDet的啟發(fā),DiffTAD探索了將擴(kuò)散模型應(yīng)用于時(shí)間動(dòng)作檢測任務(wù)。這涉及到對長視頻的真實(shí)proposal進(jìn)行擴(kuò)散,隨后學(xué)習(xí)去噪過程,通過在DETR架構(gòu)中引入專門的時(shí)間位置query來完成。值得注意的是,該方法在ActivityNet和THUMOS等基準(zhǔn)上取得了最先進(jìn)的性能結(jié)果。


類似地,DiffAct采用了一種可比較的方法來解決時(shí)間動(dòng)作分割任務(wù),其中動(dòng)作段從隨機(jī)噪聲中迭代生成,輸入視頻特征作為條件。該方法在廣泛使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,包括GTEA,50Salads和Breakfast。

視頻異常檢測

專注于無監(jiān)督視頻異常檢測,DiffVAD和CMR利用擴(kuò)散模型的重構(gòu)能力來識別異常視頻,因?yàn)楦咧貥?gòu)誤差通常表示異常。在兩個(gè)大規(guī)?;鶞?zhǔn)測試上進(jìn)行的實(shí)驗(yàn)證明了這種范例的有效性,因此相比之前的研究顯著提高了性能。MoCoDAD專注于基于骨架的視頻異常檢測。該方法應(yīng)用擴(kuò)散模型生成基于個(gè)體過去動(dòng)作的多樣且合理的未來動(dòng)作。通過對未來模式進(jìn)行統(tǒng)計(jì)聚合,當(dāng)生成的一組動(dòng)作偏離實(shí)際未來趨勢時(shí),就會(huì)檢測到異常。

文本-視頻檢索

DiffusionRet將檢索任務(wù)構(gòu)建為從噪聲生成聯(lián)合分布 p(candidates,query) 的逐步過程。在訓(xùn)練期間,生成器使用生成損失進(jìn)行優(yōu)化,而特征提取器則使用對比損失進(jìn)行訓(xùn)練。通過這種方式,DiffusionRet巧妙地結(jié)合了生成和判別方法的優(yōu)勢,在開放領(lǐng)域場景中取得了出色的性能,展示了其泛化能力。


MomentDiff和DiffusionVMR解決了視頻時(shí)刻檢索任務(wù),旨在識別與給定文本描述相對應(yīng)的視頻中的特定時(shí)間間隔。這兩種方法將實(shí)際時(shí)間間隔擴(kuò)展到隨機(jī)噪聲,并學(xué)會(huì)將隨機(jī)噪聲去噪回到原始時(shí)間間隔。這個(gè)過程使模型能夠?qū)W習(xí)從任意隨機(jī)位置到實(shí)際位置的映射,從而便于從隨機(jī)初始化中精確定位視頻片段。

視頻字幕生成

RSFD研究了視頻字幕生成中經(jīng)常被忽視的長尾問題。它提出了一種新的Refined Semantic enhancement approach for Frequency Diffusion (RSFD),通過不斷識別不常見token的語言表示來改善字幕生成。這使得模型能夠理解低頻token的語義,從而提高字幕生成的質(zhì)量。

視頻目標(biāo)分割

Pix2Seq-D將全景分割重新定義為離散數(shù)據(jù)生成問題。它采用基于模擬位的擴(kuò)散模型來建模全景掩碼,利用靈活的架構(gòu)和損失函數(shù)。此外,Pix2Seq-D可以通過整合先前幀的預(yù)測來建模視頻,從而實(shí)現(xiàn)對象實(shí)例跟蹤和視頻對象分割的自動(dòng)學(xué)習(xí)。

視頻姿態(tài)估計(jì)

DiffPose通過將視頻人體姿態(tài)估計(jì)問題制定為條件熱力圖生成任務(wù)來解決。在每個(gè)去噪步驟生成的特征的條件下,該方法引入了一個(gè)空間-時(shí)間表示學(xué)習(xí)器,該學(xué)習(xí)器聚合跨幀的視覺特征。此外,還提出了一種基于查找的多尺度特征交互機(jī)制,用于在局部關(guān)節(jié)和全局上下文之間創(chuàng)建多尺度的相關(guān)性。這種技術(shù)產(chǎn)生了關(guān)鍵點(diǎn)區(qū)域的精細(xì)表示。

音頻-視頻分離

DAVIS利用生成方法解決了音頻-視覺聲源分離任務(wù)。該模型利用擴(kuò)散過程從高斯噪聲中生成分離的幅度,條件是音頻混合和視覺內(nèi)容。由于其生成目標(biāo),DAVIS更適合實(shí)現(xiàn)跨不同類別的高質(zhì)量聲音分離。

動(dòng)作識別

DDA專注于基于骨架的人體動(dòng)作識別。該方法引入了基于擴(kuò)散的數(shù)據(jù)增強(qiáng),以獲取高質(zhì)量和多樣的動(dòng)作序列。它利用DDPMs生成合成的動(dòng)作序列,生成過程由空間-時(shí)間Transformer準(zhǔn)確引導(dǎo)。實(shí)驗(yàn)證明了這種方法在自然性和多樣性指標(biāo)方面的優(yōu)越性。此外,它證實(shí)了將合成的高質(zhì)量數(shù)據(jù)應(yīng)用于現(xiàn)有動(dòng)作識別模型的有效性。

視頻聲音跟蹤器

LORIS專注于生成與視覺提示的節(jié)奏同步的音樂配樂。該系統(tǒng)利用潛在條件擴(kuò)散概率模型進(jìn)行波形合成。此外,它還結(jié)合了上下文感知的條件編碼器,以考慮時(shí)間信息,促進(jìn)長期波形生成。作者還擴(kuò)展了模型的適用性,可以在各種體育場景中生成具有出色音樂質(zhì)量和節(jié)奏對應(yīng)性的長期音軌。

視頻過程規(guī)劃

PDPP專注于教學(xué)視頻中的過程規(guī)劃。該方法使用擴(kuò)散模型描繪整個(gè)中間動(dòng)作序列的分布,將規(guī)劃問題轉(zhuǎn)化為從該分布中進(jìn)行采樣的過程。此外,使用基于擴(kuò)散的U-Net模型提供了基于初始和最終觀察的準(zhǔn)確條件指導(dǎo),增強(qiáng)了對從學(xué)習(xí)的分布中采樣的動(dòng)作序列的學(xué)習(xí)。

挑戰(zhàn)與未來趨勢

盡管基于擴(kuò)散的方法在視頻生成、編輯和理解方面取得了顯著進(jìn)展,但仍存在一些值得探討的開放問題。在本節(jié)中,總結(jié)了當(dāng)前的挑戰(zhàn)和潛在的未來方向。


「大規(guī)模視頻文本數(shù)據(jù)集的收集」:文本到圖像合成取得的重大成就主要源于數(shù)十億高質(zhì)量(文本,圖像)對的可用性。然而,用于文本到視頻(T2V)任務(wù)的常用數(shù)據(jù)集相對較小,為視頻內(nèi)容收集同樣龐大的數(shù)據(jù)集是一項(xiàng)相當(dāng)具有挑戰(zhàn)性的工作。例如,WebVid數(shù)據(jù)集僅包含1000萬個(gè)實(shí)例,并且存在顯著缺陷,即分辨率較低,僅為360P,進(jìn)一步受到水印偽影的影響。盡管正在進(jìn)行獲取新數(shù)據(jù)集的方法的努力,但仍急需改進(jìn)數(shù)據(jù)集規(guī)模、注釋準(zhǔn)確性和視頻質(zhì)量。


「高效的訓(xùn)練和推理」:T2V模型的大量訓(xùn)練成本是一個(gè)重大挑戰(zhàn),一些任務(wù)需要使用數(shù)百個(gè)GPU。盡管方法(例如SimDA)已經(jīng)努力減輕訓(xùn)練費(fèi)用,但數(shù)據(jù)集規(guī)模和時(shí)間復(fù)雜性的挑戰(zhàn)仍然是一個(gè)關(guān)鍵問題。因此,研究更高效的模型訓(xùn)練和減少推理時(shí)間的策略是未來研究的有價(jià)值的方向。


「基準(zhǔn)和評估方法」:盡管存在用于開放域視頻生成的基準(zhǔn)和評估方法,但它們在范圍上相對有限。由于在文本到視頻(T2V)生成中缺乏生成視頻的真實(shí)標(biāo)準(zhǔn),現(xiàn)有的度量指標(biāo)(例如Fréchet Video Distance(FVD)和Inception Score(IS))主要強(qiáng)調(diào)生成視頻分布與真實(shí)視頻分布之間的差異。這使得很難擁有一個(gè)全面評估指標(biāo),準(zhǔn)確反映視頻生成的質(zhì)量。目前,相當(dāng)依賴用戶AB測試和主觀評分,這是一項(xiàng)費(fèi)時(shí)的工作,并可能因主觀性而存在偏見。未來構(gòu)建更貼合的評估基準(zhǔn)和度量方法也是一條有意義的研究途徑。


「模型容量不足」:盡管現(xiàn)有方法取得了顯著進(jìn)展,但由于模型容量的限制,仍然存在許多局限性。例如,視頻編輯方法在某些情況下往往會(huì)出現(xiàn)時(shí)間一致性失敗,例如用動(dòng)物替換人物。此外,觀察到在前面討論的大多數(shù)方法中,對象替換僅限于生成具有相似屬性的輸出。此外,為了追求高保真度,許多當(dāng)前基于T2I的模型使用原始視頻的關(guān)鍵幀。然而,由于現(xiàn)有圖像生成模型的固有限制,尚未解決在保持結(jié)構(gòu)和時(shí)間一致性的同時(shí)注入額外對象的問題。進(jìn)一步的研究和增強(qiáng)是解決這些局限性的關(guān)鍵。

結(jié)論

本調(diào)查深入探討了AIGC(AI生成內(nèi)容)時(shí)代的最新發(fā)展,重點(diǎn)關(guān)注了視頻擴(kuò)散模型。據(jù)知,這是這類調(diào)查的首次嘗試。全面概述了擴(kuò)散過程的基本概念、流行的基準(zhǔn)數(shù)據(jù)集和常用的評估方法。在此基礎(chǔ)上,全面回顧了100多種關(guān)注視頻生成、編輯和理解任務(wù)的作品,并根據(jù)它們的技術(shù)觀點(diǎn)和研究目標(biāo)進(jìn)行了分類。此外,在實(shí)驗(yàn)部分,詳細(xì)描述了實(shí)驗(yàn)設(shè)置,并在各種基準(zhǔn)數(shù)據(jù)集上進(jìn)行了公正的比較分析。最后,提出了視頻擴(kuò)散模型未來研究方向的幾個(gè)建議。


本文轉(zhuǎn)自 AI生成未來  ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/sScqhCWZMOelsS6LEoaqLA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦