自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA! 精華

發(fā)布于 2024-8-21 09:47
瀏覽
0收藏

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.08189
項目鏈接:https://360cvgroup.github.io/FancyVideo/

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

亮點直擊

  • 本文介紹了FancyVideo,據(jù)眾所知的首個探索T2V任務(wù)中跨幀文本指導(dǎo)的開創(chuàng)性嘗試。該方法為增強當(dāng)前的文本控制方法提供了新的視角。
  • 本文提出了跨幀文本指導(dǎo)模塊(CTGM),該模塊構(gòu)建跨幀文本條件,并隨后以強大的時間合理性引導(dǎo)潛在特征的建模。它可以有效地增強視頻的運動性和一致性。
  • 本文證明了結(jié)合跨幀文本指導(dǎo)是一種實現(xiàn)高質(zhì)量視頻生成的有效方法。實驗表明,該方法在定量和定性評估中均取得了最先進的結(jié)果。


合成動作豐富且時間一致的視頻在人工智能領(lǐng)域仍然是一項挑戰(zhàn),尤其是在處理較長時間的視頻時?,F(xiàn)有的文本到視頻(T2V)模型通常使用空間交叉注意力來實現(xiàn)文本控制,這等效于在沒有針對特定幀的文本指導(dǎo)的情況下引導(dǎo)不同幀的生成。因此,模型理解提示中所傳達的時間邏輯并生成具有連貫動作的視頻的能力受到限制。


為了解決這一局限性,本文引入了FancyVideo,一種創(chuàng)新的視頻生成器,它通過精心設(shè)計的跨幀文本指導(dǎo)模塊(CTGM)改進了現(xiàn)有的文本控制機制。具體來說,CTGM在交叉注意力的開始、中間和結(jié)束分別加入了時間信息注入器(TII)、時間相關(guān)性精煉器(TAR)和時間特征增強器(TFB),以實現(xiàn)幀特定的文本指導(dǎo)。首先,TII將幀特定的信息從潛在特征中注入到文本條件中,從而獲得跨幀文本條件。然后,TAR在時間維度上優(yōu)化跨幀文本條件和潛在特征之間的相關(guān)矩陣。最后,TFB增強了潛在特征的時間一致性。大量的實驗,包括定量和定性評估,證明了FancyVideo的有效性。本文的方法在EvalCrafter基準(zhǔn)測試中實現(xiàn)了最先進的T2V生成結(jié)果,并促進了動態(tài)且一致的視頻的合成。

方法

預(yù)備知識

潛在擴散模型:潛在擴散模型(LDMs)是一類高效的擴散模型,它將去噪過程轉(zhuǎn)換到壓縮的潛在空間中,而不是像素空間中。具體來說,LDMs使用VAE的編碼器將圖像壓縮為潛在編碼,并通過在潛在編碼上執(zhí)行正向和反向擴散過程來學(xué)習(xí)數(shù)據(jù)分布。它假設(shè)一個正向過程,逐漸將高斯噪聲(? ~ N(0, I))引入潛在編碼(z)中,得到:

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

模型架構(gòu)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

跨幀文本指導(dǎo)模塊

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

實驗

定量實驗:在定量實驗中,F(xiàn)ancyVideo利用T2I基礎(chǔ)模型生成作為第一幀的圖像。在定性實驗中,為了美學(xué)目的和去除水印,使用了一個外部模型來生成美麗的第一幀。


定性評估:研究者們選擇了AnimateDiff、DynamiCrafter以及兩個商業(yè)化產(chǎn)品,Pika和Gen2,進行綜合定性分析。值得注意的是,在定量實驗中,F(xiàn)ancyVideo的第一幀由SDXL生成,以獲得更具美學(xué)效果的結(jié)果并盡量減少水印的出現(xiàn)(盡管后續(xù)幀可能仍會顯示水?。?。如下圖4所示,本文的方法展現(xiàn)了卓越的性能,在時間一致性和動作豐富性方面超過了先前的方法。相比之下,AnimateDiff、DynamiCrafter和Gen2生成的視頻動作較少。Pika在生成物體一致性和高質(zhì)量視頻幀方面存在困難。值得注意的是,本文的方法能夠準(zhǔn)確理解文本提示中的動作指令(例如,“一只泰迪熊走路...美麗的日落”和“一只泰迪熊跑步...城市”的案例)。

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

定量評估:為了與最先進的方法進行全面比較,采用了三個流行的基準(zhǔn)測試(例如,EvalCrafter、UCF-101和MSR-VTT以及人工評估來評估視頻生成的質(zhì)量。其中,EvalCrafter是目前相對全面的視頻生成基準(zhǔn)。UCF-101和MSR-VTT是先前方法中常用的基準(zhǔn)。同時,人工評估可以彌補現(xiàn)有文本條件視頻生成評估系統(tǒng)中的不準(zhǔn)確性。


EvalCrafter基準(zhǔn)測試:EvalCrafter從四個方面(包括視頻質(zhì)量、文本視頻對齊、動作質(zhì)量和時間一致性)定量評估文本到視頻生成的質(zhì)量。每個維度包含多個子類別的指標(biāo),如下表1所示。正如社區(qū)討論中提到的,作者承認(rèn)原始的綜合指標(biāo)計算方式是不適當(dāng)?shù)?。為了更直觀的比較,通過考慮每個子指標(biāo)的數(shù)值規(guī)模和正負(fù)屬性,引入了每個方面的綜合指標(biāo)。有關(guān)綜合指標(biāo)的詳細(xì)信息可以在補充材料中找到。

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

具體來說,比較了先前視頻生成SOTA方法的性能(例如,Pika、Gen2、Show-1、ModelScope、DynamiCrafter和AnimateDiff),并展示在上表1中。本文的方法在視頻質(zhì)量和文本視頻對齊方面表現(xiàn)出色,超過了現(xiàn)有方法。盡管Show-1在動作質(zhì)量方面表現(xiàn)最佳(81.56),但其視頻質(zhì)量較差(僅為85.08)。這表明它無法生成具有合理動作的高質(zhì)量視頻。然而,本文的方法在動作質(zhì)量(72.99)方面排名第二,在視頻質(zhì)量(177.72)方面表現(xiàn)最佳,實現(xiàn)了質(zhì)量與動作之間的權(quán)衡。以上結(jié)果表明FancyVideo的優(yōu)越性及其生成時間一致和動作準(zhǔn)確的視頻的能力。


UCF-101 & MSR-VTT:根據(jù)先前的工作,研究者們在UCF-101和MSR-VTT上評估了零-shot生成性能,如下表2所示。使用Frechet視頻距離(FVD)、Inception評分(IS)、Frechet Inception距離(FID)和CLIP相似度(CLIPSIM)作為評估指標(biāo),并與一些當(dāng)前的SOTA方法進行了比較。FancyVideo取得了競爭力的結(jié)果,特別是在IS和CLIPSIM上表現(xiàn)優(yōu)異,分別為43.66和0.3076。此外,先前的研究指出這些指標(biāo)不能準(zhǔn)確反映人類感知,并受到訓(xùn)練和測試數(shù)據(jù)分布之間差距以及圖像低級細(xì)節(jié)的影響。

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

人工評估:受到EvalCrafter的啟發(fā),引入了一種多候選排名協(xié)議,涵蓋四個方面:視頻質(zhì)量、文本視頻對齊、動作質(zhì)量和時間一致性。在該協(xié)議中,參與者對每個方面的多個候選模型的結(jié)果進行排名。每個候選模型根據(jù)其排名獲得一個分?jǐn)?shù)。例如,如果有N個候選模型按視頻質(zhì)量排名,第一個模型得到N?1分,第二個模型得到N?2分,以此類推,最后一個模型得到0分。遵循這一協(xié)議,從EvalCrafter驗證集中選擇了108個樣本,并收集了100名個體的評判。如下圖5所示,本文的方法在所有四個方面顯著優(yōu)于包括AnimateDiff、Pika和Gen2在內(nèi)的文本到視頻轉(zhuǎn)換方法。FancyVideo展現(xiàn)了卓越的動作質(zhì)量,同時保持了優(yōu)越的文本視頻一致性。此外,還對四種圖像到視頻的方法進行了類似的比較,包括DynamiCrafter、Pika和Gen2,如下圖5所示。

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

消融研究:研究者們進行了實驗并展示了在EvalCrafter上的視覺比較,以探討CTGM中關(guān)鍵設(shè)計的效果。具體而言,消融組件包括三個核心模塊(TII、TAR和TFB)。如下表3所示,TAR可以有效提升兩個指標(biāo)的性能,表明時間精煉注意力圖操作對視頻生成是有益的。持續(xù)插入TFB和TII進一步提升了生成器的性能,這歸因于精煉的潛在特征和幀級個性化文本條件。同時,定性分析包含在附錄中。

360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實現(xiàn)動態(tài)且一致的視頻生成SOTA!-AI.x社區(qū)

結(jié)論

本文提出了一種新的視頻生成方法,名為FancyVideo,它通過跨幀文本指導(dǎo)優(yōu)化了常見的文本控制機制(如空間交叉注意力)。它通過精心設(shè)計的跨幀文本指導(dǎo)模塊(CTGM)改進了交叉注意力,實現(xiàn)了針對視頻生成的時間特定文本條件指導(dǎo)。綜合的定性和定量分析表明,該方法能夠生成更具動態(tài)性和一致性的視頻。隨著幀數(shù)的增加,這一特點變得更加明顯。本文的方法在EvalCrafter基準(zhǔn)測試和人工評估中取得了最先進的結(jié)果。


本文轉(zhuǎn)自 AI生成未來 ,作者:Ao Ma等


原文鏈接:??https://mp.weixin.qq.com/s/V7dkkm-g_AEx7hkwddt08A??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦