基于CogVideoX-2B,視覺一致和語義對齊超越最新SOTA!南洋理工等發(fā)布RepVideo
文章鏈接:https://arxiv.org/pdf/2501.08994
項目鏈接:https://vchitect.github.io/RepVid-Webpage
亮點直擊
- 研究了視頻擴散模型中的transformer表示,揭示了各層注意力圖的顯著變化導(dǎo)致了空間語義的碎片化和時間一致性的降低,這對視頻質(zhì)量產(chǎn)生了負面影響。
- 提出了RepVideo,一個利用特征緩存模塊和門控機制來聚合和穩(wěn)定中間表示的框架,增強了空間細節(jié)和時間一致性。
- 大量實驗表明,RepVideo在時間一致性和空間質(zhì)量方面都取得了競爭力的表現(xiàn),驗證了其在視頻生成中的有效性。
總結(jié)速覽
解決的問題
視頻生成中,生成具有時空一致性和高質(zhì)量空間細節(jié)的視頻非常復(fù)雜且具有挑戰(zhàn)性?,F(xiàn)有的研究主要集中在模型訓(xùn)練的擴展上,缺乏對表示直接影響視頻生成過程的深入研究。特別是在生成的視頻中,隨著模型層數(shù)的增加,注意力圖在不同層之間差異顯著,導(dǎo)致特征表示不穩(wěn)定,影響了時序一致性,最終降低了相鄰幀之間的相似性,影響了視頻生成的質(zhì)量。
提出的方案
本文提出了一個增強的視頻表示框架——RepVideo,用于文本到視頻的擴散模型。該方法通過累積相鄰層的特征來形成增強的表示,從而捕捉到更穩(wěn)定的語義信息。這些增強的表示被用作注意力機制的輸入,從而提高語義表達能力,同時確保相鄰幀之間的特征一致性。
應(yīng)用的技術(shù)
- 特征緩存模塊:該模塊聚合來自多個相鄰 transformer 層的特征,通過對所有收集的特征進行均值聚合,獲得穩(wěn)定的語義表示。
- 門控機制:將聚合后的表示與原始 transformer 輸入結(jié)合,以生成每個 transformer 層的增強特征輸入。
- 擴展 transformer 注意力機制:利用不同層之間的特征差異來豐富視頻的語義一致性和空間細節(jié)。
達到的效果
- 時序一致性:通過穩(wěn)定的語義表示,RepVideo 能夠保持相鄰幀之間的特征一致性,緩解相鄰幀之間的不一致性,從而提升視頻的時序一致性。
- 空間細節(jié):增強的特征輸入提高了模型生成細節(jié)的能力,使得生成的視頻在空間上更加細致,能夠準確捕捉復(fù)雜的空間關(guān)系。
- 視頻質(zhì)量提升:實驗結(jié)果表明,RepVideo 在定性和定量指標上均顯著提升了時序一致性和空間細節(jié)生成,生成的視頻更加一致和高質(zhì)量。
方法
重新思考視頻擴散模型的表示
最近,擴散Transformer在文本到視頻生成中取得了顯著成功,如 CogVideoX 和 MovieGen。這些方法通常由三個核心組件組成:一個 3D VAE、文本編碼器和Transformer網(wǎng)絡(luò),如下圖 2 所示。3D VAE 用于沿空間和時間維度壓縮視頻數(shù)據(jù),生成緊湊的潛在表示,從而能夠高效處理更高的視頻分辨率和更多的幀數(shù),同時顯著減少 GPU 內(nèi)存使用。文本編碼器處理輸入文本提示,將其轉(zhuǎn)換為一組嵌入,捕捉語義信息并指導(dǎo)整個視頻生成過程。
然后,視頻的隱空間表示被展平成一個標記序列,與文本嵌入標記一起輸入到Transformer網(wǎng)絡(luò)中。通過利用Transformer強大的注意力機制,它可以學(xué)習(xí)視頻序列中的復(fù)雜空間和時間關(guān)系,確保生成的幀既連貫、一致,又與文本提示提供的語義信息對齊。通過整合這些組件,基于擴散Transformer的模型在生成高分辨率、長時長的視頻方面顯示出顯著的改進,這些視頻不僅在時間上一致,而且在語義上與輸入提示對齊。盡管取得了這些進展,大多數(shù)研究主要集中在擴展模型訓(xùn)練上,如增加模型大小、訓(xùn)練數(shù)據(jù)集規(guī)模和計算資源,同時對中間表示如何直接影響視頻生成過程提供的見解較少。這種對擴展的側(cè)重忽視了理解和優(yōu)化內(nèi)部特征表示的潛在好處,而這些優(yōu)化可能導(dǎo)致更高效且連貫的視頻生成,而不僅僅依賴于增加模型容量。
為了全面理解中間表示在視頻生成中的作用,深入分析了視頻擴散模型中Transformer表示,特別關(guān)注它們對空間表現(xiàn)力和時間一致性的影響。我們首先分析了跨Transformer層的注意力圖的空間表現(xiàn)力。如上圖 2 所示,最近的模型將視頻潛在標記和文本嵌入標記整合成一個統(tǒng)一的標記序列,然后通過Transformer使用全注意力機制處理這些標記之間的關(guān)系。為了理解注意力圖中的哪些區(qū)域?qū)φZ義信息有貢獻,可視化了每一幀標記在整個標記序列中的注意力分布,如下圖 3 所示。結(jié)果顯示,不同層之間的注意力分布存在顯著差異,每一層關(guān)注的區(qū)域不同,學(xué)習(xí)到的特征方面也有所不同。此外,發(fā)現(xiàn)隨著層深的增加,與每一幀的標記相對應(yīng)的注意力越來越集中于同一幀的標記,而對其他幀標記的注意力較弱。
這一觀察表明,僅分析每一幀標記的注意力圖能夠有效地表示序列的整體注意力特征。因此,可以專注于單個幀標記的自注意力圖,以捕捉關(guān)鍵的全局注意力特征,從而簡化分析,同時仍然提供有意義的洞察,揭示注意力如何在視頻中的不同空間和時間區(qū)域之間分布。如下圖 4 所示,我們可視化了不同層級下單幀標記的注意力圖??梢暬Y(jié)果表明,不同層的注意力圖顯示出顯著的差異,每一層關(guān)注不同的區(qū)域并捕捉不同的特征信息。隨著網(wǎng)絡(luò)深度的增加,這些注意力機制也導(dǎo)致了特征的逐步區(qū)分。雖然這使得模型能夠捕捉多樣的空間特征,但由于層與層之間缺乏協(xié)調(diào),導(dǎo)致特征表示的碎片化,削弱了模型在單一幀內(nèi)形成連貫空間語義的能力。
基于此,擴展了調(diào)查,分析了這些注意力機制如何影響時間一致性。分析了Transformer層之間相鄰幀特征的相似度演變,因為這種相似度是時間一致性的關(guān)鍵指標。下圖 5 可視化了不同擴散層中相鄰幀特征在不同去噪步驟下的平均相似度。分析揭示了兩個關(guān)鍵觀察結(jié)果。首先,對于給定的去噪步驟,隨著層深的增加,相鄰幀特征的相似度減小。這表明,深層引入了越來越多的多樣化特征,導(dǎo)致幀特征之間的差異化。其次,在比較不同去噪步驟時,相鄰幀之間的相似度隨著去噪過程的推進而減小。例如,在較早的步驟(例如步驟 5)中,平均相似度較高,但在較晚的步驟(例如步驟 5)中逐漸減小。這一趨勢表明,盡管去噪過程為視頻特征增添了更多多樣的語義內(nèi)容,但它也增加了相鄰幀之間的變異性,從而降低了時間一致性,并可能在生成的視頻中引入運動偽影。
增強的視頻擴散模型表示
本文提出了 RepVideo,一個簡單而有效的框架,利用豐富的中間表示來增強文本到視頻擴散模型中的視頻生成。本文的方法靈感來自最近在擴散模型中結(jié)合多個文本編碼器的進展,如 FLUX 和 MovieGen。這些方法通過使用多個編碼器來捕捉不同層次的信息(如語義層級和字符層級的理解),增強了模型對文本提示的解讀能力,從而改善了生成內(nèi)容與文本描述之間的對齊。RepVideo 基于這一思想,旨在創(chuàng)建更豐富的視頻表示,從而最終提高生成視頻的時間一致性和語義對齊。
為了實現(xiàn)這一目標,探索利用擴散Transformer中固有的豐富特征來增強生成視頻的語義一致性和質(zhì)量。這種方法消除了引入額外網(wǎng)絡(luò)的需要,如同在文本編碼器中所做的那樣,從而保持了模型的簡潔性和計算效率。首先,我們在Transformer中引入了一個特征緩存模塊,如下圖 8 所示。該模塊允許每個Transformer層將其輸出的標記序列存儲在緩存中,使得特征緩存模塊能夠聚合來自多個相鄰Transformer層的特征。
按如下方式存儲第 l 層Transformer的輸出標記序列:
通過合并這些特征,可以實現(xiàn)更加語義豐富的表示。在下圖 6 中,展示了標準Transformer層生成的原始特征圖與在特征緩存模塊中進行特征聚合后獲得的特征圖之間的比較??梢杂^察到,聚合后的特征捕捉了更多的語義信息,并展示了更清晰的結(jié)構(gòu)信息。
此外,下圖 7 顯示了兩組表示的相鄰幀特征之間的相似性。分析結(jié)果揭示,來自特征緩存模塊的聚合特征在相鄰幀之間表現(xiàn)出比原始Transformer層更高的相似性。這表明,集成多層特征不僅豐富了語義信息,而且在整個幀之間保持了更強的時間一致性,這在減少的變異性和改進的相鄰幀對齊中得到了體現(xiàn)。
為了利用這種增強的表示來提升原始Transformer特征,通過門控機制將聚合后的特征與原始輸入結(jié)合:
通過使用這種增強的輸入,RepVideo 提升了擴散模型在文本輸入與生成視頻之間保持一致性的能力,從而實現(xiàn)了更平滑的過渡、更大的語義一致性,并整體提高了視頻質(zhì)量。
訓(xùn)練
為了評估 RepVideo 引入的增強表示的有效性,基于 CogVideoX-2B實現(xiàn)了本文的模型。之所以選擇這個基準模型,是因為它擁有強大的架構(gòu),并在文本到視頻生成任務(wù)中表現(xiàn)出色,為比較提供了堅實的基礎(chǔ)。訓(xùn)練過程經(jīng)過精心設(shè)計,以確?;鶞屎臀覀兲岢龅姆椒ㄖg的公平性和一致性。
數(shù)據(jù)準備
由于 CogVideoX-2B 已經(jīng)在大規(guī)模視頻語料庫上進行了預(yù)訓(xùn)練,構(gòu)建了一個定制的內(nèi)部數(shù)據(jù)集來進行微調(diào)。該數(shù)據(jù)集來自高質(zhì)量平臺,并經(jīng)過嚴格的預(yù)處理管道,以確保多樣性和質(zhì)量。首先,將長視頻分割成較短的可管理片段,以強調(diào)重點事件或動作。然后,將相關(guān)片段鏈接在一起,形成一致的事件序列,確??鐜臄⑹乱恢滦?。為了進一步精煉數(shù)據(jù)集,應(yīng)用了靜態(tài)視頻過濾,以排除缺乏顯著運動的片段,確保突出動態(tài)內(nèi)容。
此外,進行美學(xué)評分,根據(jù)預(yù)定義標準評估視覺質(zhì)量,優(yōu)先考慮高質(zhì)量和語義豐富的視頻輸入。動態(tài)估計被用于分析運動模式和整體片段動態(tài),增強數(shù)據(jù)集對以運動為中心的視頻生成的相關(guān)性。還應(yīng)用了水印分類器,檢測并標注含有可見水印的視頻,保持訓(xùn)練數(shù)據(jù)的完整性和可用性。這個全面的數(shù)據(jù)準備過程最終生成了一個高質(zhì)量的數(shù)據(jù)集,包含了100萬條帶有詳細字幕的標注視頻,覆蓋了多種類目。
訓(xùn)練設(shè)置
增強表示實現(xiàn)
RepVideo 的核心創(chuàng)新在于其通過聚合中間Transformer輸出生成穩(wěn)定和語義豐富的表示,從而提高了空間忠實度和時間一致性。這是通過引入特征緩存模塊實現(xiàn)的,該模塊跨每m個Transformer層聚合特征。通過聚合相鄰層的特征,模塊有效地捕獲了語義細節(jié),同時減少了幀間的不一致性。實證評估表明,設(shè)置m=6提供了計算效率和性能改進之間的最佳平衡。除非另有說明,實驗中默認使用m=6 。
為了將這些增強的表示集成到Transformer層中,引入了門控機制。該機制動態(tài)地將聚合的特征與原始Transformer輸出結(jié)合,使用一個可學(xué)習(xí)的參數(shù)來控制它們的相對影響。
所提出的聚合和門控機制是輕量級的,增加的參數(shù)和計算開銷極小。在訓(xùn)練過程中,這些機制顯著提高了空間一致性、時間一致性和語義對齊,最終生成了更平滑、視覺效果更好的視頻輸出。
實驗
為了全面評估本文提出的框架的有效性,進行了涵蓋定量和定性分析的綜合實驗。這些實驗旨在評估 RepVideo 在多個指標上的表現(xiàn),包括空間忠實度、時間一致性和與文本提示的語義對齊。特別地,我們通過在自動化指標和人工偏好評估中將本文的模型與最先進的方法進行基準比較,提供了對其優(yōu)勢的全面視角。實驗分為三個部分:1) 自動評估:使用 VBench 中提供的定量指標,客觀地比較 RepVideo 的性能與現(xiàn)有模型。2) 人工評估:人工評估者根據(jù)與提示的對齊、時間平滑度和逐幀質(zhì)量評估生成的視頻,提供互補視角。3) 消融研究:詳細分析 RepVideo 設(shè)計的貢獻,分析空間和時間一致性的改進。以下部分深入探討了這些評估,突出了我們方法的優(yōu)勢和潛在改進領(lǐng)域。
自動評估
定量評估
為了評估本文模型的性能,采用了 VBench 提供的所有指標。如下表 I 所示,報告了總分以及幾個代表性的指標。具體來說,運動平滑度評估生成視頻的時間穩(wěn)定性,而物體類別和多物體則衡量生成多樣化且定義良好的視覺元素的能力。此外,空間關(guān)系評估物體定位和交互的一致性。
與基準模型 CogVideoX-2B 相比,本文的模型 RepVideo-2B 在總分上取得了更優(yōu)的結(jié)果。值得注意的是,本文的模型在運動平滑度上提高了 0.4%,在物體類別上提高了 4.46%,突出了其在保持時間一致性和生成細致物體細節(jié)方面的能力。此外,RepVideo 在空間關(guān)系 (+4.84%) 和多物體 (+8.55%) 上也取得了顯著的提升,展示了增強的空間一致性和強大的處理復(fù)雜物體交互的能力。
定性評估
下圖 9 提供了本文方法與基準模型 CogVideoX-2B 的定性比較,展示了本文模型取得的顯著改進。本文方法生成的結(jié)果呈現(xiàn)在第二列,基準模型的輸出則顯示在第一列。顯而易見,本文的方法生成了更加視覺一致且語義準確的視頻,捕捉到了提供提示中的空間和時間關(guān)系。例如,在提示“幾只金毛尋回犬幼犬在雪地里玩耍,它們的頭從雪地里冒出來,覆蓋著……”下,本文的模型保持了時間一致性,確保了幼犬在不同幀之間外觀和動作的一致性。相比之下,基準模型的表現(xiàn)不穩(wěn)定,導(dǎo)致了偽影和不一致性。
在提示“日落時分的寧靜海灘場景”中,本文的方法有效地捕捉了日落的平滑運動和空間精度,而基準模型無法理解日落。同樣,對于提示“一個樹木茂盛、綠色葉片密集的單棵樹,顯著地站立在復(fù)雜電路板的中央”,本文的方法保持了精細的細節(jié)和空間對齊,而基準模型則顯示出明顯的抖動和空間不一致性。最后,在提示“一個擁有鮮艷橙色頭部、黃色身體、綠色翅膀和尾巴的鸚鵡”下,本文的模型確保了鮮艷的色彩和平滑的過渡,保持了時間穩(wěn)定性?;鶞誓P蛣t未能生成連貫的運動,導(dǎo)致了視覺失真。這些定性結(jié)果突顯了我們提出的 RepVideo 框架在生成具有增強時間一致性和空間忠實度的高質(zhì)量視頻方面的優(yōu)勢。
人工評估
除了自動評估外,本文還進行了全面的人工評估,以評估本文的模型相較于最先進方法的表現(xiàn)。人工評估者展示了不同模型生成的視頻對,且每對視頻都基于相同的文本提示進行條件化。評估者根據(jù)三個關(guān)鍵標準,獨立評估并選擇他們偏好的視頻:視頻與文本的對齊、時間一致性和空間外觀。這些標準來源于 VBench 中的維度設(shè)計,確保了標準化和嚴格的評估過程。
評估包括了兩個模型:本文提出的 RepVideo 和 CogVideoX-2B。對于每個標準,評估者在本文模型和競爭方法生成的視頻之間進行了 50 次配對比較。
如下表 II 所總結(jié),本文的模型在所有三個指標上都取得了超過 50% 的平均勝率,證明了其在生成具有更高語義對齊、更平滑時間過渡和更高視覺質(zhì)量的視頻方面的優(yōu)勢。這些結(jié)果強調(diào)了本文框架中引入的增強表示的有效性,正如人工評估者明顯表現(xiàn)出的偏好所證明的那樣。
消融實驗
為了驗證本文提出的方法的有效性,進行了兩項實驗,突出展示了RepVideo如何改善空間外觀和時間一致性。這些評估結(jié)合了定性可視化和定量指標,展示了我們方法的優(yōu)勢。
RepVideo如何改善空間外觀下圖10提供了CogVideoX-2B和RepVideo之間的特征圖逐層比較。結(jié)果表明,本文的模型在特征圖的深層處理中,始終能夠捕捉到更豐富的語義信息,并保持更一致的空間細節(jié)。例如,在“一個穿著帽子和深色西裝的男人從走廊走向房間”的例子中,RepVideo生成的特征圖清晰地保持了男人的結(jié)構(gòu)和輪廓,確保生成的視頻保留了清晰且定義明確的空間屬性。相比之下,CogVideoX-2B的深層特征圖顯示模糊且缺乏焦點,未能捕捉到場景的關(guān)鍵語義元素。
類似地,在“一個穿著太空服的人在室內(nèi)郁郁蔥蔥的植物環(huán)境中與多種植物互動”的例子中,RepVideo的特征圖展示了優(yōu)越的能力,能夠捕捉到細致的細節(jié),例如宇航員和植物的明顯輪廓。隨著層深度的增加,本文的模型保持了語義一致性和空間完整性,而CogVideoX-2B在空間一致性方面存在困難,常常導(dǎo)致生成視頻中的視覺偽影。這些結(jié)果強調(diào)了RepVideo豐富的表示的重要性,通過跨層聚合信息來穩(wěn)定空間細節(jié)并增強語義對齊。
空間外觀的改善可以歸因于特征聚合機制,它利用連續(xù)層的中間表示。正如下圖11所示,注意力圖的可視化展示了不同提示下幀中對象的激活情況。與CogVideoX相比,RepVideo的注意力圖清楚地顯示了在不同提示下不同主體的邊界,表明我們的聚合特征有助于加強相應(yīng)的空間區(qū)域。通過結(jié)合這些特征,RepVideo減少了層間的變異性,并確保在整個視頻生成過程中保留關(guān)鍵的空間信息。這一機制增強了模型生成視覺一致、與輸入提示對齊的場景的能力。
RepVideo如何改善時間一致性除了改善空間細節(jié)外,RepVideo顯著增強了時間一致性,這是生成連貫視頻的關(guān)鍵因素。為了量化這一改進,我們計算了連續(xù)幀之間的余弦相似度,如圖12所示。x軸表示層深度,y軸表示第n幀與第(n+1)幀之間的余弦相似度。更高的相似度值表明時間穩(wěn)定性更好,連續(xù)幀之間的變化較小。
結(jié)果表明,RepVideo在所有層中都實現(xiàn)了比CogVideoX-2B更高的余弦相似度得分。例如,在像Layer 25和Layer 30這樣的較深層中,RepVideo保持了強烈的幀間相似性,確保生成的視頻沒有時間偽影,如閃爍或抖動。相比之下,CogVideoX-2B在層深度增加時相似度急劇下降,表明其時間一致性較弱,且更容易出現(xiàn)運動不連續(xù)。
RepVideo所實現(xiàn)的增強時間一致性得益于其創(chuàng)新的特征緩存模塊。通過聚合多個相鄰層的特征,該模塊穩(wěn)定了中間表示并最小化了時間變異性。這一方法確保每一幀不僅在語義上與輸入提示對齊,而且與前后幀保持一致。因此,RepVideo能夠生成平滑過渡和連貫運動的視頻,即使在涉及動態(tài)對象或環(huán)境的復(fù)雜場景中。
討論
盡管RepVideo在現(xiàn)有方法上取得了顯著進展,但仍有一些方面可以進一步改進。一個主要的限制是我們依賴于預(yù)訓(xùn)練模型,例如CogVideoX-2B。這些模型雖然強大,但由于其原始訓(xùn)練數(shù)據(jù)集的偏差和限制,可能會限制生成視頻的多樣性和適應(yīng)性,尤其是在訓(xùn)練數(shù)據(jù)分布之外的場景中。
另一個改進的方向是與特征聚合機制相關(guān)的計算成本。盡管與添加新參數(shù)相比,這一方法相對輕量,但在實時應(yīng)用或資源有限的環(huán)境中部署時,仍可能會面臨挑戰(zhàn)。因此,如何在不妥協(xié)其效果的前提下優(yōu)化這一機制,是未來研究的重要方向。
此外,該方法在生成以人為中心的內(nèi)容和理解復(fù)雜空間關(guān)系方面可能還需改進。如我們在實驗中所示,RepVideo在需要精確建模人體動作或復(fù)雜物體布局的視頻生成中,偶爾會出現(xiàn)一致性問題。
未來的研究可以集中在開發(fā)實時的特征聚合機制。此外,將本文的方法與不同的文本到視頻預(yù)訓(xùn)練模型結(jié)合,可能對整個社區(qū)帶來益處。解決這些限制可以進一步擴展RepVideo的潛力,使其能夠在文本到視頻生成任務(wù)中設(shè)立新的基準。
結(jié)論
RepVideo
通過廣泛的實驗,驗證了本文框架的有效性。RepVideo在自動化基準和人工評估中優(yōu)于現(xiàn)有的最先進模型,展示了其在動態(tài)場景中保持時間一致性并生成詳細、準確空間表示的能力。這些貢獻代表了文本到視頻生成領(lǐng)域的重要進展,為未來的創(chuàng)新和應(yīng)用提供了堅實的平臺。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
