CVPR 2025 | AI視頻定制進(jìn)入多角色狂想時代!英偉達(dá)等發(fā)布VideoMage巧用"時空組合拳"
文章鏈接:https://arxiv.org/pdf/2503.21781
項(xiàng)目鏈接:https://jasper0314-huang.github.io/videomage-customization
亮點(diǎn)直擊
- 提出了 VideoMage,一個統(tǒng)一框架,首次實(shí)現(xiàn)了針對多個主體身份及其交互運(yùn)動的視頻概念定制。
- 引入了一種新穎的外觀無關(guān)運(yùn)動學(xué)習(xí)方法,通過改進(jìn)負(fù)分類器自由引導(dǎo),解耦潛在的運(yùn)動模式與外觀之間的關(guān)系。
- 開發(fā)了一種時空協(xié)作組合方案,以組合獲得的多主體和運(yùn)動 LoRA,從而生成所需運(yùn)動模式下連貫的多主體交互。
總結(jié)速覽
解決的問題
定制化的文本到視頻生成旨在制作高質(zhì)量的視頻,包含用戶指定的主體身份或運(yùn)動模式。然而,現(xiàn)有的方法主要集中在個性化單一概念上,即主體身份或運(yùn)動模式,這限制了它們在多個主體及其所需運(yùn)動模式下的有效性。
提出的方案
為了解決這一挑戰(zhàn),提出了一個統(tǒng)一框架 VideoMage,用于對多個主體及其交互運(yùn)動進(jìn)行視頻定制。
應(yīng)用的技術(shù)
- VideoMage 采用主體和運(yùn)動 LoRA,從用戶提供的圖像和視頻中捕捉個性化內(nèi)容。
- 引入了一種新穎的外觀無關(guān)運(yùn)動學(xué)習(xí)方法,通過改進(jìn)負(fù)分類器自由引導(dǎo),解耦潛在的運(yùn)動模式與外觀之間的關(guān)系。
- 開發(fā)了一種時空組合方案,以組合獲得的多主體和運(yùn)動 LoRA,從而生成所需運(yùn)動模式下連貫的多主體交互。
達(dá)到的效果
大量實(shí)驗(yàn)表明,VideoMage 的表現(xiàn)優(yōu)于現(xiàn)有方法,能夠生成連貫的、用戶控制的視頻,并保持一致的主體身份和交互。
方法
為了解決上述問題,提出了 VideoMage,這是一個統(tǒng)一框架,用于定制多個主體和交互運(yùn)動以進(jìn)行文本到視頻生成。在快速回顧視頻擴(kuò)散模型后,詳細(xì)說明了如何利用 LoRA 模塊分別從輸入圖像和參考視頻中學(xué)習(xí)視覺和運(yùn)動信息。本文提出了一種獨(dú)特的時空協(xié)作組合方案,以整合學(xué)習(xí)到的主體/運(yùn)動 LoRA 進(jìn)行視頻生成。
初步:視頻擴(kuò)散模型
主體和運(yùn)動定制
為了避免干擾時間動態(tài),主體 LoRA 僅應(yīng)用于 UNet 的空間層。目標(biāo)定義為:
因此,整體目標(biāo)定義為:
為了解決這個問題,本文提出了一種新穎的與外觀無關(guān)的目標(biāo),如下圖 3 所示,能夠有效地從參考視頻中隔離運(yùn)動模式。受到 [12, 22] 中概念消除方法的啟發(fā),本文推進(jìn)了基于視覺主體外觀的負(fù)分類器自由引導(dǎo),專注于在運(yùn)動學(xué)習(xí)過程中消除外觀信息。這將確保運(yùn)動 LoRA 專注于運(yùn)動動態(tài)。
為了實(shí)現(xiàn)這一點(diǎn),本文首先通過在從參考視頻中采樣的單幀上應(yīng)用文本反演 [11] 來學(xué)習(xí)參考視頻中主體的特殊標(biāo)記(例如,上圖 3 中的“人”和“馬”)。這在最小化運(yùn)動影響的同時捕捉主體外觀,有效地將外觀與運(yùn)動解耦。利用上述特殊標(biāo)記,本文使用與外觀無關(guān)的目標(biāo)訓(xùn)練一個運(yùn)動 LoRA,該目標(biāo)采用負(fù)引導(dǎo)來抑制外觀信息,使運(yùn)動 LoRA 能夠獨(dú)立于主體外觀學(xué)習(xí)運(yùn)動模式。
更具體地說,訓(xùn)練目標(biāo)定義為:
空間-時間協(xié)作合成
通過獲得多個主體 LoRA 和互動運(yùn)動 LoRA,本文的目標(biāo)是生成這些主體使用所需運(yùn)動模式進(jìn)行互動的視頻。然而,結(jié)合具有不同屬性的 LoRA(即視覺外觀與空間-時間運(yùn)動)并不是一項(xiàng)簡單的任務(wù)。
在本文的工作中,本文提出了一種空間-時間協(xié)作合成的測試時間優(yōu)化方案,使上述 LoRA 之間能夠協(xié)作生成具有所需外觀和運(yùn)動屬性的視頻。本文現(xiàn)在討論所提出的方案。
具體而言,本文通過將主體分支的時間自注意力圖與運(yùn)動分支的時間自注意力圖對齊來強(qiáng)制運(yùn)動的正確性。類似地,本文通過將運(yùn)動分支的空間交叉注意力圖與主體分支的空間交叉注意力圖對齊,確保準(zhǔn)確的空間排列。協(xié)作引導(dǎo)的損失計算如下:
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集。 為了評估多主體和運(yùn)動任務(wù)的視頻定制方法,本文從 WebVid [2] 收集了 6 個運(yùn)動視頻,展示了人類與動物之間的各種互動。對于每個運(yùn)動,本文提供了來自 [26, 33] 的 3 對主體,包括動物、機(jī)器人、玩具和毛絨玩具等多種不同物種,每個設(shè)置有 4 個不同的背景提示。
評估指標(biāo)。 遵循之前的工作 [43, 44, 51],本文使用以下指標(biāo)評估性能:1)CLIP-T,測量生成幀與文本提示之間的余弦相似度,使用 CLIP [29];2)CLIP-I,通過比較生成幀和目標(biāo)圖像的 CLIP 圖像嵌入來評估主體身份;3)DINO-I,類似于 CLIP-I,但使用 DINO [4] 的嵌入;4)時間一致性 [10],通過計算連續(xù)幀之間的相似度來測量逐幀一致性,使用 CLIP。此外,本文進(jìn)行人類評估以進(jìn)行定性評估。
比較。 本文將本文的 VideoMage 與最先進(jìn)的視頻定制方法進(jìn)行比較,包括通過應(yīng)用適配器和 LoRA 分別對單一主體進(jìn)行運(yùn)動定制的 DreamVideo [44] 和 MotionDirector [51]。為了公平比較,本文首先對多個主體模塊的輸出進(jìn)行平均,并將其與運(yùn)動模塊結(jié)合以進(jìn)行多主體和運(yùn)動定制。
主要結(jié)果
定性結(jié)果。 在下圖 5 中,本文展示了定制視頻生成的示例,結(jié)合了用戶提供的各種主體圖像和特定的運(yùn)動參考視頻。正如本文所觀察到的,DreamVideo 和 MotionDirector 都遭遇了顯著的外觀泄漏和屬性混合問題,難以正確安排多個主體以遵循參考運(yùn)動模式。例如,在右下角,運(yùn)動視頻中黑狗的外觀無意中轉(zhuǎn)移到了 MotionDirector 的輸出中,而在左下角的 DreamVideo 輸出中,的顏色屬性與錯誤混合,導(dǎo)致不理想的視覺細(xì)節(jié)。此外,這兩種方法未能建立主體之間的預(yù)期互動,未能捕捉到它們之間的微妙動態(tài)。相比之下,本文的 VideoMage 有效地解決了這些挑戰(zhàn),保留了主體身份,防止了外觀泄漏,并成功實(shí)現(xiàn)了生成視頻中主體之間的預(yù)期互動。
定量結(jié)果。 本文對收集的多主體和運(yùn)動數(shù)據(jù)集進(jìn)行了定量評估。通過 72 種主體、運(yùn)動和背景的組合,本文為每種組合生成了 10 個視頻,并使用四個指標(biāo)進(jìn)行評估。如下表 1 所示,本文的 VideoMage 生成的視頻更好地保留了主體的身份,相較于最先進(jìn)的方法 MotionDirector,在 CLIP-I 和 DINO-I 上分別提高了 5.7% 和 10%。此外,VideoMage 在 CLIP-T 性能上達(dá)到了最高,并且在時間一致性方面與最先進(jìn)的方法相當(dāng),展示了其生成與文本提示緊密對齊的連貫視頻的能力。
用戶研究。 為了進(jìn)一步評估本文方法的有效性,本文進(jìn)行了一項(xiàng)人類偏好研究,將本文的方法與 DreamVideo [44] 和 MotionDirector [51] 進(jìn)行比較。在這項(xiàng)研究中,參與者獲得參考主體圖像和運(yùn)動視頻,以及分別由本文的 VideoMage 和比較方法生成的兩個定制視頻。參與者被要求根據(jù)四個標(biāo)準(zhǔn)選擇他們偏好的視頻:文本對齊(視頻與提示的匹配程度)、主體保真度(主體與參考圖像的匹配程度,且沒有錯誤的屬性混合)、運(yùn)動保真度(運(yùn)動與參考視頻的反映程度)、視頻質(zhì)量(平滑度和無閃爍)。共生成了 360 個視頻,參與評估的參與者有 25 位。如下圖 6 所示,在所有標(biāo)準(zhǔn)中,參與者更傾向于選擇本文的 VideoMage。
消融研究
結(jié)論
本文提出了一個統(tǒng)一框架 VideoMage,以實(shí)現(xiàn)用戶提供的主體身份和所需運(yùn)動模式之間的文本到視頻擴(kuò)散模型的視頻定制。在 VideoMage 中,本文采用多主體和無外觀運(yùn)動學(xué)習(xí)來推導(dǎo)定制的 LoRA,同時提出了一種時空協(xié)作組合方案,以相互對齊主體和運(yùn)動組件,從而合成具有足夠視覺和時間保真度的視頻。本文對 VideoMage 進(jìn)行了廣泛的定量和定性評估,驗(yàn)證了其相較于以前視頻定制方法的優(yōu)越可控性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
