ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實(shí)現(xiàn)多粒度控制,精準(zhǔn)到像素級(jí)
論文鏈接:https://arxiv.org/pdf/2502.17258
git 鏈接:https://knightyxp.github.io/VideoGrain_project_page/
亮點(diǎn)直擊
- 首次嘗試多粒度視頻編輯的方法。支持類(lèi)別級(jí)、實(shí)例級(jí)和局部級(jí)的編輯。
- 提出了一個(gè)新穎的框架,稱(chēng)為VideoGrain,該框架通過(guò)調(diào)節(jié)時(shí)空跨注意力和自注意力,實(shí)現(xiàn)文本到區(qū)域的控制以及區(qū)域間特征的分離。
- 在無(wú)需調(diào)整任何參數(shù)的情況下,在現(xiàn)有基準(zhǔn)測(cè)試和真實(shí)世界視頻上都取得了定性和定量的最新成果。
總結(jié)速覽
解決的問(wèn)題
- 多粒度視頻編輯的挑戰(zhàn),特別是文本到區(qū)域控制的語(yǔ)義不匹配和擴(kuò)散模型內(nèi)部的特征耦合問(wèn)題。
提出的方案
- 提出了一種名為VideoGrain的零樣本方法,通過(guò)調(diào)節(jié)時(shí)空(跨注意力和自注意力)機(jī)制,實(shí)現(xiàn)對(duì)視頻內(nèi)容的精細(xì)化控制。
應(yīng)用的技術(shù)
- 增強(qiáng)局部提示對(duì)其對(duì)應(yīng)空間解耦區(qū)域的注意力,減少跨注意力中與無(wú)關(guān)區(qū)域的交互。
- 提升區(qū)域內(nèi)部的感知能力,減少區(qū)域之間的干擾,以改進(jìn)特征分離。
達(dá)到的效果
- 實(shí)現(xiàn)了支持類(lèi)別級(jí)、實(shí)例級(jí)和局部級(jí)的多粒度視頻編輯。
- 在無(wú)需調(diào)整參數(shù)的情況下,在現(xiàn)有基準(zhǔn)測(cè)試和真實(shí)世界視頻上取得了定性和定量的SOTA成果。
方法
動(dòng)機(jī)
為了解釋為什么以往的方法在實(shí)例級(jí)視頻編輯中失?。ㄒ?jiàn)下圖2),首先對(duì)擴(kuò)散模型中的自注意力和跨注意力特征進(jìn)行了基本分析。
如下圖3(b)所示,在DDIM反演過(guò)程中對(duì)每幀的自注意力特征應(yīng)用了K-Means聚類(lèi)。雖然聚類(lèi)捕捉到了清晰的語(yǔ)義布局,但未能區(qū)分不同的實(shí)例(例如,“左邊的男人”和“右邊的男人”)。增加聚類(lèi)數(shù)量會(huì)導(dǎo)致部分級(jí)別的更細(xì)分割,但無(wú)法解決這個(gè)問(wèn)題,這表明實(shí)例間特征的同質(zhì)性限制了擴(kuò)散模型在多粒度視頻編輯中的有效性。
接下來(lái),嘗試使用SDEdit將同一類(lèi)的兩個(gè)男人編輯為不同的實(shí)例。然而,上圖3(d)顯示,“鋼鐵俠”和“蜘蛛俠”的權(quán)重在左邊的男人上重疊,“花朵”的權(quán)重泄漏到右邊的男人上,導(dǎo)致了(c)中的編輯失敗。因此,為了實(shí)現(xiàn)有效的多粒度編輯,提出以下問(wèn)題:我們能否調(diào)節(jié)注意力,以確保每個(gè)局部編輯的注意力權(quán)重準(zhǔn)確分布在預(yù)期區(qū)域?
本文提出了VideoGrain的兩個(gè)關(guān)鍵設(shè)計(jì):(1) 調(diào)節(jié)跨注意力以引導(dǎo)文本特征聚集在相應(yīng)的空間解耦區(qū)域,從而實(shí)現(xiàn)文本到區(qū)域的控制。(2) 在時(shí)空軸上調(diào)節(jié)自注意力,以增強(qiáng)區(qū)域內(nèi)的焦點(diǎn)并減少區(qū)域間的干擾,避免擴(kuò)散模型中的特征耦合。
問(wèn)題表述
本工作的目的是基于給定的提示在多個(gè)區(qū)域進(jìn)行多粒度視頻編輯。這涉及三個(gè)層次的編輯:
(1) 類(lèi)別級(jí)編輯: 編輯同一類(lèi)別內(nèi)的對(duì)象。(例如,將兩個(gè)男人變?yōu)椤爸┲雮b”,兩者都屬于人類(lèi)類(lèi)別,如上圖2第二列所示)
(2) 實(shí)例級(jí)編輯: 將每個(gè)單獨(dú)實(shí)例編輯為不同的對(duì)象。(例如,將左邊的男人編輯為“蜘蛛俠”,右邊的男人編輯為“北極熊”,如圖2第三列所示)
(3) 部分級(jí)編輯: 對(duì)單個(gè)實(shí)例的特定元素進(jìn)行部分級(jí)別的編輯。(例如,在將右邊的男人編輯為“北極熊”時(shí)添加“太陽(yáng)鏡”,如上圖2第四列所示)
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實(shí)現(xiàn)多粒度控制,精準(zhǔn)到像素級(jí)-AI.x社區(qū)
整體框架
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實(shí)現(xiàn)多粒度控制,精準(zhǔn)到像素級(jí)-AI.x社區(qū)
與通過(guò)一個(gè)全局文本提示控制所有幀的方法不同,VideoGrain 允許在去噪過(guò)程中指定配對(duì)的實(shí)例級(jí)或部分級(jí)提示及其位置。我們的方法還可以靈活地結(jié)合 ControlNet 條件e ,例如深度圖或姿態(tài)圖,以提供結(jié)構(gòu)化條件。
時(shí)空布局引導(dǎo)的注意力
基于前文的觀察,跨注意力權(quán)重分布與編輯結(jié)果密切相關(guān)。同時(shí),自注意力對(duì)于生成時(shí)間一致性視頻也至關(guān)重要。然而,一個(gè)區(qū)域內(nèi)的像素可能會(huì)關(guān)注到外部或相似的區(qū)域,這對(duì)多粒度視頻編輯造成了障礙。因此需要調(diào)節(jié)自注意力和跨注意力,使每個(gè)像素或局部提示僅關(guān)注正確的區(qū)域。
為實(shí)現(xiàn)這一目標(biāo),通過(guò)統(tǒng)一的“增強(qiáng)正向關(guān)聯(lián)、減少負(fù)向關(guān)聯(lián)”機(jī)制調(diào)節(jié)跨注意力和自注意力。具體而言,對(duì)于查詢(xún)特征的第i幀,我們對(duì)查詢(xún)-鍵(Query-Key)條件映射QK進(jìn)行如下調(diào)節(jié):
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實(shí)現(xiàn)多粒度控制,精準(zhǔn)到像素級(jí)-AI.x社區(qū)
調(diào)節(jié)跨注意力以實(shí)現(xiàn)文本到區(qū)域控制 在跨注意力層中,文本特征作為鍵(key)和值(value),并與來(lái)自視頻潛變量的查詢(xún)特征進(jìn)行交互。由于每個(gè)實(shí)例的外觀和位置與跨注意力權(quán)重分布密切相關(guān),我們的目標(biāo)是將每個(gè)實(shí)例的文本特征聚集到對(duì)應(yīng)的位置。
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實(shí)現(xiàn)多粒度控制,精準(zhǔn)到像素級(jí)-AI.x社區(qū)
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實(shí)現(xiàn)多粒度控制,精準(zhǔn)到像素級(jí)-AI.x社區(qū)
如上圖4(中右)所示,在添加正值和減去負(fù)值后,“Spiderman”的原始跨注意力權(quán)重(例如p,)被放大并集中在左邊的人身上。而“polar”“bear”的干擾權(quán)重則集中在右邊的人身上。這表明我們的調(diào)節(jié)將每個(gè)提示的權(quán)重重新分配到目標(biāo)區(qū)域上,實(shí)現(xiàn)了精確的文本到區(qū)域控制。
調(diào)節(jié)自注意力以保持特征分離 為了使T2I模型適應(yīng)T2V編輯,將整個(gè)視頻視為“一個(gè)更大的圖像”,用時(shí)空自注意力替換空間注意力,同時(shí)保留預(yù)訓(xùn)練權(quán)重。這增強(qiáng)了跨幀交互,并提供了更廣泛的視覺(jué)上下文。然而,簡(jiǎn)單的自注意力可能導(dǎo)致區(qū)域關(guān)注不相關(guān)或相似的區(qū)域(例如,圖4底部,調(diào)節(jié)前查詢(xún)p關(guān)注兩個(gè)人),這會(huì)導(dǎo)致紋理混合。為了解決這個(gè)問(wèn)題,需要加強(qiáng)同一區(qū)域內(nèi)的正向關(guān)注,并限制不同區(qū)域之間的負(fù)向交互。
如上圖4(左下)所示,最大跨幀擴(kuò)散特征表示同一區(qū)域內(nèi)標(biāo)記之間的最強(qiáng)響應(yīng)。請(qǐng)注意,DIFT使用這一點(diǎn)來(lái)匹配不同的圖像,而我們專(zhuān)注于生成過(guò)程中的跨幀對(duì)應(yīng)和區(qū)域內(nèi)部注意力調(diào)節(jié)。然而,負(fù)向的區(qū)域間對(duì)應(yīng)對(duì)于解耦特征混合同樣重要。超越DIFT,我們發(fā)現(xiàn)最小的跨幀擴(kuò)散特征相似性可以有效地捕捉不同區(qū)域之間標(biāo)記的關(guān)系。因此,定義時(shí)空正/負(fù)值為:
為了確保每個(gè)patch關(guān)注區(qū)域內(nèi)的特征,同時(shí)避免區(qū)域間特征的交互,我們定義了時(shí)空查詢(xún)-鍵條件映射:
對(duì)于幀索引i和j,當(dāng)token屬于跨幀的不同實(shí)例時(shí),其值為零。
如上圖4底部右側(cè)所示,在應(yīng)用我們的自注意力調(diào)節(jié)后,來(lái)自左側(cè)人物鼻子(例如,)的查詢(xún)特征僅關(guān)注左側(cè)實(shí)例,避免了對(duì)右側(cè)實(shí)例的干擾。這表明,我們的自注意力調(diào)節(jié)打破了擴(kuò)散模型的類(lèi)別級(jí)特征對(duì)應(yīng)性,確保了實(shí)例級(jí)的特征分離。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中,采用預(yù)訓(xùn)練的Stable Diffusion v1.5作為基礎(chǔ)模型,使用50步的DDIM反演和去噪過(guò)程。
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實(shí)現(xiàn)多粒度控制,精準(zhǔn)到像素級(jí)-AI.x社區(qū)
所有實(shí)驗(yàn)均在NVIDIA A40 GPU上進(jìn)行。使用包含76個(gè)視頻-文本對(duì)的數(shù)據(jù)集評(píng)估VideoGrain,包括來(lái)自DAVIS (Perazzi et al., 2016)、TGVE1以及互聯(lián)網(wǎng)的視頻,每個(gè)視頻包含16-32幀。使用四個(gè)自動(dòng)化指標(biāo)進(jìn)行評(píng)估:CLIP-T、CLIP-F、Warp-Err和Q-edit,這些指標(biāo)參考(Wu et al., 2022; Cong et al., 2023),并全部縮放為100以便于展示。
對(duì)于基線(xiàn)方法,與以下T2I方法進(jìn)行比較,包括FateZero、ControlVideo、TokenFlow、GroundVideo以及T2V方法DMT。為了確保時(shí)間一致性,我們采用FLATTEN和PnP。為了公平起見(jiàn),所有T2I基線(xiàn)均配備相同的ControlNet條件。
結(jié)果
在涵蓋類(lèi)別級(jí)、實(shí)例級(jí)和部分級(jí)編輯的視頻上評(píng)估了VideoGrain。本文的方法展示了在處理動(dòng)物方面的多功能性,例如將“狼”轉(zhuǎn)變?yōu)椤柏i”(下圖5,左上)。對(duì)于實(shí)例級(jí)編輯,可以分別修改車(chē)輛(例如,將“SUV”轉(zhuǎn)變?yōu)椤跋儡?chē)”,將“貨車(chē)”轉(zhuǎn)變?yōu)椤靶\?chē)”),如下圖5右上所示。VideoGrain在編輯復(fù)雜遮擋場(chǎng)景中的多個(gè)實(shí)例方面表現(xiàn)出色,例如“蜘蛛俠和神奇女俠打羽毛球”(下圖5,中左)。以前的方法往往在處理這種非剛性運(yùn)動(dòng)時(shí)表現(xiàn)不佳。此外,本文的方法能夠進(jìn)行多區(qū)域編輯,既可以編輯前景也可以編輯背景,如肥皂盒場(chǎng)景中,背景變?yōu)椤吧种械暮祥L(zhǎng)滿(mǎn)苔蘚的石橋”(下圖5,中右)。得益于精確的注意力權(quán)重分配,可以無(wú)縫交換身份,例如在慢跑場(chǎng)景中,“鋼鐵俠”和“蜘蛛俠”交換身份(下圖5,左下)。對(duì)于部分級(jí)編輯,VideoGrain在調(diào)整角色穿上超人服裝的同時(shí)保持太陽(yáng)鏡不變方面表現(xiàn)出色(下圖5,右下)??傮w而言,對(duì)于多粒度編輯,VideoGrain表現(xiàn)出色。
定性和定量比較
定性比較。下圖6展示了VideoGrain與基線(xiàn)方法之間的比較,包括T2I和T2V方法的實(shí)例級(jí)和部分級(jí)編輯。為公平起見(jiàn),所有T2I方法都使用ControlNet條件。(1) 動(dòng)物實(shí)例:在左列,T2I方法如FateZero、ControlVideo和TokenFlow由于擴(kuò)散模型中相同類(lèi)別特征耦合,將兩只貓都編輯成熊貓,未能進(jìn)行單獨(dú)編輯。即使是具有視頻生成先驗(yàn)的DMT,也仍然將熊貓和玩具貴賓犬的特征混合在一起。相比之下,VideoGrain成功地將一個(gè)編輯成熊貓,另一個(gè)編輯成玩具貴賓犬。(2) 人類(lèi)實(shí)例:在中間列,基線(xiàn)方法在相同類(lèi)別特征耦合方面表現(xiàn)不佳,部分將兩個(gè)人都編輯成鋼鐵俠。DMT和Ground-A-Video也未能遵循用戶(hù)意圖,錯(cuò)誤地編輯了左右實(shí)例。VideoGrain則正確地將右側(cè)人物轉(zhuǎn)變?yōu)楹镒樱蚱屏巳祟?lèi)類(lèi)別的限制。(3) 部分級(jí)編輯:在第三列,VideoGrain處理部分級(jí)編輯,如太陽(yáng)鏡和拳擊手套。ControlVideo編輯了手套,但在太陽(yáng)鏡和運(yùn)動(dòng)一致性方面表現(xiàn)不佳。TokenFlow和DMT編輯了太陽(yáng)鏡,但未能修改手套或背景。相比之下,VideoGrain實(shí)現(xiàn)了實(shí)例級(jí)和部分級(jí)編輯,顯著優(yōu)于以前的方法。
定量比較。使用自動(dòng)化指標(biāo)和人工評(píng)估來(lái)比較不同方法的性能。CLIP-T計(jì)算輸入提示與所有視頻幀之間的平均余弦相似度,而CLIP-F測(cè)量連續(xù)幀之間的平均余弦相似度。此外,Warp-Err通過(guò)根據(jù)源視頻的光流(使用RAFT-Large提?。┡で庉嫼蟮囊曨l幀來(lái)捕捉像素級(jí)差異。為了提供更全面的視頻編輯質(zhì)量度量,遵循(Cong et al., 2023)并使用Q-edit,定義為CLIP-T/Warp-Err。為了清晰起見(jiàn),我們將所有自動(dòng)化指標(biāo)縮放為100。在人工評(píng)估方面,我們?cè)u(píng)估了三個(gè)關(guān)鍵方面:編輯準(zhǔn)確性(每個(gè)局部編輯是否準(zhǔn)確應(yīng)用)、時(shí)間一致性(參與者評(píng)估視頻幀之間的連貫性)和整體編輯質(zhì)量。
本工作邀請(qǐng)了20名參與者對(duì)76個(gè)視頻-文本對(duì)在這三個(gè)標(biāo)準(zhǔn)上進(jìn)行評(píng)分,評(píng)分范圍為20到100,遵循(Jeong & Ye, 2023)。如下表1所示,VideoGrain在T2I和T2V方法中始終表現(xiàn)優(yōu)異。這主要?dú)w功于ST-Layout Attn的精確文本到區(qū)域控制和保持區(qū)域之間的特征分離。因此,我們的方法在CLIP-T和編輯準(zhǔn)確性得分上顯著高于其他基線(xiàn)。改進(jìn)的Warp-Err和時(shí)間一致性指標(biāo)進(jìn)一步表明VideoGrain提供了時(shí)間上連貫的視頻編輯。
效率比較。為了評(píng)估效率,在單個(gè)A6000 GPU上比較了基線(xiàn)方法和VideoGrain對(duì)16幀視頻的編輯。指標(biāo)包括編輯時(shí)間(執(zhí)行一次編輯所需的時(shí)間)以及GPU和CPU內(nèi)存使用情況。從下表2可以看出,我們的方法以最低的內(nèi)存使用實(shí)現(xiàn)了最快的編輯時(shí)間,表明其計(jì)算效率。
消融研究
為了評(píng)估提出的ST-Layout Attn中不同組件的貢獻(xiàn),首先評(píng)估我們的注意力機(jī)制是否能夠?qū)崿F(xiàn)注意力權(quán)重分布,然后解耦自注意力調(diào)制和交叉注意力調(diào)制以評(píng)估它們各自的有效性。
注意力權(quán)重分布。評(píng)估ST-Layout Attn對(duì)注意力權(quán)重分布的影響。如下圖7所示,目標(biāo)提示為“鋼鐵俠在雪地網(wǎng)球場(chǎng)打網(wǎng)球?!蔽覀兛梢暬恕叭恕钡慕徊孀⒁饬D以評(píng)估權(quán)重分布。沒(méi)有ST-Layout Attn時(shí),特征混合發(fā)生,“雪”的權(quán)重溢出到“鋼鐵俠”上。有了ST-Layout Attn,人物的權(quán)重被正確分配。這是因?yàn)槲覀冊(cè)诮徊婧妥宰⒁饬χ性鰪?qiáng)了正對(duì)配對(duì)分?jǐn)?shù)并抑制了負(fù)對(duì)配對(duì)分?jǐn)?shù)。這使得“鋼鐵俠”和“雪”的精確、獨(dú)立編輯成為可能。
交叉注意力調(diào)制。在下圖8和下表3中,展示了不同設(shè)置下的視頻編輯結(jié)果:(1) 基線(xiàn) (2) 基線(xiàn) + 交叉注意力調(diào)制 (3) 基線(xiàn) + 交叉注意力調(diào)制 + 自注意力調(diào)制。如下圖8右上所示,直接編輯未能區(qū)分左右實(shí)例,導(dǎo)致錯(cuò)誤(左)或無(wú)編輯(右)。然而,當(dāng)配備交叉注意力調(diào)制時(shí),我們實(shí)現(xiàn)了準(zhǔn)確的文本到區(qū)域控制,從而分別將左側(cè)人物編輯為“鋼鐵俠”和右側(cè)人物為“蜘蛛俠”。下表3中的定量結(jié)果表明,使用交叉注意力調(diào)制(第二行),CLIP-T增加了7.4%,Q-edit增加了63.9%。這證明了我們交叉注意力調(diào)制的有效性。
自注意力調(diào)制。然而,僅調(diào)制交叉注意力仍會(huì)導(dǎo)致結(jié)構(gòu)失真,例如蜘蛛網(wǎng)出現(xiàn)在左側(cè)人物上。這是由于相同類(lèi)別特征(例如,人類(lèi))的耦合造成的。使用我們的自注意力調(diào)制時(shí),特征混合顯著減少,左側(cè)人物保留了獨(dú)特的物體特征。這是通過(guò)降低不同實(shí)例之間的負(fù)對(duì)分?jǐn)?shù),同時(shí)增加同一實(shí)例內(nèi)的正對(duì)分?jǐn)?shù)來(lái)實(shí)現(xiàn)的。因此,在優(yōu)化區(qū)域中生成了更多部分級(jí)細(xì)節(jié),例如獨(dú)特的藍(lán)色側(cè)面。表3中Warp-Err減少43.9%和Q-edit增加80.6%的定量結(jié)果進(jìn)一步證明了自注意力調(diào)制的有效性。
結(jié)論
本文旨在解決多粒度視頻編輯的問(wèn)題,包括類(lèi)別級(jí)、實(shí)例級(jí)和部分級(jí)的視頻編輯。據(jù)我們所知,這是對(duì)該任務(wù)的首次嘗試。在這個(gè)任務(wù)中,我們發(fā)現(xiàn)關(guān)鍵問(wèn)題是擴(kuò)散模型將不同實(shí)例視為同類(lèi)特征,直接的全局編輯會(huì)混合不同的局部區(qū)域。為了解決這些問(wèn)題,我們提出了VideoGrain,以調(diào)制時(shí)空交叉和自注意力進(jìn)行文本到區(qū)域的控制,同時(shí)保持區(qū)域之間的特征分離。在交叉注意力中,我們?cè)鰪?qiáng)每個(gè)局部提示對(duì)其對(duì)應(yīng)空間解耦區(qū)域的關(guān)注,同時(shí)抑制對(duì)不相關(guān)區(qū)域的注意力,從而實(shí)現(xiàn)文本到區(qū)域的控制。在自注意力中,我們?cè)黾訁^(qū)域內(nèi)的感知并減少區(qū)域間的交互以保持區(qū)域之間的特征分離。大量實(shí)驗(yàn)表明,我們的VideoGrain在類(lèi)別級(jí)、實(shí)例級(jí)和部分級(jí)視頻編輯上均優(yōu)于以往的視頻編輯方法。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
