視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp
文章鏈接:https://arxiv.org/pdf/2412.19761
項目鏈接:https://genprop.github.io
亮點直擊
- 定義了一個新的生成視頻傳播問題,目標是利用 I2V 模型的生成能力,將視頻第一幀的各種變化傳播到整個視頻中。
- 精心設計了模型 GenProp,包含選擇性內(nèi)容編碼器(Selective Content Encoder, SCE)、專用損失函數(shù)以及mask預測頭,并提出了一個用于訓練模型的合成數(shù)據(jù)生成pipeline。
- 本文的模型支持多種下游應用,如移除、插入、替換、編輯和跟蹤。實驗還表明,即使沒有特定任務的數(shù)據(jù)進行訓練,模型也能支持視頻擴展(outpainting)。
- 實驗結(jié)果顯示,本文的模型在視頻編輯和對象移除任務中優(yōu)于 SOTA 方法,同時擴展了包括跟蹤在內(nèi)的現(xiàn)有任務范圍。
總結(jié)速覽
解決的問題
當前大規(guī)模視頻生成模型在處理各種視頻編輯任務時,往往聚焦于單一任務(如視頻修復、外觀編輯、對象插入等),而傳統(tǒng)的視頻傳播方法(如光流或深度傳播)易受錯誤積累影響,缺乏魯棒性和泛化能力?,F(xiàn)有方法還需要密集標注或?qū)iT針對任務進行重新訓練,流程復雜且效率較低。
提出的方案
- 框架設計:提出了一個統(tǒng)一的視頻生成傳播框架——GenProp。
- 使用選擇性內(nèi)容編碼器(Selective Content Encoder, SCE)對原視頻的未變部分進行編碼。
- 使用圖像到視頻生成模型(Image-to-Video, I2V)將第一幀的編輯傳播至整段視頻。
- 損失函數(shù)設計:引入?yún)^(qū)域感知損失(region-aware loss),確保SCE只編碼未編輯區(qū)域的內(nèi)容,同時優(yōu)化I2V模型在修改區(qū)域的生成能力。
- 數(shù)據(jù)生成方案:利用實例級視頻分割數(shù)據(jù)集生成合成數(shù)據(jù),覆蓋多種視頻任務。
應用的技術
- 生成模型:通過 I2V 生成模型進行內(nèi)容傳播,無需依賴光流或運動預測。
- 輔助訓練模塊:加入輔助解碼器預測修改區(qū)域,以提高編輯區(qū)域的生成質(zhì)量。
- 選擇性編碼:通過區(qū)域感知機制,減少對已修改區(qū)域的編碼干擾,增強未編輯內(nèi)容的保真度。
達到的效果
- 編輯:支持對對象形狀進行顯著修改。
- 插入:插入的對象能夠獨立運動。
- 移除:可有效移除陰影、反射等對象效果。
- 跟蹤:能夠精確跟蹤對象及其相關效果。
- 統(tǒng)一性:無需密集標注或任務特定的重新訓練,簡化了編輯流程。
方法
生成視頻傳播面臨以下關鍵挑戰(zhàn):
- 真實性– 第一幀中的變化應自然傳播到后續(xù)幀中。
- 一致性– 所有其他區(qū)域應與原始視頻保持一致。
- 通用性– 模型應具有足夠的通用性,適用于多種視頻任務。
在 GenProp 中,通過 I2V 生成模型解決 真實性(1);引入選擇性內(nèi)容編碼器和掩膜預測解碼器,并使用區(qū)域感知損失進行訓練以解決 一致性(2);通過數(shù)據(jù)生成方案和通用 I2V 模型,滿足 通用性(3)。
問題定義
其中, L是一個區(qū)域感知損失,用于解耦修改區(qū)域和未修改區(qū)域,保證未修改區(qū)域的穩(wěn)定性,同時允許在編輯區(qū)域進行準確的傳播。為了確保最終輸出符合真實視頻數(shù)據(jù)的分布,合成數(shù)據(jù)僅輸入到內(nèi)容編碼器。I2V 生成模型則使用原始視頻,防止模型無意中學習到合成偽影。
模型設計
為了保持原始視頻的未修改部分,并僅傳播修改區(qū)域,我們將兩個額外的組件集成到基本的 I2V 模型中:選擇性內(nèi)容編碼器(Selective Content Encoder,SCE)和mask預測解碼器(Mask Prediction Decoder,MPD),如下圖 4 所示。
選擇性內(nèi)容編碼器 (SCE)
SCE 架構是主生成模型初始N個塊的復制版本,類似于 ControlNet 。在每個編碼器塊后,提取的特征將添加到 I2V 模型中的相應特征中,從而實現(xiàn)內(nèi)容信息的平滑和層次化流動。注入層是一個具有零初始化的多層感知機(MLP),該層也會進行訓練。此外,為了實現(xiàn)雙向信息交換,I2V 模型的特征在第一個塊之前與 SCE 的輸入進行融合。這使得 SCE 能夠識別修改區(qū)域,從而能夠選擇性地編碼未修改區(qū)域的信息。
Mask預測解碼器 (MPD)
區(qū)域感知損失 (Region-Aware Loss)
在訓練過程中,使用實例分割數(shù)據(jù)來確保編輯和未編輯區(qū)域都能得到適當?shù)谋O(jiān)督。本文設計了區(qū)域感知損失(RA Loss),如下圖 5 所示,旨在平衡兩個區(qū)域的損失,即使編輯區(qū)域相對較小。
RA損失L是三個項的加權和,以確保對mask區(qū)域和非mask區(qū)域都有足夠的監(jiān)督。
合成數(shù)據(jù)生成
創(chuàng)建大規(guī)模配對視頻數(shù)據(jù)集可能既昂貴又具有挑戰(zhàn)性,尤其是對于視頻傳播任務,因為很難涵蓋所有視頻任務。為了解決這個問題,本文提出使用從視頻實例分割數(shù)據(jù)集中派生的合成數(shù)據(jù)。在訓練中,使用了Youtube-VOS、SAM-V2 和一個內(nèi)部數(shù)據(jù)集。然而,這一數(shù)據(jù)生成pipeline可以應用于任何可用的視頻實例分割數(shù)據(jù)集。
采用了多種增強技術來處理分割數(shù)據(jù),針對不同的傳播子任務進行了定制:
- 復制并粘貼:從一個視頻中隨機分割對象并粘貼到另一個視頻中,模擬物體插入;
- Mask填充:對mask區(qū)域進行修復,在選定區(qū)域內(nèi)創(chuàng)建逼真的編輯;
- 顏色填充:用特定的顏色填充mask區(qū)域,表示基本的物體追蹤場景。
實驗
實現(xiàn)細節(jié)
比較
由于生成視頻傳播是一個新問題,在GenProp的三個子任務中與現(xiàn)有的最先進方法進行了比較。請注意,本文的模型能夠在同一個模型中處理這些任務,并進一步涵蓋了如外延(outpainting)以及這些子任務的組合等附加任務,如下圖1底部所示。
基于擴散的視頻編輯
在下圖6(a)和(b)中,將GenProp與其他基于擴散的視頻編輯方法進行了比較,包括文本引導和圖像引導的方法。InsV2V依賴于指令文本來控制生成。然而,由于訓練數(shù)據(jù)有限,它在形狀變化較大時表現(xiàn)不佳,并且不支持對象插入。Pika也使用文本提示在框選區(qū)域內(nèi)進行編輯,但當物體形狀發(fā)生顯著變化時,它表現(xiàn)較差,且無法處理背景編輯或?qū)ο蟛迦?。AnyV2V是一個無需訓練的方法,使用第一幀來引導編輯。雖然它能夠處理外觀變化,但在發(fā)生大規(guī)模形狀或背景修改時會失敗,通常會導致退化或鬼影效果。像InsV2V和Pika一樣,它也無法插入物體。使用ReVideo通過先移除一個物體再重新插入來處理大規(guī)模的形狀變化,但這種兩階段過程有缺點?;诳虻膮^(qū)域可能導致模糊的邊界,并且物體運動會受到原始點跟蹤的影響,導致錯誤累積。此外,框選區(qū)域限制了它有效編輯復雜背景的能力。
視頻物體移除
對于物體移除,將GenProp與傳統(tǒng)的修補pipeline進行了比較,其中級聯(lián)了兩個最先進的模型來實現(xiàn)類似傳播的修補,因為傳統(tǒng)方法需要對所有幀進行密集的遮罩注釋:SAM-V2用于遮罩跟蹤,然后Propainter用于修補估計遮罩中的區(qū)域。如上圖6(c)和(d)所示,GenProp具有幾個優(yōu)點:(1)不需要密集的遮罩注釋作為輸入;(2)去除物體的反射和陰影等效果;(3)去除大物體并在大面積內(nèi)進行自然填充。
視頻物體跟蹤
在上圖6(e)中將GenProp與SAM-V2在跟蹤性能上進行了比較。由于SAM-V2是在大規(guī)模SA-V數(shù)據(jù)集上訓練的,因此SAM-V2通常會生成比GenProp更精確的跟蹤遮罩。此外,GenProp比像SAM-V2這樣的實時跟蹤方法要慢。然而,它有顯著的優(yōu)勢。由于其視頻生成的預訓練,GenProp具有強大的物理規(guī)則理解能力。如圖6所示,與SAM-V2不同,后者由于訓練數(shù)據(jù)有限且偏倚,難以處理物體的反射和陰影等效果,GenProp能夠穩(wěn)定地跟蹤這些效果。這突顯了通過生成模型處理經(jīng)典視覺任務的潛力。
定量結(jié)果
對多個測試集進行了定量評估。在視頻編輯(如表1所示)中,在兩種類型的測試集上進行了評估:(1)經(jīng)典測試集,使用TGVE的DAVIS部分及其“對象變化描述”作為文本提示,重點關注對象替換和外觀編輯;(2)挑戰(zhàn)性測試集,包括從Pexels和Adobe Stock收集的30個手動選擇的視頻,涵蓋了大規(guī)模物體替換、物體插入和背景替換。對于(2),第一幀使用商業(yè)圖像編輯工具進行了編輯。對于Pika,使用在線框選工具,每個結(jié)果運行三次。
對于ReVideo,選擇一個框選區(qū)域,然后使用其代碼提取原始物體的運動點以跟蹤外觀變化。對于具有顯著形狀變化的編輯,首先移除原始物體,再插入新物體并分配未來軌跡。
為了評估未編輯區(qū)域的一致性,在編輯遮罩外計算PSNR,記作PSNRm。對于形狀變化較大的情況,我們在原始和編輯區(qū)域上應用粗略的遮罩,僅計算這些遮罩外區(qū)域的PSNR。對于文本對齊,我們計算編輯幀與文本提示的CLIP嵌入之間的余弦相似度(CLIP-T)。對于結(jié)果質(zhì)量,計算跨幀的CLIP特征距離(CLIP-I)。
如下表1所示,GenProp在大多數(shù)指標上優(yōu)于其他方法,特別是在挑戰(zhàn)性測試集上。Pika在經(jīng)典測試集上表現(xiàn)出較好的一致性,因為當物體形狀相對不變時,其邊界框表現(xiàn)得相當好。ReVideo在多個物體上效果較差。對于物體移除,收集了15個復雜場景的視頻,包括物體效果和遮擋,因為現(xiàn)有的測試集沒有覆蓋這些情況。對于SAM,我們點擊物體和副作用以確保完整的覆蓋。
如表2所示,GenProp實現(xiàn)了最高的一致性,而ReVideo可能會產(chǎn)生邊界框偽影,ProPainter在物體效果方面表現(xiàn)較差。
由于質(zhì)量指標往往不能準確捕捉生成結(jié)果的真實感,使用Amazon MTurk進行了用戶研究,共有121名參與者。每個參與者查看由GenProp和隨機基線生成的幾個視頻,以及原始視頻和文本提示。他們被問到兩個問題:
- 哪個視頻與說明更匹配?
- 哪個視頻在視覺上更好?
然后參與者為每個問題選擇一個視頻。在上面表1和表2中,展示了用戶在對齊/質(zhì)量上的偏好,GenProp在所有基線上均大幅領先,特別是在挑戰(zhàn)性測試集上。
消融研究
Mask預測解碼器(MPD)
在下表3中,評估了MPD在挑戰(zhàn)性測試集上的效果,結(jié)果顯示它可以改善文本對齊和一致性。如圖7的第1和第2行所示,未使用MPD時,輸出mask往往嚴重退化,導致移除質(zhì)量更差。如果沒有MPD的顯式監(jiān)督,模型可能會混淆應該傳播的部分和應該保留的部分,導致在后續(xù)幀中部分移除的物體重新出現(xiàn)。MPD有助于解耦,使得移除結(jié)果和預測掩碼更加準確,即使在嚴重遮擋的情況下也能實現(xiàn)完全物體移除。
區(qū)域感知損失 (RA Loss)
在表3中,進一步測試了所提議的RA Loss在挑戰(zhàn)性測試集上的有效性。GenProp中的一個核心挑戰(zhàn)是,SCE可能錯誤地選擇原始視頻的所有區(qū)域,包括編輯區(qū)域,這會因為重建損失而削弱I2V生成能力。
如下圖7的第3至第5行所示,在沒有RA Loss的情況下,原始物體往往會逐漸重新出現(xiàn),從而阻礙了第一幀編輯(綠色摩托車)的傳播。使用RA Loss后,編輯區(qū)域能夠以穩(wěn)定一致的方式傳播。
顏色填充增強 (Color Fill Augmentation)
顏色填充增強是解決傳播失敗的另一個關鍵因素。盡管復制粘貼和遮罩填充增強使得模型能夠隱式學習物體修改、替換和刪除,但顏色填充增強明確地訓練模型進行跟蹤,引導模型在整個序列中保持第一幀所做的修改,提示為“跟蹤彩色區(qū)域”。如上圖7的第6至第8行所示,由于形狀差異顯著,將女孩變成一只小貓是具有挑戰(zhàn)性的。然而,使用顏色填充增強后,GenProp成功地將這一大幅修改在整個序列中傳播。
結(jié)論
本文設計了一種新型的生成視頻傳播框架——GenProp,利用I2V模型固有的視頻生成能力,實現(xiàn)了包括物體移除、插入和跟蹤等多種下游應用。通過展示其能夠擴展可實現(xiàn)的編輯范圍(例如,移除或跟蹤物體及其相關效果)并生成高度逼真的視頻,且不依賴于傳統(tǒng)的中間表示(如光流或深度圖),我們展示了其潛力。通過集成選擇性內(nèi)容編碼器并利用I2V生成模型,GenProp能夠始終保持未改變的內(nèi)容,同時動態(tài)傳播變化。合成數(shù)據(jù)和區(qū)域感知損失進一步提升了其在跨幀解耦和細化編輯方面的能力。實驗結(jié)果表明,GenProp在范圍和精度上均優(yōu)于現(xiàn)有方法,確立了其作為一種強大、靈活的解決方案的地位。未來,計劃擴展該模型以支持多個關鍵幀的編輯,并探索可以支持的其他視頻任務。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
