賈佳亞團(tuán)隊(duì)聯(lián)合Adobe提出GenProp,物體追蹤移除特效樣樣在行
論文一作劉少騰,Adobe Research實(shí)習(xí)生,香港中文大學(xué)博士生(DV Lab),師從賈佳亞教授。主要研究方向是多模態(tài)大模型和生成模型,包含圖像視頻的生成、理解與編輯。作者Tianyu Wang、Soo Ye Kim等均為Adobe Research Scientist。
- 論文地址:https://arxiv.org/pdf/2412.19761
- 項(xiàng)目地址:https://genprop.github.io/
- 視頻地址:https://www.youtube.com/watch?v=GC8qfWzZG1M
Text-to-Video 模型已展現(xiàn)出世界模擬器的潛力,這種潛力能革新傳統(tǒng)視覺(jué)任務(wù)嗎?
近日,賈佳亞團(tuán)隊(duì)聯(lián)手 Adobe 團(tuán)隊(duì),用 GenProp(Generative Video Propagation)來(lái)給出答案。
GenProp 可以完成幾乎所有 “傳播”( Propagation)任務(wù),即便是更接近感知任務(wù)的實(shí)例追蹤(Instance Tracking):
在人們的印象里,追蹤(Tracking)問(wèn)題已經(jīng)得到了很好的解決。SOTA 方法 SAM 在大規(guī)模分割數(shù)據(jù)上經(jīng)過(guò)了專門(mén)的訓(xùn)練,精度很高。然而,傳統(tǒng)感知方法的數(shù)據(jù)標(biāo)注很難覆蓋 “千變?nèi)f化” 的影子,強(qiáng)如 SAM 也會(huì)在這類問(wèn)題上犯錯(cuò)。
相比于 SAM v2.1,GenProp 展現(xiàn)出了生成模型特有的優(yōu)勢(shì):得益于 video generation 的基礎(chǔ)能力,模型可以完整地追蹤物體的 side effects,如狗和人的影子、反射等。
這給我們帶來(lái)了一些啟發(fā):
- 能夠生成的視覺(jué)現(xiàn)象,是否都能夠被感知?
- 生成式的大規(guī)模預(yù)訓(xùn)練,可能會(huì)彌補(bǔ)感知模型的一些缺陷。
GenProp 并不追求在某個(gè)問(wèn)題上成為定量的 SOTA,而是希望能夠發(fā)揮生成模型的作用,拓展每個(gè)問(wèn)題的邊界,展現(xiàn)之前方法做不到的事情。接下來(lái),我們會(huì)看到 GenProp 對(duì)物體移除、視頻補(bǔ)全、物體替換、背景替換、物體插入、視頻外繪等問(wèn)題的革新。
對(duì)于物體移除,傳統(tǒng)方法只能移除物體本身。和追蹤問(wèn)題類似,GenProp 也可以同時(shí)移除物體產(chǎn)生的 side effects,如反射、影子。這對(duì)于傳統(tǒng)方法很困難,因?yàn)閿?shù)據(jù)多變、難以收集,需要模型對(duì)物理規(guī)律有理解。
對(duì)于物體插入,GenProp 不僅能插入靜止物體,還可以產(chǎn)生合理的獨(dú)立運(yùn)動(dòng),如行駛的賽車、掉落的檸檬(符合物理規(guī)律)。
對(duì)于物體替換,GenProp 不止能編輯外觀(appearance editing),還能大幅改變替換物體的形狀,例如熊變成羊,人變成石臺(tái)。而依靠 attention map 的傳統(tǒng)視頻編輯方法,如 Video-P2P,都無(wú)法大幅改變形狀。
GenProp 還可以編輯特效,如使釣魚(yú)竿著火!須知,現(xiàn)階段的編輯算法大多圍繞物體和場(chǎng)景,對(duì)于特效的編輯能力都較弱。
對(duì)于背景替換,GenProp 能使生成物體和新背景的相互作用,適應(yīng)協(xié)調(diào):
除此之外,GenProp 在沒(méi)有 outpainting 數(shù)據(jù) pair 訓(xùn)練的情況下,涌現(xiàn)出了 outpainting 的能力,可以補(bǔ)全大面積運(yùn)動(dòng)的區(qū)域,體現(xiàn)了模型的通用能力:
化繁為簡(jiǎn):通用框架與通用數(shù)據(jù)對(duì)
GenProp 允許用戶在初始幀上做任意修改,并據(jù)此生成后續(xù)變化的內(nèi)容。
在推理過(guò)程中,GenProp 的框架通過(guò)選擇性內(nèi)容編碼器(Selective Content Encoder,SCE)接收原始視頻作為輸入,以保留未改變區(qū)域的內(nèi)容。首幀所做的更改會(huì)通過(guò) Image-to-Video(I2V)模型在整個(gè)視頻中傳播,而其他區(qū)域則保持不變。
如圖所示,Selective Content Encoder 負(fù)責(zé)重建原始視頻的信息,Image-to-Video 模型負(fù)責(zé)生產(chǎn)新的視頻信息。通過(guò)調(diào)整 Injection Weight,可以控制生成和重建的比例。
GenProp 的框架在 I2V 生成模型的基礎(chǔ)上集成了選擇性內(nèi)容編碼器(Selective Content Encoder,SCE)和掩碼預(yù)測(cè)解碼器(Mask Decoder),強(qiáng)制模型傳播編輯區(qū)域的同時(shí),保留原始視頻中其他所有區(qū)域的內(nèi)容。通過(guò) Copy & Paste 等合成數(shù)據(jù),模型被訓(xùn)練以傳播首幀中的各種變化,同時(shí)還可以預(yù)測(cè)每幀中被編輯區(qū)域的位置。
如圖所示,訓(xùn)練過(guò)程中,僅需放開(kāi) Selective Content Encoder 和 Mask Decoder 的參數(shù)。合成數(shù)據(jù)只作為 Selective Content Encoder 的輸入,用于監(jiān)督的模型輸出數(shù)據(jù)均采用原始視頻,從而保證了模型輸出的視頻質(zhì)量不會(huì)被降低。這也意味著,原始視頻的 caption 可以直接送入 text encoder。
具體來(lái)說(shuō),文章對(duì)實(shí)例分割數(shù)據(jù)采用了多種數(shù)據(jù)制造技術(shù),針對(duì)不同的傳播子任務(wù)進(jìn)行了設(shè)計(jì):
(1) Copy-and-Paste:從一個(gè)視頻中隨機(jī)分割物體并粘貼到另一個(gè)視頻中,模擬物體移除;
(2) Mask-and-Fill:對(duì)遮罩區(qū)域進(jìn)行圖像修復(fù),模擬選定區(qū)域內(nèi)的編輯效果;
(3) Color Fill:用特定顏色填充遮罩區(qū)域,代表基本的物體跟蹤場(chǎng)景。
Copy & Paste 合成數(shù)據(jù)如圖所示(Video1 和 Video2 是隨機(jī)采樣的視頻):
可以看出,GenProp 的數(shù)據(jù)對(duì)并無(wú)涵蓋所有的應(yīng)用場(chǎng)景,但數(shù)據(jù)量很大。通過(guò)有限的構(gòu)造數(shù)據(jù),SCE 和 I2V 的分工得到了充分訓(xùn)練,實(shí)現(xiàn)了 “無(wú)限” 應(yīng)用,如特效編輯、outpainting 等。
除此之外,GenProp 提出了區(qū)域感知損失(Region-Aware Loss)。該 loss 通過(guò)限制梯度的方式,削弱了 SCE 對(duì)于編輯區(qū)域的影響,幫助模型將編輯區(qū)域與原始內(nèi)容區(qū)分開(kāi)來(lái)。
可以觀察到,在注意力圖可視化過(guò)程中,注意力圖逐漸聚焦于要移除的區(qū)域(左邊的天鵝),引導(dǎo) I2V 模型在這些區(qū)域內(nèi)生成新內(nèi)容,符合訓(xùn)練的預(yù)期:
總結(jié)
本文搭建了一個(gè)通用的框架,把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆P?GenProp,可將一幀的修改傳播到整個(gè)視頻。對(duì)于去除任務(wù),模型可去除物體的 side effects(如影子、反射)。對(duì)于修改任務(wù),模型可修改物體的一小部分,也可進(jìn)行較大形變的修改。對(duì)于背景修改,模型能夠生成物體和新背景的相互作用。對(duì)于物體插入,模型能夠允許物體獨(dú)立的運(yùn)動(dòng)。對(duì)于物體追蹤,模型能夠同時(shí)追蹤 side effects(如影子、反射)。此外,模型還涌現(xiàn)出了如 outpainting 等新能力。