自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

賈佳亞團(tuán)隊(duì)聯(lián)合Adobe提出GenProp,物體追蹤移除特效樣樣在行

人工智能 新聞
本文搭建了一個(gè)通用的框架,把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆P?GenProp,可將一幀的修改傳播到整個(gè)視頻。

論文一作劉少騰,Adobe Research實(shí)習(xí)生,香港中文大學(xué)博士生(DV Lab),師從賈佳亞教授。主要研究方向是多模態(tài)大模型和生成模型,包含圖像視頻的生成、理解與編輯。作者Tianyu Wang、Soo Ye Kim等均為Adobe Research Scientist。

圖片

  • 論文地址:https://arxiv.org/pdf/2412.19761
  • 項(xiàng)目地址:https://genprop.github.io/
  • 視頻地址:https://www.youtube.com/watch?v=GC8qfWzZG1M

Text-to-Video 模型已展現(xiàn)出世界模擬器的潛力,這種潛力能革新傳統(tǒng)視覺(jué)任務(wù)嗎?

近日,賈佳亞團(tuán)隊(duì)聯(lián)手 Adobe 團(tuán)隊(duì),用 GenProp(Generative Video Propagation)來(lái)給出答案。

GenProp 可以完成幾乎所有 “傳播”( Propagation)任務(wù),即便是更接近感知任務(wù)的實(shí)例追蹤(Instance Tracking)

在人們的印象里,追蹤(Tracking)問(wèn)題已經(jīng)得到了很好的解決。SOTA 方法 SAM 在大規(guī)模分割數(shù)據(jù)上經(jīng)過(guò)了專門(mén)的訓(xùn)練,精度很高。然而,傳統(tǒng)感知方法的數(shù)據(jù)標(biāo)注很難覆蓋 “千變?nèi)f化” 的影子,強(qiáng)如 SAM 也會(huì)在這類問(wèn)題上犯錯(cuò)。

圖片


相比于 SAM v2.1,GenProp 展現(xiàn)出了生成模型特有的優(yōu)勢(shì):得益于 video generation 的基礎(chǔ)能力,模型可以完整地追蹤物體的 side effects,如狗和人的影子、反射等。

這給我們帶來(lái)了一些啟發(fā):

  • 能夠生成的視覺(jué)現(xiàn)象,是否都能夠被感知?
  • 生成式的大規(guī)模預(yù)訓(xùn)練,可能會(huì)彌補(bǔ)感知模型的一些缺陷。

GenProp 并不追求在某個(gè)問(wèn)題上成為定量的 SOTA,而是希望能夠發(fā)揮生成模型的作用,拓展每個(gè)問(wèn)題的邊界,展現(xiàn)之前方法做不到的事情。接下來(lái),我們會(huì)看到 GenProp 對(duì)物體移除、視頻補(bǔ)全、物體替換、背景替換、物體插入、視頻外繪等問(wèn)題的革新。

對(duì)于物體移除,傳統(tǒng)方法只能移除物體本身。和追蹤問(wèn)題類似,GenProp 也可以同時(shí)移除物體產(chǎn)生的 side effects,如反射、影子。這對(duì)于傳統(tǒng)方法很困難,因?yàn)閿?shù)據(jù)多變、難以收集,需要模型對(duì)物理規(guī)律有理解。

圖片

對(duì)于物體插入,GenProp 不僅能插入靜止物體,還可以產(chǎn)生合理的獨(dú)立運(yùn)動(dòng),如行駛的賽車、掉落的檸檬(符合物理規(guī)律)。

圖片

圖片

對(duì)于物體替換,GenProp 不止能編輯外觀(appearance editing),還能大幅改變替換物體的形狀,例如熊變成羊,人變成石臺(tái)。而依靠 attention map 的傳統(tǒng)視頻編輯方法,如 Video-P2P,都無(wú)法大幅改變形狀。

圖片

圖片

GenProp 還可以編輯特效,如使釣魚(yú)竿著火!須知,現(xiàn)階段的編輯算法大多圍繞物體和場(chǎng)景,對(duì)于特效的編輯能力都較弱。

圖片

圖片

對(duì)于背景替換,GenProp 能使生成物體和新背景的相互作用,適應(yīng)協(xié)調(diào):

圖片

圖片

除此之外,GenProp 在沒(méi)有 outpainting 數(shù)據(jù) pair 訓(xùn)練的情況下,涌現(xiàn)出了 outpainting 的能力,可以補(bǔ)全大面積運(yùn)動(dòng)的區(qū)域,體現(xiàn)了模型的通用能力:

圖片

圖片

化繁為簡(jiǎn):通用框架與通用數(shù)據(jù)對(duì)

GenProp 允許用戶在初始幀上做任意修改,并據(jù)此生成后續(xù)變化的內(nèi)容。

在推理過(guò)程中,GenProp 的框架通過(guò)選擇性內(nèi)容編碼器(Selective Content Encoder,SCE)接收原始視頻作為輸入,以保留未改變區(qū)域的內(nèi)容。首幀所做的更改會(huì)通過(guò) Image-to-Video(I2V)模型在整個(gè)視頻中傳播,而其他區(qū)域則保持不變。

圖片


如圖所示,Selective Content Encoder 負(fù)責(zé)重建原始視頻的信息,Image-to-Video 模型負(fù)責(zé)生產(chǎn)新的視頻信息。通過(guò)調(diào)整 Injection Weight,可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基礎(chǔ)上集成了選擇性內(nèi)容編碼器(Selective Content Encoder,SCE)和掩碼預(yù)測(cè)解碼器(Mask Decoder),強(qiáng)制模型傳播編輯區(qū)域的同時(shí),保留原始視頻中其他所有區(qū)域的內(nèi)容。通過(guò) Copy & Paste 等合成數(shù)據(jù),模型被訓(xùn)練以傳播首幀中的各種變化,同時(shí)還可以預(yù)測(cè)每幀中被編輯區(qū)域的位置。

圖片

如圖所示,訓(xùn)練過(guò)程中,僅需放開(kāi) Selective Content Encoder 和 Mask Decoder 的參數(shù)。合成數(shù)據(jù)只作為 Selective Content Encoder 的輸入,用于監(jiān)督的模型輸出數(shù)據(jù)均采用原始視頻,從而保證了模型輸出的視頻質(zhì)量不會(huì)被降低。這也意味著,原始視頻的 caption 可以直接送入 text encoder。

具體來(lái)說(shuō),文章對(duì)實(shí)例分割數(shù)據(jù)采用了多種數(shù)據(jù)制造技術(shù),針對(duì)不同的傳播子任務(wù)進(jìn)行了設(shè)計(jì):

(1) Copy-and-Paste:從一個(gè)視頻中隨機(jī)分割物體并粘貼到另一個(gè)視頻中,模擬物體移除;

(2) Mask-and-Fill:對(duì)遮罩區(qū)域進(jìn)行圖像修復(fù),模擬選定區(qū)域內(nèi)的編輯效果;

(3) Color Fill:用特定顏色填充遮罩區(qū)域,代表基本的物體跟蹤場(chǎng)景。

Copy & Paste 合成數(shù)據(jù)如圖所示(Video1 和 Video2 是隨機(jī)采樣的視頻):

圖片

可以看出,GenProp 的數(shù)據(jù)對(duì)并無(wú)涵蓋所有的應(yīng)用場(chǎng)景,但數(shù)據(jù)量很大。通過(guò)有限的構(gòu)造數(shù)據(jù),SCE 和 I2V 的分工得到了充分訓(xùn)練,實(shí)現(xiàn)了 “無(wú)限” 應(yīng)用,如特效編輯、outpainting 等。

除此之外,GenProp 提出了區(qū)域感知損失(Region-Aware Loss)。該 loss 通過(guò)限制梯度的方式,削弱了 SCE 對(duì)于編輯區(qū)域的影響,幫助模型將編輯區(qū)域與原始內(nèi)容區(qū)分開(kāi)來(lái)。

圖片

可以觀察到,在注意力圖可視化過(guò)程中,注意力圖逐漸聚焦于要移除的區(qū)域(左邊的天鵝),引導(dǎo) I2V 模型在這些區(qū)域內(nèi)生成新內(nèi)容,符合訓(xùn)練的預(yù)期:

圖片

總結(jié)

本文搭建了一個(gè)通用的框架,把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆P?GenProp,可將一幀的修改傳播到整個(gè)視頻。對(duì)于去除任務(wù),模型可去除物體的 side effects(如影子、反射)。對(duì)于修改任務(wù),模型可修改物體的一小部分,也可進(jìn)行較大形變的修改。對(duì)于背景修改,模型能夠生成物體和新背景的相互作用。對(duì)于物體插入,模型能夠允許物體獨(dú)立的運(yùn)動(dòng)。對(duì)于物體追蹤,模型能夠同時(shí)追蹤 side effects(如影子、反射)。此外,模型還涌現(xiàn)出了如 outpainting 等新能力。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-08-09 17:38:47

模型AI

2023-10-04 10:38:38

模型方法

2025-04-03 11:16:10

2024-07-18 12:56:29

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2024-07-08 08:38:00

模型推理

2024-04-15 12:28:00

AI模型

2024-04-15 12:54:39

2021-07-19 14:48:55

人工智能AI無(wú)人機(jī)

2023-12-10 15:05:47

AI模型

2023-10-09 14:17:00

AI模型

2024-05-06 12:24:00

模型訓(xùn)練

2019-05-22 13:28:59

騰訊優(yōu)圖AI人工智能

2020-01-27 23:25:17

亞信安全火神山醫(yī)院網(wǎng)絡(luò)安全

2022-08-29 09:22:42

AI論文

2010-02-06 09:36:46

gPadChrome

2023-09-01 14:49:09

AI微軟

2023-11-10 12:58:00

模型數(shù)據(jù)

2025-03-31 08:46:00

圖像AI生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)