自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="093p3"></center>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

賈佳亞團(tuán)隊(duì)聯(lián)合Adobe提出GenProp，物體追蹤移除特效樣樣在行

作者：機(jī)器之心 2025-01-24 14:14:35

人工智能新聞

本文搭建了一個(gè)通用的框架，把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆Ｐ?GenProp，可將一幀的修改傳播到整個(gè)視頻。

論文一作劉少騰，Adobe Research實(shí)習(xí)生，香港中文大學(xué)博士生（DV Lab），師從賈佳亞教授。主要研究方向是多模態(tài)大模型和生成模型，包含圖像視頻的生成、理解與編輯。作者Tianyu Wang、Soo Ye Kim等均為Adobe Research Scientist。

論文地址：https://arxiv.org/pdf/2412.19761
項(xiàng)目地址：https://genprop.github.io/
視頻地址：https://www.youtube.com/watch?v=GC8qfWzZG1M

Text-to-Video 模型已展現(xiàn)出世界模擬器的潛力，這種潛力能革新傳統(tǒng)視覺(jué)任務(wù)嗎？

近日，賈佳亞團(tuán)隊(duì)聯(lián)手 Adobe 團(tuán)隊(duì)，用 GenProp（Generative Video Propagation）來(lái)給出答案。

GenProp 可以完成幾乎所有 “傳播”（ Propagation）任務(wù)，即便是更接近感知任務(wù)的實(shí)例追蹤（Instance Tracking）：

在人們的印象里，追蹤（Tracking）問(wèn)題已經(jīng)得到了很好的解決。SOTA 方法 SAM 在大規(guī)模分割數(shù)據(jù)上經(jīng)過(guò)了專門(mén)的訓(xùn)練，精度很高。然而，傳統(tǒng)感知方法的數(shù)據(jù)標(biāo)注很難覆蓋 “千變?nèi)f化” 的影子，強(qiáng)如 SAM 也會(huì)在這類問(wèn)題上犯錯(cuò)。

相比于 SAM v2.1，GenProp 展現(xiàn)出了生成模型特有的優(yōu)勢(shì)：得益于 video generation 的基礎(chǔ)能力，模型可以完整地追蹤物體的 side effects，如狗和人的影子、反射等。

這給我們帶來(lái)了一些啟發(fā)：

能夠生成的視覺(jué)現(xiàn)象，是否都能夠被感知？
生成式的大規(guī)模預(yù)訓(xùn)練，可能會(huì)彌補(bǔ)感知模型的一些缺陷。

GenProp 并不追求在某個(gè)問(wèn)題上成為定量的 SOTA，而是希望能夠發(fā)揮生成模型的作用，拓展每個(gè)問(wèn)題的邊界，展現(xiàn)之前方法做不到的事情。接下來(lái)，我們會(huì)看到 GenProp 對(duì)物體移除、視頻補(bǔ)全、物體替換、背景替換、物體插入、視頻外繪等問(wèn)題的革新。

對(duì)于物體移除，傳統(tǒng)方法只能移除物體本身。和追蹤問(wèn)題類似，GenProp 也可以同時(shí)移除物體產(chǎn)生的 side effects，如反射、影子。這對(duì)于傳統(tǒng)方法很困難，因?yàn)閿?shù)據(jù)多變、難以收集，需要模型對(duì)物理規(guī)律有理解。

對(duì)于物體插入，GenProp 不僅能插入靜止物體，還可以產(chǎn)生合理的獨(dú)立運(yùn)動(dòng)，如行駛的賽車、掉落的檸檬（符合物理規(guī)律）。

對(duì)于物體替換，GenProp 不止能編輯外觀（appearance editing），還能大幅改變替換物體的形狀，例如熊變成羊，人變成石臺(tái)。而依靠 attention map 的傳統(tǒng)視頻編輯方法，如 Video-P2P，都無(wú)法大幅改變形狀。

GenProp 還可以編輯特效，如使釣魚(yú)竿著火！須知，現(xiàn)階段的編輯算法大多圍繞物體和場(chǎng)景，對(duì)于特效的編輯能力都較弱。

對(duì)于背景替換，GenProp 能使生成物體和新背景的相互作用，適應(yīng)協(xié)調(diào)：

除此之外，GenProp 在沒(méi)有 outpainting 數(shù)據(jù) pair 訓(xùn)練的情況下，涌現(xiàn)出了 outpainting 的能力，可以補(bǔ)全大面積運(yùn)動(dòng)的區(qū)域，體現(xiàn)了模型的通用能力：

化繁為簡(jiǎn)：通用框架與通用數(shù)據(jù)對(duì)

GenProp 允許用戶在初始幀上做任意修改，并據(jù)此生成后續(xù)變化的內(nèi)容。

在推理過(guò)程中，GenProp 的框架通過(guò)選擇性內(nèi)容編碼器（Selective Content Encoder，SCE）接收原始視頻作為輸入，以保留未改變區(qū)域的內(nèi)容。首幀所做的更改會(huì)通過(guò) Image-to-Video（I2V）模型在整個(gè)視頻中傳播，而其他區(qū)域則保持不變。

如圖所示，Selective Content Encoder 負(fù)責(zé)重建原始視頻的信息，Image-to-Video 模型負(fù)責(zé)生產(chǎn)新的視頻信息。通過(guò)調(diào)整 Injection Weight，可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基礎(chǔ)上集成了選擇性內(nèi)容編碼器（Selective Content Encoder，SCE）和掩碼預(yù)測(cè)解碼器（Mask Decoder），強(qiáng)制模型傳播編輯區(qū)域的同時(shí)，保留原始視頻中其他所有區(qū)域的內(nèi)容。通過(guò) Copy & Paste 等合成數(shù)據(jù)，模型被訓(xùn)練以傳播首幀中的各種變化，同時(shí)還可以預(yù)測(cè)每幀中被編輯區(qū)域的位置。

如圖所示，訓(xùn)練過(guò)程中，僅需放開(kāi) Selective Content Encoder 和 Mask Decoder 的參數(shù)。合成數(shù)據(jù)只作為 Selective Content Encoder 的輸入，用于監(jiān)督的模型輸出數(shù)據(jù)均采用原始視頻，從而保證了模型輸出的視頻質(zhì)量不會(huì)被降低。這也意味著，原始視頻的 caption 可以直接送入 text encoder。

具體來(lái)說(shuō)，文章對(duì)實(shí)例分割數(shù)據(jù)采用了多種數(shù)據(jù)制造技術(shù)，針對(duì)不同的傳播子任務(wù)進(jìn)行了設(shè)計(jì)：

(1) Copy-and-Paste：從一個(gè)視頻中隨機(jī)分割物體并粘貼到另一個(gè)視頻中，模擬物體移除；

(2) Mask-and-Fill：對(duì)遮罩區(qū)域進(jìn)行圖像修復(fù)，模擬選定區(qū)域內(nèi)的編輯效果；

(3) Color Fill：用特定顏色填充遮罩區(qū)域，代表基本的物體跟蹤場(chǎng)景。

Copy & Paste 合成數(shù)據(jù)如圖所示（Video1 和 Video2 是隨機(jī)采樣的視頻）：

可以看出，GenProp 的數(shù)據(jù)對(duì)并無(wú)涵蓋所有的應(yīng)用場(chǎng)景，但數(shù)據(jù)量很大。通過(guò)有限的構(gòu)造數(shù)據(jù)，SCE 和 I2V 的分工得到了充分訓(xùn)練，實(shí)現(xiàn)了 “無(wú)限” 應(yīng)用，如特效編輯、outpainting 等。

除此之外，GenProp 提出了區(qū)域感知損失（Region-Aware Loss）。該 loss 通過(guò)限制梯度的方式，削弱了 SCE 對(duì)于編輯區(qū)域的影響，幫助模型將編輯區(qū)域與原始內(nèi)容區(qū)分開(kāi)來(lái)。

可以觀察到，在注意力圖可視化過(guò)程中，注意力圖逐漸聚焦于要移除的區(qū)域（左邊的天鵝），引導(dǎo) I2V 模型在這些區(qū)域內(nèi)生成新內(nèi)容，符合訓(xùn)練的預(yù)期：

總結(jié)

本文搭建了一個(gè)通用的框架，把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆Ｐ?GenProp，可將一幀的修改傳播到整個(gè)視頻。對(duì)于去除任務(wù)，模型可去除物體的 side effects（如影子、反射）。對(duì)于修改任務(wù)，模型可修改物體的一小部分，也可進(jìn)行較大形變的修改。對(duì)于背景修改，模型能夠生成物體和新背景的相互作用。對(duì)于物體插入，模型能夠允許物體獨(dú)立的運(yùn)動(dòng)。對(duì)于物體追蹤，模型能夠同時(shí)追蹤 side effects（如影子、反射）。此外，模型還涌現(xiàn)出了如 outpainting 等新能力。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型框架視頻

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="zwfvf"></cite>

<legend id="zwfvf"><track id="zwfvf"></track></legend>

<sub id="zwfvf"></sub>

<cite id="zwfvf"><track id="zwfvf"><sub id="zwfvf"></sub></track></cite>

<sub id="zwfvf"><p id="zwfvf"></p></sub>

<u id="zwfvf"></u>