自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="wpysd"><p id="wpysd"></p></blockquote>

<style id="wpysd"><rp id="wpysd"><tbody id="wpysd"></tbody></rp></style>

<sub id="wpysd"><i id="wpysd"></i></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)

發(fā)布于 2025-2-28 10:36

瀏覽

0收藏

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2502.17258
git 鏈接：https://knightyxp.github.io/VideoGrain_project_page/

亮點(diǎn)直擊

首次嘗試多粒度視頻編輯的方法。支持類(lèi)別級(jí)、實(shí)例級(jí)和局部級(jí)的編輯。
提出了一個(gè)新穎的框架，稱(chēng)為VideoGrain，該框架通過(guò)調(diào)節(jié)時(shí)空跨注意力和自注意力，實(shí)現(xiàn)文本到區(qū)域的控制以及區(qū)域間特征的分離。
在無(wú)需調(diào)整任何參數(shù)的情況下，在現(xiàn)有基準(zhǔn)測(cè)試和真實(shí)世界視頻上都取得了定性和定量的最新成果。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

多粒度視頻編輯的挑戰(zhàn)，特別是文本到區(qū)域控制的語(yǔ)義不匹配和擴(kuò)散模型內(nèi)部的特征耦合問(wèn)題。

提出的方案

提出了一種名為VideoGrain的零樣本方法，通過(guò)調(diào)節(jié)時(shí)空（跨注意力和自注意力）機(jī)制，實(shí)現(xiàn)對(duì)視頻內(nèi)容的精細(xì)化控制。

應(yīng)用的技術(shù)

增強(qiáng)局部提示對(duì)其對(duì)應(yīng)空間解耦區(qū)域的注意力，減少跨注意力中與無(wú)關(guān)區(qū)域的交互。
提升區(qū)域內(nèi)部的感知能力，減少區(qū)域之間的干擾，以改進(jìn)特征分離。

達(dá)到的效果

實(shí)現(xiàn)了支持類(lèi)別級(jí)、實(shí)例級(jí)和局部級(jí)的多粒度視頻編輯。
在無(wú)需調(diào)整參數(shù)的情況下，在現(xiàn)有基準(zhǔn)測(cè)試和真實(shí)世界視頻上取得了定性和定量的SOTA成果。

方法

動(dòng)機(jī)

為了解釋為什么以往的方法在實(shí)例級(jí)視頻編輯中失?。ㄒ?jiàn)下圖2），首先對(duì)擴(kuò)散模型中的自注意力和跨注意力特征進(jìn)行了基本分析。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

如下圖3(b)所示，在DDIM反演過(guò)程中對(duì)每幀的自注意力特征應(yīng)用了K-Means聚類(lèi)。雖然聚類(lèi)捕捉到了清晰的語(yǔ)義布局，但未能區(qū)分不同的實(shí)例（例如，“左邊的男人”和“右邊的男人”）。增加聚類(lèi)數(shù)量會(huì)導(dǎo)致部分級(jí)別的更細(xì)分割，但無(wú)法解決這個(gè)問(wèn)題，這表明實(shí)例間特征的同質(zhì)性限制了擴(kuò)散模型在多粒度視頻編輯中的有效性。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

接下來(lái)，嘗試使用SDEdit將同一類(lèi)的兩個(gè)男人編輯為不同的實(shí)例。然而，上圖3(d)顯示，“鋼鐵俠”和“蜘蛛俠”的權(quán)重在左邊的男人上重疊，“花朵”的權(quán)重泄漏到右邊的男人上，導(dǎo)致了(c)中的編輯失敗。因此，為了實(shí)現(xiàn)有效的多粒度編輯，提出以下問(wèn)題：我們能否調(diào)節(jié)注意力，以確保每個(gè)局部編輯的注意力權(quán)重準(zhǔn)確分布在預(yù)期區(qū)域？

本文提出了VideoGrain的兩個(gè)關(guān)鍵設(shè)計(jì)：(1) 調(diào)節(jié)跨注意力以引導(dǎo)文本特征聚集在相應(yīng)的空間解耦區(qū)域，從而實(shí)現(xiàn)文本到區(qū)域的控制。(2) 在時(shí)空軸上調(diào)節(jié)自注意力，以增強(qiáng)區(qū)域內(nèi)的焦點(diǎn)并減少區(qū)域間的干擾，避免擴(kuò)散模型中的特征耦合。

問(wèn)題表述

本工作的目的是基于給定的提示在多個(gè)區(qū)域進(jìn)行多粒度視頻編輯。這涉及三個(gè)層次的編輯：

(1) 類(lèi)別級(jí)編輯： 編輯同一類(lèi)別內(nèi)的對(duì)象。（例如，將兩個(gè)男人變?yōu)椤爸┲雮b”，兩者都屬于人類(lèi)類(lèi)別，如上圖2第二列所示）

(2) 實(shí)例級(jí)編輯： 將每個(gè)單獨(dú)實(shí)例編輯為不同的對(duì)象。（例如，將左邊的男人編輯為“蜘蛛俠”，右邊的男人編輯為“北極熊”，如圖2第三列所示）

(3) 部分級(jí)編輯： 對(duì)單個(gè)實(shí)例的特定元素進(jìn)行部分級(jí)別的編輯。（例如，在將右邊的男人編輯為“北極熊”時(shí)添加“太陽(yáng)鏡”，如上圖2第四列所示）

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

整體框架

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

與通過(guò)一個(gè)全局文本提示控制所有幀的方法不同，VideoGrain 允許在去噪過(guò)程中指定配對(duì)的實(shí)例級(jí)或部分級(jí)提示及其位置。我們的方法還可以靈活地結(jié)合 ControlNet 條件e ，例如深度圖或姿態(tài)圖，以提供結(jié)構(gòu)化條件。

時(shí)空布局引導(dǎo)的注意力

基于前文的觀察，跨注意力權(quán)重分布與編輯結(jié)果密切相關(guān)。同時(shí)，自注意力對(duì)于生成時(shí)間一致性視頻也至關(guān)重要。然而，一個(gè)區(qū)域內(nèi)的像素可能會(huì)關(guān)注到外部或相似的區(qū)域，這對(duì)多粒度視頻編輯造成了障礙。因此需要調(diào)節(jié)自注意力和跨注意力，使每個(gè)像素或局部提示僅關(guān)注正確的區(qū)域。

為實(shí)現(xiàn)這一目標(biāo)，通過(guò)統(tǒng)一的“增強(qiáng)正向關(guān)聯(lián)、減少負(fù)向關(guān)聯(lián)”機(jī)制調(diào)節(jié)跨注意力和自注意力。具體而言，對(duì)于查詢(xún)特征的第i幀，我們對(duì)查詢(xún)-鍵（Query-Key）條件映射QK進(jìn)行如下調(diào)節(jié)：

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

調(diào)節(jié)跨注意力以實(shí)現(xiàn)文本到區(qū)域控制 在跨注意力層中，文本特征作為鍵（key）和值（value），并與來(lái)自視頻潛變量的查詢(xún)特征進(jìn)行交互。由于每個(gè)實(shí)例的外觀和位置與跨注意力權(quán)重分布密切相關(guān)，我們的目標(biāo)是將每個(gè)實(shí)例的文本特征聚集到對(duì)應(yīng)的位置。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

如上圖4（中右）所示，在添加正值和減去負(fù)值后，“Spiderman”的原始跨注意力權(quán)重（例如p，）被放大并集中在左邊的人身上。而“polar”“bear”的干擾權(quán)重則集中在右邊的人身上。這表明我們的調(diào)節(jié)將每個(gè)提示的權(quán)重重新分配到目標(biāo)區(qū)域上，實(shí)現(xiàn)了精確的文本到區(qū)域控制。

調(diào)節(jié)自注意力以保持特征分離 為了使T2I模型適應(yīng)T2V編輯，將整個(gè)視頻視為“一個(gè)更大的圖像”，用時(shí)空自注意力替換空間注意力，同時(shí)保留預(yù)訓(xùn)練權(quán)重。這增強(qiáng)了跨幀交互，并提供了更廣泛的視覺(jué)上下文。然而，簡(jiǎn)單的自注意力可能導(dǎo)致區(qū)域關(guān)注不相關(guān)或相似的區(qū)域（例如，圖4底部，調(diào)節(jié)前查詢(xún)p關(guān)注兩個(gè)人），這會(huì)導(dǎo)致紋理混合。為了解決這個(gè)問(wèn)題，需要加強(qiáng)同一區(qū)域內(nèi)的正向關(guān)注，并限制不同區(qū)域之間的負(fù)向交互。

如上圖4（左下）所示，最大跨幀擴(kuò)散特征表示同一區(qū)域內(nèi)標(biāo)記之間的最強(qiáng)響應(yīng)。請(qǐng)注意，DIFT使用這一點(diǎn)來(lái)匹配不同的圖像，而我們專(zhuān)注于生成過(guò)程中的跨幀對(duì)應(yīng)和區(qū)域內(nèi)部注意力調(diào)節(jié)。然而，負(fù)向的區(qū)域間對(duì)應(yīng)對(duì)于解耦特征混合同樣重要。超越DIFT，我們發(fā)現(xiàn)最小的跨幀擴(kuò)散特征相似性可以有效地捕捉不同區(qū)域之間標(biāo)記的關(guān)系。因此，定義時(shí)空正/負(fù)值為：

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

為了確保每個(gè)patch關(guān)注區(qū)域內(nèi)的特征，同時(shí)避免區(qū)域間特征的交互，我們定義了時(shí)空查詢(xún)-鍵條件映射：

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

對(duì)于幀索引i和j，當(dāng)token屬于跨幀的不同實(shí)例時(shí)，其值為零。

如上圖4底部右側(cè)所示，在應(yīng)用我們的自注意力調(diào)節(jié)后，來(lái)自左側(cè)人物鼻子（例如，）的查詢(xún)特征僅關(guān)注左側(cè)實(shí)例，避免了對(duì)右側(cè)實(shí)例的干擾。這表明，我們的自注意力調(diào)節(jié)打破了擴(kuò)散模型的類(lèi)別級(jí)特征對(duì)應(yīng)性，確保了實(shí)例級(jí)的特征分離。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

在實(shí)驗(yàn)中，采用預(yù)訓(xùn)練的Stable Diffusion v1.5作為基礎(chǔ)模型，使用50步的DDIM反演和去噪過(guò)程。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

所有實(shí)驗(yàn)均在NVIDIA A40 GPU上進(jìn)行。使用包含76個(gè)視頻-文本對(duì)的數(shù)據(jù)集評(píng)估VideoGrain，包括來(lái)自DAVIS (Perazzi et al., 2016)、TGVE1以及互聯(lián)網(wǎng)的視頻，每個(gè)視頻包含16-32幀。使用四個(gè)自動(dòng)化指標(biāo)進(jìn)行評(píng)估：CLIP-T、CLIP-F、Warp-Err和Q-edit，這些指標(biāo)參考(Wu et al., 2022; Cong et al., 2023)，并全部縮放為100以便于展示。

對(duì)于基線(xiàn)方法，與以下T2I方法進(jìn)行比較，包括FateZero、ControlVideo、TokenFlow、GroundVideo以及T2V方法DMT。為了確保時(shí)間一致性，我們采用FLATTEN和PnP。為了公平起見(jiàn)，所有T2I基線(xiàn)均配備相同的ControlNet條件。

結(jié)果

在涵蓋類(lèi)別級(jí)、實(shí)例級(jí)和部分級(jí)編輯的視頻上評(píng)估了VideoGrain。本文的方法展示了在處理動(dòng)物方面的多功能性，例如將“狼”轉(zhuǎn)變?yōu)椤柏i”（下圖5，左上）。對(duì)于實(shí)例級(jí)編輯，可以分別修改車(chē)輛（例如，將“SUV”轉(zhuǎn)變?yōu)椤跋儡?chē)”，將“貨車(chē)”轉(zhuǎn)變?yōu)椤靶＼?chē)”），如下圖5右上所示。VideoGrain在編輯復(fù)雜遮擋場(chǎng)景中的多個(gè)實(shí)例方面表現(xiàn)出色，例如“蜘蛛俠和神奇女俠打羽毛球”（下圖5，中左）。以前的方法往往在處理這種非剛性運(yùn)動(dòng)時(shí)表現(xiàn)不佳。此外，本文的方法能夠進(jìn)行多區(qū)域編輯，既可以編輯前景也可以編輯背景，如肥皂盒場(chǎng)景中，背景變?yōu)椤吧种械暮祥L(zhǎng)滿(mǎn)苔蘚的石橋”（下圖5，中右）。得益于精確的注意力權(quán)重分配，可以無(wú)縫交換身份，例如在慢跑場(chǎng)景中，“鋼鐵俠”和“蜘蛛俠”交換身份（下圖5，左下）。對(duì)于部分級(jí)編輯，VideoGrain在調(diào)整角色穿上超人服裝的同時(shí)保持太陽(yáng)鏡不變方面表現(xiàn)出色（下圖5，右下）?？傮w而言，對(duì)于多粒度編輯，VideoGrain表現(xiàn)出色。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

定性和定量比較

定性比較。下圖6展示了VideoGrain與基線(xiàn)方法之間的比較，包括T2I和T2V方法的實(shí)例級(jí)和部分級(jí)編輯。為公平起見(jiàn)，所有T2I方法都使用ControlNet條件。(1) 動(dòng)物實(shí)例：在左列，T2I方法如FateZero、ControlVideo和TokenFlow由于擴(kuò)散模型中相同類(lèi)別特征耦合，將兩只貓都編輯成熊貓，未能進(jìn)行單獨(dú)編輯。即使是具有視頻生成先驗(yàn)的DMT，也仍然將熊貓和玩具貴賓犬的特征混合在一起。相比之下，VideoGrain成功地將一個(gè)編輯成熊貓，另一個(gè)編輯成玩具貴賓犬。(2) 人類(lèi)實(shí)例：在中間列，基線(xiàn)方法在相同類(lèi)別特征耦合方面表現(xiàn)不佳，部分將兩個(gè)人都編輯成鋼鐵俠。DMT和Ground-A-Video也未能遵循用戶(hù)意圖，錯(cuò)誤地編輯了左右實(shí)例。VideoGrain則正確地將右側(cè)人物轉(zhuǎn)變?yōu)楹镒樱蚱屏巳祟?lèi)類(lèi)別的限制。(3) 部分級(jí)編輯：在第三列，VideoGrain處理部分級(jí)編輯，如太陽(yáng)鏡和拳擊手套。ControlVideo編輯了手套，但在太陽(yáng)鏡和運(yùn)動(dòng)一致性方面表現(xiàn)不佳。TokenFlow和DMT編輯了太陽(yáng)鏡，但未能修改手套或背景。相比之下，VideoGrain實(shí)現(xiàn)了實(shí)例級(jí)和部分級(jí)編輯，顯著優(yōu)于以前的方法。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

定量比較。使用自動(dòng)化指標(biāo)和人工評(píng)估來(lái)比較不同方法的性能。CLIP-T計(jì)算輸入提示與所有視頻幀之間的平均余弦相似度，而CLIP-F測(cè)量連續(xù)幀之間的平均余弦相似度。此外，Warp-Err通過(guò)根據(jù)源視頻的光流（使用RAFT-Large提?。┡で庉嫼蟮囊曨l幀來(lái)捕捉像素級(jí)差異。為了提供更全面的視頻編輯質(zhì)量度量，遵循(Cong et al., 2023)并使用Q-edit，定義為CLIP-T/Warp-Err。為了清晰起見(jiàn)，我們將所有自動(dòng)化指標(biāo)縮放為100。在人工評(píng)估方面，我們?cè)u(píng)估了三個(gè)關(guān)鍵方面：編輯準(zhǔn)確性（每個(gè)局部編輯是否準(zhǔn)確應(yīng)用）、時(shí)間一致性（參與者評(píng)估視頻幀之間的連貫性）和整體編輯質(zhì)量。

本工作邀請(qǐng)了20名參與者對(duì)76個(gè)視頻-文本對(duì)在這三個(gè)標(biāo)準(zhǔn)上進(jìn)行評(píng)分，評(píng)分范圍為20到100，遵循(Jeong & Ye, 2023)。如下表1所示，VideoGrain在T2I和T2V方法中始終表現(xiàn)優(yōu)異。這主要?dú)w功于ST-Layout Attn的精確文本到區(qū)域控制和保持區(qū)域之間的特征分離。因此，我們的方法在CLIP-T和編輯準(zhǔn)確性得分上顯著高于其他基線(xiàn)。改進(jìn)的Warp-Err和時(shí)間一致性指標(biāo)進(jìn)一步表明VideoGrain提供了時(shí)間上連貫的視頻編輯。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

效率比較。為了評(píng)估效率，在單個(gè)A6000 GPU上比較了基線(xiàn)方法和VideoGrain對(duì)16幀視頻的編輯。指標(biāo)包括編輯時(shí)間（執(zhí)行一次編輯所需的時(shí)間）以及GPU和CPU內(nèi)存使用情況。從下表2可以看出，我們的方法以最低的內(nèi)存使用實(shí)現(xiàn)了最快的編輯時(shí)間，表明其計(jì)算效率。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

消融研究

為了評(píng)估提出的ST-Layout Attn中不同組件的貢獻(xiàn)，首先評(píng)估我們的注意力機(jī)制是否能夠?qū)崿F(xiàn)注意力權(quán)重分布，然后解耦自注意力調(diào)制和交叉注意力調(diào)制以評(píng)估它們各自的有效性。

注意力權(quán)重分布。評(píng)估ST-Layout Attn對(duì)注意力權(quán)重分布的影響。如下圖7所示，目標(biāo)提示為“鋼鐵俠在雪地網(wǎng)球場(chǎng)打網(wǎng)球?！蔽覀兛梢暬恕叭恕钡慕徊孀⒁饬D以評(píng)估權(quán)重分布。沒(méi)有ST-Layout Attn時(shí)，特征混合發(fā)生，“雪”的權(quán)重溢出到“鋼鐵俠”上。有了ST-Layout Attn，人物的權(quán)重被正確分配。這是因?yàn)槲覀冊(cè)诮徊婧妥宰⒁饬χ性鰪?qiáng)了正對(duì)配對(duì)分?jǐn)?shù)并抑制了負(fù)對(duì)配對(duì)分?jǐn)?shù)。這使得“鋼鐵俠”和“雪”的精確、獨(dú)立編輯成為可能。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

交叉注意力調(diào)制。在下圖8和下表3中，展示了不同設(shè)置下的視頻編輯結(jié)果：(1) 基線(xiàn) (2) 基線(xiàn) + 交叉注意力調(diào)制 (3) 基線(xiàn) + 交叉注意力調(diào)制 + 自注意力調(diào)制。如下圖8右上所示，直接編輯未能區(qū)分左右實(shí)例，導(dǎo)致錯(cuò)誤（左）或無(wú)編輯（右）。然而，當(dāng)配備交叉注意力調(diào)制時(shí)，我們實(shí)現(xiàn)了準(zhǔn)確的文本到區(qū)域控制，從而分別將左側(cè)人物編輯為“鋼鐵俠”和右側(cè)人物為“蜘蛛俠”。下表3中的定量結(jié)果表明，使用交叉注意力調(diào)制（第二行），CLIP-T增加了7.4%，Q-edit增加了63.9%。這證明了我們交叉注意力調(diào)制的有效性。

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)-AI.x社區(qū)

自注意力調(diào)制。然而，僅調(diào)制交叉注意力仍會(huì)導(dǎo)致結(jié)構(gòu)失真，例如蜘蛛網(wǎng)出現(xiàn)在左側(cè)人物上。這是由于相同類(lèi)別特征（例如，人類(lèi)）的耦合造成的。使用我們的自注意力調(diào)制時(shí)，特征混合顯著減少，左側(cè)人物保留了獨(dú)特的物體特征。這是通過(guò)降低不同實(shí)例之間的負(fù)對(duì)分?jǐn)?shù)，同時(shí)增加同一實(shí)例內(nèi)的正對(duì)分?jǐn)?shù)來(lái)實(shí)現(xiàn)的。因此，在優(yōu)化區(qū)域中生成了更多部分級(jí)細(xì)節(jié)，例如獨(dú)特的藍(lán)色側(cè)面。表3中Warp-Err減少43.9%和Q-edit增加80.6%的定量結(jié)果進(jìn)一步證明了自注意力調(diào)制的有效性。

結(jié)論

本文旨在解決多粒度視頻編輯的問(wèn)題，包括類(lèi)別級(jí)、實(shí)例級(jí)和部分級(jí)的視頻編輯。據(jù)我們所知，這是對(duì)該任務(wù)的首次嘗試。在這個(gè)任務(wù)中，我們發(fā)現(xiàn)關(guān)鍵問(wèn)題是擴(kuò)散模型將不同實(shí)例視為同類(lèi)特征，直接的全局編輯會(huì)混合不同的局部區(qū)域。為了解決這些問(wèn)題，我們提出了VideoGrain，以調(diào)制時(shí)空交叉和自注意力進(jìn)行文本到區(qū)域的控制，同時(shí)保持區(qū)域之間的特征分離。在交叉注意力中，我們?cè)鰪?qiáng)每個(gè)局部提示對(duì)其對(duì)應(yīng)空間解耦區(qū)域的關(guān)注，同時(shí)抑制對(duì)不相關(guān)區(qū)域的注意力，從而實(shí)現(xiàn)文本到區(qū)域的控制。在自注意力中，我們?cè)黾訁^(qū)域內(nèi)的感知并減少區(qū)域間的交互以保持區(qū)域之間的特征分離。大量實(shí)驗(yàn)表明，我們的VideoGrain在類(lèi)別級(jí)、實(shí)例級(jí)和部分級(jí)視頻編輯上均優(yōu)于以往的視頻編輯方法。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/m_YmsZk80cQFBnYOgwR1yQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

基于知識(shí)圖譜的少樣本和零樣本學(xué)習(xí)綜述

mb5f8eba9bdb0af ? 2966瀏覽 ? 0回復(fù)
OpenAI 推出語(yǔ)音引擎，只需15秒樣本，即能重建任何人的聲音

pangguiyu ? 2458瀏覽 ? 0回復(fù)
僅聽(tīng)3秒，AI零樣本克隆人聲達(dá)到人類(lèi)水平，情緒語(yǔ)調(diào)隨意改

Crystalcxt ? 2309瀏覽 ? 0回復(fù)
ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP

輕薄滴假象 ? 2741瀏覽 ? 0回復(fù)
視頻版PS！0樣本視頻編輯模型，普通人秒變鋼鐵俠

Aceryt ? 2150瀏覽 ? 0回復(fù)
華科等提出VIMTS：零樣本視頻端到端識(shí)別新SOTA

duhorse ? 2699瀏覽 ? 0回復(fù)
少或零樣本異常檢測(cè)最新研究跟蹤

angel ? 3948瀏覽 ? 0回復(fù)
400萬(wàn)樣本，數(shù)據(jù)才是AIGC的王道！UltraEdit：基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集

angel ? 2745瀏覽 ? 0回復(fù)
大模型提示詞進(jìn)階，零樣本提示, 一次樣本提示和少樣本提示以及思維鏈(Chain of Thought, Cot)

AI探索時(shí)代 ? 3843瀏覽 ? 0回復(fù)
ECCV`24 | 螞蟻集團(tuán)開(kāi)源風(fēng)格控制新SOTA!StyleTokenizer：零樣本精確控制圖像生成

angel ? 2594瀏覽 ? 0回復(fù)
GPT - SoVITS 如何憑借零樣本、少樣本及多語(yǔ)言功能解鎖語(yǔ)音合成新高度？

穿越時(shí)空111 ? 3771瀏覽 ? 0回復(fù)
3D任意部位分割：FIND 3D模型實(shí)現(xiàn)零樣本開(kāi)放世界文本查詢(xún)分割

AIGC最前線(xiàn) ? 1874瀏覽 ? 0回復(fù)
NeurIPS 2024 | 像素級(jí)LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 3450瀏覽 ? 0回復(fù)
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 1757瀏覽 ? 0回復(fù)
大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用

xuxiangda ? 2150瀏覽 ? 0回復(fù)
一張圖生成舞蹈視頻！字節(jié)等發(fā)布黑科技X-Dancer：零樣本音樂(lè)驅(qū)動(dòng)，真實(shí)感碾壓3D方案

angel ? 1680瀏覽 ? 0回復(fù)
ZeroHSI-一種零樣本的四維人類(lèi)-場(chǎng)景交互合成方法

shizhi02 ? 993瀏覽 ? 0回復(fù)
企業(yè)級(jí)RAG如何實(shí)現(xiàn)權(quán)限控制？Dify 1.1.0 新版本元數(shù)據(jù)保姆級(jí)教程！

AI博物院 ? 1254瀏覽 ? 0回復(fù)
讓數(shù)字人視頻告別"恐怖谷"！字節(jié)團(tuán)隊(duì)最新DreamActor-M1實(shí)現(xiàn)人類(lèi)表情動(dòng)作像素級(jí)操控

angel ? 600瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇： AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒

下一篇：顛覆認(rèn)知！多模態(tài)模型思維鏈評(píng)估白皮書(shū)：反思機(jī)制成勝負(fù)手，感知任務(wù)竟被CoT拖后腿

社區(qū)精華內(nèi)容

目錄

<s id="v1ogu"></s>