自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!

發(fā)布于 2025-3-13 10:42
瀏覽
0收藏

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.05639
項(xiàng)目鏈接:https://yxbian23.github.io/project/video-painter/
git鏈接:https://github.com/TencentARC/VideoPainter

亮點(diǎn)直擊

  • 提出了VideoPainter,首個(gè)支持即插即用背景控制的雙分支視頻修復(fù)框架。
  • 設(shè)計(jì)了一個(gè)輕量級上下文編碼器,用于高效且密集的背景控制,并引入了修復(fù)區(qū)域ID重采樣技術(shù),以在任意長度的視頻修復(fù)和編輯中保持ID一致性。
  • 推出了VPData,這是最大的視頻修復(fù)數(shù)據(jù)集,包含超過390K個(gè)片段(>866.7小時(shí)),以及VPBench,兩者均具備精確的masked和詳細(xì)的視頻描述。
  • 實(shí)驗(yàn)表明,VideoPainter在視頻修復(fù)和編輯中,在包括視頻質(zhì)量、masked區(qū)域保留和文本對齊等8項(xiàng)指標(biāo)上均達(dá)到了最先進(jìn)性能。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 生成完全masked目標(biāo):現(xiàn)有方法在處理完全masked的目標(biāo)時(shí)存在困難。
  • 背景保留與前景生成的平衡:現(xiàn)有方法難以在保留背景的同時(shí)生成前景。
  • 長視頻中的ID一致性:現(xiàn)有方法在長視頻中難以保持目標(biāo)ID的一致性。

提出的方案

  • VideoPainter框架:提出了一種高效的雙分支框架,包含一個(gè)輕量級的上下文編碼器。
  • 上下文編碼器:該編碼器處理masked視頻并將背景指導(dǎo)注入到任何預(yù)訓(xùn)練的視頻擴(kuò)散Transformer中。
  • ID一致性策略:引入了一種重新采樣修復(fù)區(qū)域的策略,以保持長視頻中的ID一致性。
  • 數(shù)據(jù)集和基準(zhǔn):開發(fā)了一個(gè)可擴(kuò)展的數(shù)據(jù)集管道,構(gòu)建了VPData和VPBench,這是最大的視頻修復(fù)數(shù)據(jù)集和基準(zhǔn)。

應(yīng)用的技術(shù)

  • 雙分支架構(gòu):采用雙分支架構(gòu),分別處理背景保留和前景生成。
  • 輕量級上下文編碼器:僅占主干參數(shù)6%的輕量級上下文編碼器,集成到預(yù)訓(xùn)練的擴(kuò)散Transformer中。
  • 掩碼選擇性特征集成:明確區(qū)分masked和非masked區(qū)域的標(biāo)記。
  • ID-Adapter:通過ID-Adapter增強(qiáng)主干的注意力采樣,確保長視頻中的ID一致性。

達(dá)到的效果

  • 高效訓(xùn)練和最終結(jié)果:VideoPainter在訓(xùn)練效率和最終結(jié)果上表現(xiàn)出色。
  • 大規(guī)模訓(xùn)練和評估:構(gòu)建了包含超過390K個(gè)剪輯的VPData和VPBench,支持大規(guī)模訓(xùn)練和評估。
  • 下游應(yīng)用潛力:展示了VideoPainter在視頻編輯等下游應(yīng)用中的潛力。
  • 最先進(jìn)性能:在8個(gè)關(guān)鍵指標(biāo)上展示了最先進(jìn)的性能,包括視頻質(zhì)量、masked區(qū)域保留和文本一致性。

方法

下圖3展示了構(gòu)建VPData和VPBench的流程。下圖4展示了雙分支VideoPainter。后面介紹了用于任意長度視頻修復(fù)和即插即用控制的修復(fù)區(qū)域ID重采樣方法。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

VPData和VPBench構(gòu)建流程

為了解決數(shù)據(jù)集規(guī)模有限和缺乏文本標(biāo)注的問題,本文提出了一個(gè)利用先進(jìn)視覺模型的可擴(kuò)展數(shù)據(jù)集構(gòu)建流程。這最終形成了VPData和VPBench,這是最大的視頻修復(fù)數(shù)據(jù)集和基準(zhǔn),具備精確的masked和視頻/masked區(qū)域描述。如上圖3所示,該流程包括5個(gè)步驟:收集、標(biāo)注、分割、選擇和描述

收集

選擇Videvo和Pexels作為數(shù)據(jù)源,最終從這些來源獲得了約450??個(gè)視頻。標(biāo)注對于每個(gè)收集的視頻,實(shí)施了一個(gè)級聯(lián)工作流進(jìn)行自動標(biāo)注:

  • 使用Recognize Anything Model 進(jìn)行開放集視頻標(biāo)注,以識別主要目標(biāo)。
  • 基于檢測到的目標(biāo)標(biāo)簽,利用Grounding DINO 在固定間隔檢測目標(biāo)的邊界框。
  • 這些邊界框作為SAM2的提示,生成高質(zhì)量的masked分割。

分割

在從不同角度跟蹤同一目標(biāo)時(shí),可能會發(fā)生場景轉(zhuǎn)換,導(dǎo)致視角的破壞性變化。本文使用PySceneDetect識別場景轉(zhuǎn)換,并隨后分割masked。然后我們將序列分割為10秒的間隔,并丟棄較短的片段(<6秒)。

選擇

采用3個(gè)關(guān)鍵標(biāo)準(zhǔn):

  • 美學(xué)質(zhì)量:使用Laion-Aesthetic Score Predictor進(jìn)行評估。
  • 運(yùn)動強(qiáng)度:通過RAFT的光流測量進(jìn)行預(yù)測。
  • 內(nèi)容安全性:通過Stable Diffusion Safety Checker進(jìn)行評估。

描述

如下表1所示,現(xiàn)有的視頻分割數(shù)據(jù)集缺乏文本標(biāo)注,這是生成任務(wù)的主要條件 ,這為將生成模型應(yīng)用于視頻修復(fù)創(chuàng)造了數(shù)據(jù)瓶頸。因此,利用最先進(jìn)的視覺語言模型(VLMs),特別是CogVLM2和GPT-4o,均勻采樣關(guān)鍵幀并生成密集的視頻描述和masked目標(biāo)的詳細(xì)描述。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

雙分支修復(fù)控制

本文過一個(gè)高效的上下文編碼器將masked視頻特征整合到預(yù)訓(xùn)練的擴(kuò)散Transformer(DiT)中,以解耦背景上下文提取和前景生成。該編碼器處理噪聲隱空間表示、masked視頻隱空間表示和下采樣masked的拼接輸入。具體來說,噪聲隱空間表示提供了當(dāng)前生成的信息。通過VAE提取的masked視頻隱空間表示與預(yù)訓(xùn)練DiT的潛在分布對齊。應(yīng)用三次插值對masked進(jìn)行下采樣,確保masked與隱空間表示之間的維度兼容性。


基于DiT固有的生成能力,控制分支僅需提取上下文線索以指導(dǎo)主干網(wǎng)絡(luò)保留背景并生成前景。因此,與之前復(fù)制主干網(wǎng)絡(luò)一半或全部的重型方法不同,VideoPainter采用輕量級設(shè)計(jì),僅克隆預(yù)訓(xùn)練DiT的前兩層,僅占主干網(wǎng)絡(luò)參數(shù)的6%。預(yù)訓(xùn)練DiT的權(quán)重為提取masked視頻特征提供了強(qiáng)大的先驗(yàn)。上下文編碼器特征以分組和標(biāo)記選擇的方式集成到凍結(jié)的DiT中。分組特征集成公式如下:


第一層的特征被添加回主干網(wǎng)絡(luò)的前半部分,而第二層的特征被集成到后半部分,從而實(shí)現(xiàn)輕量級且高效的上下文控制。標(biāo)記選擇機(jī)制是一個(gè)預(yù)過濾過程,其中僅表示純背景的標(biāo)記被添加回去,而其他標(biāo)記被排除在集成之外,如前圖4右上角所示。這確保了只有背景上下文被融合到主干網(wǎng)絡(luò)中,防止主干網(wǎng)絡(luò)生成過程中的潛在歧義。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

目標(biāo)區(qū)域ID重采樣

盡管當(dāng)前的DiT在處理時(shí)間動態(tài)方面表現(xiàn)出潛力,但它們難以保持平滑過渡和長期身份一致性。

平滑過渡

借鑒AVID,本文采用重疊生成和加權(quán)平均來保持一致的過渡。此外,利用前一剪輯的最后一幀(重疊之前)作為當(dāng)前剪輯重疊區(qū)域的第一幀,以確保視覺外觀的連續(xù)性。

身份一致性

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

即插即用控制

本文的即插即用框架在兩個(gè)方面展示了多功能性:它支持各種風(fēng)格化主干或LoRA,并且兼容文本到視頻(T2V)和圖像到視頻(I2V)的DiT架構(gòu)。I2V兼容性特別支持與現(xiàn)有圖像修復(fù)能力的無縫集成。當(dāng)使用I2V DiT主干時(shí),VideoPainter僅需一個(gè)額外步驟:使用任何圖像修復(fù)模型生成初始幀,該模型由masked區(qū)域的文本描述引導(dǎo)。修復(fù)后的幀隨后作為圖像條件和第一個(gè)masked視頻幀。這些能力進(jìn)一步展示了VideoPainter的卓越可遷移性和多功能性。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

基準(zhǔn)測試

在視頻修復(fù)中,本文使用Davis作為隨機(jī)masked的基準(zhǔn),使用VPBench作為基于分割的masked基準(zhǔn)。VPBench包含100個(gè)6秒的視頻用于標(biāo)準(zhǔn)視頻修復(fù),以及16個(gè)平均時(shí)長超過30秒的視頻用于長視頻修復(fù)。VPBench涵蓋多樣化的內(nèi)容,包括物體、人類、動物、景觀和多范圍masked。對于視頻編輯評估,也使用VPBench,其中包含四種基本編輯操作(添加、移除、替換和更改),包括45個(gè)6秒的視頻和9個(gè)平均時(shí)長為30秒的視頻。

評估指標(biāo)

本文從三個(gè)方面考慮8個(gè)指標(biāo):masked區(qū)域保留、文本對齊和視頻生成質(zhì)量。

  • masked區(qū)域保留:本文遵循先前的工作,使用標(biāo)準(zhǔn)PSNR、LPIPS、SSIM 、MSE 和MAE來評估生成視頻與原始視頻在未masked區(qū)域的差異。
  • 文本對齊:本文使用CLIP相似度(CLIP Sim)來評估生成視頻與其對應(yīng)文本描述的語義一致性。本文還測量masked區(qū)域內(nèi)的CLIP相似度(CLIP Sim (M))。
  • 視頻生成質(zhì)量:遵循先前的方法,本文使用FVID來評估生成視頻的質(zhì)量。

視頻修復(fù)

定量比較

下表2展示了在VPBench和Davis上的定量比較。比較了非生成方法ProPainter、生成方法COCOCO以及本文提出的強(qiáng)基線Cog-Inp的修復(fù)結(jié)果。Cog-Inp使用圖像修復(fù)模型修復(fù)第一幀,并通過I2V主干結(jié)合潛在混合操作傳播結(jié)果。在基于分割的VPBench中,ProPainter和COCOCO在大多數(shù)指標(biāo)上表現(xiàn)最差,主要原因是無法修復(fù)完全masked的目標(biāo)以及單主干架構(gòu)難以平衡背景保留和前景生成。在隨機(jī)masked基準(zhǔn)Davis中,ProPainter通過利用部分背景信息有所改進(jìn)。然而,VideoPainter通過其雙分支架構(gòu)有效解耦背景保留和前景生成,在分割(標(biāo)準(zhǔn)和長視頻)和隨機(jī)masked任務(wù)中均實(shí)現(xiàn)了最佳性能。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

定性比較

下圖5展示了與之前視頻修復(fù)方法的定性比較。VideoPainter在視頻一致性、質(zhì)量和文本描述對齊方面始終表現(xiàn)出色。值得注意的是,ProPainter無法生成完全masked的目標(biāo),因?yàn)樗鼉H依賴于背景像素傳播而非生成。COCOCO雖然展示了基本功能,但由于其單主干架構(gòu)試圖平衡背景保留和前景生成,無法在修復(fù)區(qū)域保持一致的ID(如船只外觀不一致和地形突變)。Cog-Inp實(shí)現(xiàn)了基本的修復(fù)結(jié)果,但其混合操作無法檢測masked邊界,導(dǎo)致明顯的偽影。此外,VideoPainter能夠生成超過一分鐘的連貫視頻,并通過ID重采樣保持ID一致性。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

視頻編輯

VideoPainter可用于視頻編輯,通過視覺語言模型根據(jù)用戶編輯指令和源描述生成修改后的描述,并應(yīng)用VideoPainter基于修改后的描述進(jìn)行修復(fù)。下表3展示了在VPBench上的定量比較。我們比較了基于反演的UniEdit、基于DiT的DiTCtrl和端到端的ReVideo的編輯結(jié)果。在VPBench的標(biāo)準(zhǔn)和長視頻中,VideoPainter均表現(xiàn)出色,甚至超越了端到端的ReVideo。這一成功歸功于其雙分支架構(gòu),確保了出色的背景保留和前景生成能力,在非編輯區(qū)域保持高保真度,同時(shí)確保編輯區(qū)域與編輯指令緊密對齊,并通過修復(fù)區(qū)域ID重采樣在長視頻中保持ID一致性。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

前面圖5展示了與之前視頻修復(fù)方法的定性比較。VideoPainter在保持視覺保真度和文本提示一致性方面表現(xiàn)出色。VideoPainter成功生成了未來飛船穿越天空的無縫動畫,在整個(gè)移除過程中保持了平滑的時(shí)間過渡和精確的背景邊界,而沒有引入ReVideo中觀察到的偽影。

人類評估

本文在VPBench修復(fù)和編輯子集的標(biāo)準(zhǔn)長度視頻樣本上進(jìn)行了用戶研究,評估視頻修復(fù)和編輯任務(wù)。30名參與者基于背景保留、文本對齊和視頻質(zhì)量評估了50個(gè)隨機(jī)選擇的案例。如下表4所示,VideoPainter在所有評估標(biāo)準(zhǔn)中均顯著優(yōu)于現(xiàn)有基線,在兩項(xiàng)任務(wù)中均獲得了更高的偏好率。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

消融分析

在下表5中對VideoPainter進(jìn)行了消融實(shí)驗(yàn),包括架構(gòu)、上下文編碼器大小、控制策略和修復(fù)區(qū)域ID重采樣。根據(jù)第1行和第5行,雙分支VideoPainter通過顯式解耦背景保留和前景生成,顯著優(yōu)于單分支版本,從而降低了模型復(fù)雜性并避免了單分支中競爭目標(biāo)之間的權(quán)衡。表5的第2至第6行展示了我們關(guān)鍵設(shè)計(jì)選擇的理論依據(jù):

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

  1. 使用兩層結(jié)構(gòu)作為上下文編碼器在性能和效率之間的最佳平衡;
  2. 基于分割masked信息實(shí)現(xiàn)標(biāo)記選擇性特征融合,以防止主干網(wǎng)絡(luò)中不可區(qū)分的前景-背景標(biāo)記引起的混淆;
  3. 適應(yīng)不同主干的即插即用控制,性能相當(dāng)。此外,第7和第8行驗(yàn)證了在長視頻中使用修復(fù)區(qū)域ID重采樣的重要性,通過顯式重采樣前一剪輯的修復(fù)區(qū)域標(biāo)記來保持ID一致性。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

即插即用控制能力

下圖7展示了VideoPainter在基礎(chǔ)擴(kuò)散Transformer選擇中的靈活即插即用控制能力。展示了VideoPainter如何與社區(qū)開發(fā)的Gromit風(fēng)格LoRA無縫集成。盡管動漫風(fēng)格數(shù)據(jù)與我們的訓(xùn)練數(shù)據(jù)集之間存在顯著領(lǐng)域差距,VideoPainter的雙分支架構(gòu)確保了其即插即用的修復(fù)能力,使用戶能夠?yàn)樘囟ㄐ迯?fù)需求和預(yù)期結(jié)果選擇最合適的基礎(chǔ)模型。

即插即用!騰訊&港中文發(fā)布影視后期黑科技!VideoPainter:視頻編輯修復(fù)8項(xiàng)SOTA!-AI.x社區(qū)

討論

本文介紹了VideoPainter,這是首個(gè)具有即插即用控制能力的雙分支視頻修復(fù)框架。本文的方法具有三個(gè)關(guān)鍵創(chuàng)新:

  1. 輕量級即插即用上下文編碼器,兼容任何預(yù)訓(xùn)練的視頻DiT;
  2. 修復(fù)區(qū)域ID重采樣技術(shù),用于保持長視頻的ID一致性;
  3. 可擴(kuò)展的數(shù)據(jù)集管道,生成了包含超過390K個(gè)視頻剪輯的VPData和VPBench,具備精確masked和密集描述。


VideoPainter在視頻編輯應(yīng)用中也展示了潛力。大量實(shí)驗(yàn)表明,VideoPainter在視頻修復(fù)和編輯的8個(gè)指標(biāo)上實(shí)現(xiàn)了最先進(jìn)的性能,特別是在視頻質(zhì)量、masked區(qū)域保留和文本一致性方面。


VideoPainter仍存在一些局限性:

  1. 生成質(zhì)量受限于基礎(chǔ)模型,可能在復(fù)雜物理和運(yùn)動建模方面表現(xiàn)不佳;
  2. 在低質(zhì)量masked或未對齊視頻描述的情況下,性能可能不理想。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/FLa7TFlmMPJM_Ay59P50hQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦