自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院

發(fā)布于 2025-4-14 10:00
瀏覽
0收藏

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.00857

項(xiàng)目鏈接:https://nevsnev.github.io/FloED/

開(kāi)源地址:https://github.com/NevSNev/FloED-main

亮點(diǎn)直擊

  • 新穎的視頻修復(fù)模型。提出了一種專(zhuān)用的雙分支架構(gòu),通過(guò)流適配器(flow adapters)集成光流引導(dǎo),從而增強(qiáng)時(shí)空一致性并生成協(xié)調(diào)的結(jié)果。
  • 高效的去噪過(guò)程。引入了一種無(wú)需訓(xùn)練的隱空間插值技術(shù),利用光流加速多步去噪過(guò)程。結(jié)合流注意力緩存機(jī)制,F(xiàn)loED 有效降低了由光流引入的額外計(jì)算成本。
  • 領(lǐng)先的性能表現(xiàn)。在物體移除(OR)和背景修復(fù)(BR)任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),包括定量和定性評(píng)估,驗(yàn)證了 FloED 在性能與效率上均優(yōu)于其他最先進(jìn)的文本引導(dǎo)擴(kuò)散方法。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

  • 時(shí)空一致性不足:現(xiàn)有基于擴(kuò)散模型的視頻修復(fù)方法在生成內(nèi)容時(shí)難以保持幀間時(shí)序連貫性,導(dǎo)致紋理、光照等出現(xiàn)不和諧(如CoCoCo)。
  • 計(jì)算效率低:擴(kuò)散模型的多步去噪過(guò)程本身計(jì)算成本高,而引入光學(xué)流(估計(jì)、補(bǔ)全、融合)進(jìn)一步增加了額外開(kāi)銷(xiāo)。
  • 任務(wù)適應(yīng)性差:現(xiàn)有方法在背景修復(fù)(BR)和物體移除(OR)任務(wù)中表現(xiàn)不佳,難以同時(shí)滿(mǎn)足文本語(yǔ)義對(duì)齊和時(shí)空一致性需求。

提出的方案

  • 雙分支架構(gòu)
  • 主修復(fù)分支:基于擴(kuò)散模型完成視頻修復(fù)。
  • 時(shí)間無(wú)關(guān)的光學(xué)流分支:先修復(fù)損壞的光學(xué)流,再通過(guò)多尺度流適配器(flow adapters)將運(yùn)動(dòng)信息注入主分支的U-Net解碼器。
  • 高效加速技術(shù)
  • 訓(xùn)練自由的隱空間插值:利用光流引導(dǎo)的變形操作(warping)加速早期去噪階段的多步采樣。
  • 流注意力緩存機(jī)制:在剩余去噪階段緩存注意力計(jì)算結(jié)果,減少流適配器和流分支的重復(fù)計(jì)算。
  • 錨幀策略:結(jié)合高質(zhì)量圖像修復(fù)模型提升關(guān)鍵幀質(zhì)量,以改善整體視頻修復(fù)效果。

應(yīng)用的技術(shù)

  • 擴(kuò)散模型:基于AnimateDiff微調(diào)運(yùn)動(dòng)模塊,適配視頻修復(fù)任務(wù)。
  • 光學(xué)流引導(dǎo)
  • 通過(guò)流分支補(bǔ)全損壞的光學(xué)流,提供運(yùn)動(dòng)一致性約束。
  • 多尺度流適配器將光流特征融合到U-Net中。
  • 加速技術(shù)
  • 光流變形(warping)實(shí)現(xiàn)隱空間特征插值。
  • 注意力緩存減少冗余計(jì)算。
  • 基準(zhǔn)構(gòu)建:針對(duì)BR和OR任務(wù)建立首個(gè)全面的擴(kuò)散模型視頻修復(fù)評(píng)測(cè)基準(zhǔn)。

達(dá)到的效果

  • 性能提升
  • 在BR和OR任務(wù)中,時(shí)空一致性和文本對(duì)齊性?xún)?yōu)于CoCoCo等SOTA方法(如圖1所示)。
  • 修復(fù)區(qū)域與上下文視頻的紋理、光照更協(xié)調(diào)。
  • 效率優(yōu)化
  • 隱空間插值和注意力緩存顯著降低計(jì)算成本,加速多步去噪過(guò)程。
  • 通用性
  • 框架適用于不同場(chǎng)景(如動(dòng)態(tài)背景修復(fù)、物體移除),且無(wú)需額外訓(xùn)練即可適配現(xiàn)有擴(kuò)散模型。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

方法

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

網(wǎng)絡(luò)概述

下圖2展示了本文提出的模型 FloED 的總體架構(gòu)。FloED 采用預(yù)訓(xùn)練的Stable Diffusion Inpainting主干網(wǎng)絡(luò)作為主分支,并集成了基于AnimateDiff v3初始化的運(yùn)動(dòng)模塊。FloED 的訓(xùn)練過(guò)程分為兩個(gè)階段:

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

  1. 第一階段:微調(diào)運(yùn)動(dòng)模塊,使其時(shí)間建模能力適配視頻修復(fù)任務(wù)。
  2. 第二階段
  • 引入專(zhuān)用的流分支補(bǔ)全從掩碼幀估計(jì)的損壞光流。
  • 通過(guò)多尺度流適配器將分層運(yùn)動(dòng)信息注入主修復(fù)分支。
  • 采用錨幀策略利用圖像修復(fù)擴(kuò)散模型的優(yōu)勢(shì)提升視頻修復(fù)質(zhì)量。
  • 提出一種無(wú)需訓(xùn)練的去噪加速技術(shù),利用光流進(jìn)行隱空間特征插值,并結(jié)合流注意力緩存機(jī)制顯著降低光流引入的計(jì)算開(kāi)銷(xiāo)。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

視頻修復(fù)中的光流引導(dǎo)

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

流補(bǔ)全分支

  • 該分支結(jié)構(gòu)與主修復(fù)主干對(duì)齊,通過(guò)選擇性聚合主分支各塊的初始ResNet 模塊確保通道兼容性。
  • 移除 ResNet 的時(shí)間步輸入,構(gòu)建時(shí)間無(wú)關(guān)的流補(bǔ)全分支,使流特征不受擴(kuò)散過(guò)程影響。
  • 如圖2所示,補(bǔ)全后的光流通過(guò)多尺度流適配器注入主 UNet 分支的上采樣塊,提供全局運(yùn)動(dòng)指導(dǎo)。

流適配器

  • 受IP-Adapter啟發(fā),流適配器由獨(dú)立的交叉注意力層構(gòu)成,將重建的光流特征輸入交叉注意力以實(shí)現(xiàn)運(yùn)動(dòng)引導(dǎo)。
  • 關(guān)鍵設(shè)計(jì):流適配器置于文本交叉注意力層和運(yùn)動(dòng)模塊之間,通過(guò)光流先驗(yàn)動(dòng)態(tài)調(diào)整文本驅(qū)動(dòng)的隱空間特征,解決生成內(nèi)容與時(shí)空上下文的錯(cuò)位問(wèn)題。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

錨幀策略

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

FloED高效推理

基于擴(kuò)散模型的多步采樣特性,本文提出無(wú)需訓(xùn)練的隱空間特征插值技術(shù),利用光流加速去噪過(guò)程,并輔以流注意力緩存機(jī)制優(yōu)化推理效率。

流注意力緩存

  • 流分支獨(dú)立于時(shí)間步,推理階段僅在首步執(zhí)行光流補(bǔ)全,后續(xù)步驟復(fù)用補(bǔ)全光流。
  • 針對(duì)多尺度流適配器:通過(guò)首步計(jì)算鍵值對(duì)(K/V)并存入內(nèi)存庫(kù)(圖2右側(cè)),后續(xù)步驟直接調(diào)用緩存,避免重復(fù)計(jì)算。

免訓(xùn)練去噪加速基于相鄰隱空間特征具有相似運(yùn)動(dòng)模式且擴(kuò)散模型在早期去噪階段生成高層內(nèi)容的特性,本研究通過(guò)光流引導(dǎo)的插值實(shí)現(xiàn)加速。該技術(shù)完全無(wú)需額外訓(xùn)練,具體流程如下圖3所示:

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

  1. 初始化階段:標(biāo)準(zhǔn)去噪流程補(bǔ)全光流并緩存流注意力。
  2. 交替處理:從第t-1步開(kāi)始:
  • 偶數(shù)幀(紅色)執(zhí)行去噪
  • 奇數(shù)幀(綠色)通過(guò)雙向光流變形(warping)生成
  • 將噪聲隱空間特征z按奇偶索引劃分:
  1. 迭代優(yōu)化:下一步僅對(duì)插值幀(綠色)去噪,紅色幀通過(guò)變形生成。由于變形操作耗時(shí)極低,每步僅需處理半數(shù)幀隱空間特征,使去噪延遲減半。

約束條件

  • 插值操作限制在初始S步(對(duì)應(yīng)圖像結(jié)構(gòu)建立階段)
  • 僅對(duì)相鄰幀執(zhí)行變形以避免光流誤差累積
  • 采用遮擋處理技術(shù)緩解光流變形可能導(dǎo)致的遮擋問(wèn)題

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

數(shù)據(jù)集與基準(zhǔn)測(cè)試。本文采用Open-Sora-Plan數(shù)據(jù)集,通過(guò)場(chǎng)景切割獲得421,396個(gè)高質(zhì)量視頻片段及其對(duì)應(yīng)字幕。進(jìn)一步構(gòu)建了包含100個(gè)全新視頻的評(píng)估基準(zhǔn),素材來(lái)自Pexels和Pixabay平臺(tái),其中50個(gè)用于物體移除(OR)任務(wù),50個(gè)用于背景修復(fù)(BR)任務(wù)。針對(duì)BR任務(wù),本研究使用聚焦背景的合成隨機(jī)掩碼;對(duì)于OR任務(wù),通過(guò)Segment-Anything(SAM)模型逐幀生成物體掩碼。所有視頻均經(jīng)人工篩選以確保運(yùn)動(dòng)幅度和攝像機(jī)移動(dòng)速度的多樣性,同時(shí)保證4K分辨率與100幀的總長(zhǎng)度。字幕方面,采用VideoGPT生成初始視頻提示詞,并對(duì)OR任務(wù)人工修正背景描述文本。


訓(xùn)練與推理細(xì)節(jié)。本文采用512分辨率的16幀視頻序列進(jìn)行兩階段訓(xùn)練,通過(guò)隨機(jī)方向與形狀的掩碼序列模擬BR和OR任務(wù)。第一階段在8張NVIDIA A800 GPU上訓(xùn)練5個(gè)epoch(批次大小8),第二階段在相同硬件上通過(guò)梯度累計(jì)實(shí)現(xiàn)批次大小128的30個(gè)epoch訓(xùn)練(λ值設(shè)為0.1)。推理階段使用DDIM采樣器,經(jīng)實(shí)驗(yàn)將加速步長(zhǎng)S設(shè)為5(總步數(shù)25步)。

對(duì)比實(shí)驗(yàn)

與開(kāi)源文本引導(dǎo)擴(kuò)散方法全面對(duì)比,包括VideoComposer、CoCoCo、DiffuEraser。

定性比較。如下圖4所示,VideoComposer、CoCoCo和DiffuEraser在物體移除(OR)任務(wù)中表現(xiàn)出持續(xù)局限性,頻繁出現(xiàn)視覺(jué)偽影和內(nèi)容幻覺(jué),破壞與場(chǎng)景上下文的語(yǔ)義一致性。相比之下,F(xiàn)loED能夠用兼容內(nèi)容填充掩碼區(qū)域,展現(xiàn)出精確的文本條件生成能力,在背景修復(fù)(BR)和物體移除任務(wù)中均實(shí)現(xiàn)更優(yōu)的時(shí)間連貫性與整體協(xié)調(diào)性。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

定量比較。通過(guò)指標(biāo)評(píng)估和用戶(hù)研究進(jìn)行量化對(duì)比:(1)指標(biāo)評(píng)估:針對(duì)BR任務(wù),采用PSNR、VFID和SSIM量化基礎(chǔ)質(zhì)量,并結(jié)合光流扭曲誤差與時(shí)間一致性(TC)評(píng)估時(shí)序連貫性(TC通過(guò)CLIP-Image特征空間中連續(xù)幀的余弦相似度計(jì)算)。對(duì)于OR任務(wù),由于缺乏真實(shí)數(shù)據(jù)支撐傳統(tǒng)指標(biāo),采用同樣基于CLIP分?jǐn)?shù)的文本對(duì)齊度(TA)作為評(píng)估標(biāo)準(zhǔn)。所有指標(biāo)均在512×512分辨率下測(cè)試。如下表1所示,F(xiàn)loED在所有指標(biāo)上超越其他方法,展現(xiàn)最先進(jìn)性能。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

(2)用戶(hù)研究:鑒于CLIP分?jǐn)?shù)與人類(lèi)感知存在偏差,組織15名標(biāo)注者對(duì)BR和OR任務(wù)(共100個(gè)視頻)的修復(fù)結(jié)果進(jìn)行綜合評(píng)估,從時(shí)序連貫性、文本對(duì)齊度和上下文兼容性三個(gè)維度對(duì)四種方法進(jìn)行優(yōu)選。如下圖6所示,本研究的模型以BR任務(wù)62.27%和OR任務(wù)56.40%的優(yōu)選率獲得最高評(píng)價(jià)。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

消融實(shí)驗(yàn)

光流相關(guān)消融研究。通過(guò)下圖5所示的實(shí)驗(yàn)驗(yàn)證運(yùn)動(dòng)引導(dǎo)機(jī)制的有效性:

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

(1) 光流補(bǔ)全。以物體移除場(chǎng)景為例,補(bǔ)全后的光流結(jié)果顯示受損區(qū)域?qū)崿F(xiàn)了與周邊環(huán)境保持時(shí)空一致性的上下文感知修復(fù)(B與C對(duì)比)。重建結(jié)果進(jìn)一步驗(yàn)證了時(shí)序無(wú)關(guān)光流分支的補(bǔ)全能力。  (2) 光流適配器。這些重建光流通過(guò)多尺度適配器為修復(fù)主分支提供關(guān)鍵運(yùn)動(dòng)引導(dǎo),有效提升場(chǎng)景兼容性并增強(qiáng)視頻連貫性(D與E對(duì)比)。實(shí)驗(yàn)表明,多尺度光流適配器注入的運(yùn)動(dòng)指引能顯著改善生成內(nèi)容的環(huán)境一致性,從而提升時(shí)序連貫性與整體質(zhì)量。下表2的架構(gòu)消融實(shí)驗(yàn)顯示,相較于關(guān)鍵幀策略,多尺度光流適配器對(duì)框架性能提升更具優(yōu)勢(shì),證實(shí)了其在FloED中的核心作用。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

效率實(shí)驗(yàn)。本節(jié)在NVIDIA H800 GPU的FP16精度環(huán)境下進(jìn)行效率測(cè)試,F(xiàn)loED的去噪過(guò)程采用25步采樣步數(shù),分類(lèi)器無(wú)關(guān)引導(dǎo)尺度(CFG)>1。


(1)隱空間插值步數(shù)。本文僅在去噪初期階段應(yīng)用隱空間插值。下圖7的加速步數(shù)研究表明:當(dāng)加速步數(shù)S超過(guò)去噪過(guò)程早期階段時(shí),性能會(huì)出現(xiàn)斷崖式下跌。實(shí)驗(yàn)證明,在前5步采用光流引導(dǎo)的隱空間插值,可在僅輕微影響性能的前提下最大化降低去噪耗時(shí)。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

(2)效率消融研究。下表3顯示,相較于不含光流模塊的基礎(chǔ)版本,本研究對(duì)比了不同效率優(yōu)化策略。由于訓(xùn)練時(shí)光流分支具有時(shí)序無(wú)關(guān)性,測(cè)試階段僅需在首步去噪時(shí)運(yùn)行光流分支完成破損光流修復(fù)并緩存記憶庫(kù),后續(xù)步驟可直接使用已修復(fù)光流進(jìn)行隱空間插值,并調(diào)用緩存的K/V鍵值對(duì)實(shí)現(xiàn)流引導(dǎo)。最終確定最優(yōu)方案:前5步(第2-6步)執(zhí)行隱空間插值,剩余步驟采用流緩存補(bǔ)充,在432×240分辨率下實(shí)現(xiàn)13.4%加速。相比完全不使用光流補(bǔ)全與注意力機(jī)制的基準(zhǔn)版本,這些優(yōu)化幾乎抵消了額外計(jì)算開(kāi)銷(xiāo)。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

(3)效率對(duì)比。下表4數(shù)據(jù)表明,在相同去噪步數(shù)下,F(xiàn)loED在所有分辨率下均優(yōu)于CoCoCo、DiffuEraser等基于擴(kuò)散模型的方法,展現(xiàn)出最先進(jìn)的運(yùn)算效率。

修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

討論本文聚焦于文本引導(dǎo)的視頻修復(fù),主要與基于擴(kuò)散模型的方法對(duì)比。本文的隱空間插值技術(shù)可直接擴(kuò)展至CoCoCo等其他擴(kuò)散模型實(shí)現(xiàn)加速處理。但需指出,預(yù)修復(fù)破損光流的策略可能限制其跨場(chǎng)景遷移能力。

結(jié)論

本文提出FloED,一種通過(guò)光流引導(dǎo)增強(qiáng)時(shí)序一致性與計(jì)算效率的視頻修復(fù)框架。該雙分支架構(gòu)首先生成修復(fù)光流,繼而通過(guò)多尺度適配器指導(dǎo)修復(fù)過(guò)程。無(wú)需訓(xùn)練的隱空間插值技術(shù)與流注意力緩存機(jī)制,顯著降低了光流整合的典型計(jì)算開(kāi)銷(xiāo)。實(shí)驗(yàn)證明FloED在背景修復(fù)與物體移除任務(wù)中均達(dá)到最先進(jìn)水平,展現(xiàn)出卓越的時(shí)序一致性與內(nèi)容連貫性保持能力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/xaJp-MSw_FFLDQa-d_uU2w??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄