修得快,還修得準(zhǔn)!新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院
文章鏈接:https://arxiv.org/pdf/2412.00857
項(xiàng)目鏈接:https://nevsnev.github.io/FloED/
開(kāi)源地址:https://github.com/NevSNev/FloED-main
亮點(diǎn)直擊
- 新穎的視頻修復(fù)模型。提出了一種專(zhuān)用的雙分支架構(gòu),通過(guò)流適配器(flow adapters)集成光流引導(dǎo),從而增強(qiáng)時(shí)空一致性并生成協(xié)調(diào)的結(jié)果。
- 高效的去噪過(guò)程。引入了一種無(wú)需訓(xùn)練的隱空間插值技術(shù),利用光流加速多步去噪過(guò)程。結(jié)合流注意力緩存機(jī)制,F(xiàn)loED 有效降低了由光流引入的額外計(jì)算成本。
- 領(lǐng)先的性能表現(xiàn)。在物體移除(OR)和背景修復(fù)(BR)任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),包括定量和定性評(píng)估,驗(yàn)證了 FloED 在性能與效率上均優(yōu)于其他最先進(jìn)的文本引導(dǎo)擴(kuò)散方法。
總結(jié)速覽
解決的問(wèn)題
- 時(shí)空一致性不足:現(xiàn)有基于擴(kuò)散模型的視頻修復(fù)方法在生成內(nèi)容時(shí)難以保持幀間時(shí)序連貫性,導(dǎo)致紋理、光照等出現(xiàn)不和諧(如CoCoCo)。
- 計(jì)算效率低:擴(kuò)散模型的多步去噪過(guò)程本身計(jì)算成本高,而引入光學(xué)流(估計(jì)、補(bǔ)全、融合)進(jìn)一步增加了額外開(kāi)銷(xiāo)。
- 任務(wù)適應(yīng)性差:現(xiàn)有方法在背景修復(fù)(BR)和物體移除(OR)任務(wù)中表現(xiàn)不佳,難以同時(shí)滿(mǎn)足文本語(yǔ)義對(duì)齊和時(shí)空一致性需求。
提出的方案
- 雙分支架構(gòu):
- 主修復(fù)分支:基于擴(kuò)散模型完成視頻修復(fù)。
- 時(shí)間無(wú)關(guān)的光學(xué)流分支:先修復(fù)損壞的光學(xué)流,再通過(guò)多尺度流適配器(flow adapters)將運(yùn)動(dòng)信息注入主分支的U-Net解碼器。
- 高效加速技術(shù):
- 訓(xùn)練自由的隱空間插值:利用光流引導(dǎo)的變形操作(warping)加速早期去噪階段的多步采樣。
- 流注意力緩存機(jī)制:在剩余去噪階段緩存注意力計(jì)算結(jié)果,減少流適配器和流分支的重復(fù)計(jì)算。
- 錨幀策略:結(jié)合高質(zhì)量圖像修復(fù)模型提升關(guān)鍵幀質(zhì)量,以改善整體視頻修復(fù)效果。
應(yīng)用的技術(shù)
- 擴(kuò)散模型:基于AnimateDiff微調(diào)運(yùn)動(dòng)模塊,適配視頻修復(fù)任務(wù)。
- 光學(xué)流引導(dǎo):
- 通過(guò)流分支補(bǔ)全損壞的光學(xué)流,提供運(yùn)動(dòng)一致性約束。
- 多尺度流適配器將光流特征融合到U-Net中。
- 加速技術(shù):
- 光流變形(warping)實(shí)現(xiàn)隱空間特征插值。
- 注意力緩存減少冗余計(jì)算。
- 基準(zhǔn)構(gòu)建:針對(duì)BR和OR任務(wù)建立首個(gè)全面的擴(kuò)散模型視頻修復(fù)評(píng)測(cè)基準(zhǔn)。
達(dá)到的效果
- 性能提升:
- 在BR和OR任務(wù)中,時(shí)空一致性和文本對(duì)齊性?xún)?yōu)于CoCoCo等SOTA方法(如圖1所示)。
- 修復(fù)區(qū)域與上下文視頻的紋理、光照更協(xié)調(diào)。
- 效率優(yōu)化:
- 隱空間插值和注意力緩存顯著降低計(jì)算成本,加速多步去噪過(guò)程。
- 通用性:
- 框架適用于不同場(chǎng)景(如動(dòng)態(tài)背景修復(fù)、物體移除),且無(wú)需額外訓(xùn)練即可適配現(xiàn)有擴(kuò)散模型。
方法
網(wǎng)絡(luò)概述
下圖2展示了本文提出的模型 FloED 的總體架構(gòu)。FloED 采用預(yù)訓(xùn)練的Stable Diffusion Inpainting主干網(wǎng)絡(luò)作為主分支,并集成了基于AnimateDiff v3初始化的運(yùn)動(dòng)模塊。FloED 的訓(xùn)練過(guò)程分為兩個(gè)階段:
- 第一階段:微調(diào)運(yùn)動(dòng)模塊,使其時(shí)間建模能力適配視頻修復(fù)任務(wù)。
- 第二階段:
- 引入專(zhuān)用的流分支補(bǔ)全從掩碼幀估計(jì)的損壞光流。
- 通過(guò)多尺度流適配器將分層運(yùn)動(dòng)信息注入主修復(fù)分支。
- 采用錨幀策略利用圖像修復(fù)擴(kuò)散模型的優(yōu)勢(shì)提升視頻修復(fù)質(zhì)量。
- 提出一種無(wú)需訓(xùn)練的去噪加速技術(shù),利用光流進(jìn)行隱空間特征插值,并結(jié)合流注意力緩存機(jī)制顯著降低光流引入的計(jì)算開(kāi)銷(xiāo)。
視頻修復(fù)中的光流引導(dǎo)
流補(bǔ)全分支:
- 該分支結(jié)構(gòu)與主修復(fù)主干對(duì)齊,通過(guò)選擇性聚合主分支各塊的初始ResNet 模塊確保通道兼容性。
- 移除 ResNet 的時(shí)間步輸入,構(gòu)建時(shí)間無(wú)關(guān)的流補(bǔ)全分支,使流特征不受擴(kuò)散過(guò)程影響。
- 如圖2所示,補(bǔ)全后的光流通過(guò)多尺度流適配器注入主 UNet 分支的上采樣塊,提供全局運(yùn)動(dòng)指導(dǎo)。
流適配器:
- 受IP-Adapter啟發(fā),流適配器由獨(dú)立的交叉注意力層構(gòu)成,將重建的光流特征輸入交叉注意力以實(shí)現(xiàn)運(yùn)動(dòng)引導(dǎo)。
- 關(guān)鍵設(shè)計(jì):流適配器置于文本交叉注意力層和運(yùn)動(dòng)模塊之間,通過(guò)光流先驗(yàn)動(dòng)態(tài)調(diào)整文本驅(qū)動(dòng)的隱空間特征,解決生成內(nèi)容與時(shí)空上下文的錯(cuò)位問(wèn)題。
錨幀策略
FloED高效推理
基于擴(kuò)散模型的多步采樣特性,本文提出無(wú)需訓(xùn)練的隱空間特征插值技術(shù),利用光流加速去噪過(guò)程,并輔以流注意力緩存機(jī)制優(yōu)化推理效率。
流注意力緩存
- 流分支獨(dú)立于時(shí)間步,推理階段僅在首步執(zhí)行光流補(bǔ)全,后續(xù)步驟復(fù)用補(bǔ)全光流。
- 針對(duì)多尺度流適配器:通過(guò)首步計(jì)算鍵值對(duì)(K/V)并存入內(nèi)存庫(kù)(圖2右側(cè)),后續(xù)步驟直接調(diào)用緩存,避免重復(fù)計(jì)算。
免訓(xùn)練去噪加速基于相鄰隱空間特征具有相似運(yùn)動(dòng)模式且擴(kuò)散模型在早期去噪階段生成高層內(nèi)容的特性,本研究通過(guò)光流引導(dǎo)的插值實(shí)現(xiàn)加速。該技術(shù)完全無(wú)需額外訓(xùn)練,具體流程如下圖3所示:
- 初始化階段:標(biāo)準(zhǔn)去噪流程補(bǔ)全光流并緩存流注意力。
- 交替處理:從第t-1步開(kāi)始:
- 偶數(shù)幀(紅色)執(zhí)行去噪
- 奇數(shù)幀(綠色)通過(guò)雙向光流變形(warping)生成
- 將噪聲隱空間特征z按奇偶索引劃分:
- 迭代優(yōu)化:下一步僅對(duì)插值幀(綠色)去噪,紅色幀通過(guò)變形生成。由于變形操作耗時(shí)極低,每步僅需處理半數(shù)幀隱空間特征,使去噪延遲減半。
約束條件
- 插值操作限制在初始S步(對(duì)應(yīng)圖像結(jié)構(gòu)建立階段)
- 僅對(duì)相鄰幀執(zhí)行變形以避免光流誤差累積
- 采用遮擋處理技術(shù)緩解光流變形可能導(dǎo)致的遮擋問(wèn)題
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
數(shù)據(jù)集與基準(zhǔn)測(cè)試。本文采用Open-Sora-Plan數(shù)據(jù)集,通過(guò)場(chǎng)景切割獲得421,396個(gè)高質(zhì)量視頻片段及其對(duì)應(yīng)字幕。進(jìn)一步構(gòu)建了包含100個(gè)全新視頻的評(píng)估基準(zhǔn),素材來(lái)自Pexels和Pixabay平臺(tái),其中50個(gè)用于物體移除(OR)任務(wù),50個(gè)用于背景修復(fù)(BR)任務(wù)。針對(duì)BR任務(wù),本研究使用聚焦背景的合成隨機(jī)掩碼;對(duì)于OR任務(wù),通過(guò)Segment-Anything(SAM)模型逐幀生成物體掩碼。所有視頻均經(jīng)人工篩選以確保運(yùn)動(dòng)幅度和攝像機(jī)移動(dòng)速度的多樣性,同時(shí)保證4K分辨率與100幀的總長(zhǎng)度。字幕方面,采用VideoGPT生成初始視頻提示詞,并對(duì)OR任務(wù)人工修正背景描述文本。
訓(xùn)練與推理細(xì)節(jié)。本文采用512分辨率的16幀視頻序列進(jìn)行兩階段訓(xùn)練,通過(guò)隨機(jī)方向與形狀的掩碼序列模擬BR和OR任務(wù)。第一階段在8張NVIDIA A800 GPU上訓(xùn)練5個(gè)epoch(批次大小8),第二階段在相同硬件上通過(guò)梯度累計(jì)實(shí)現(xiàn)批次大小128的30個(gè)epoch訓(xùn)練(λ值設(shè)為0.1)。推理階段使用DDIM采樣器,經(jīng)實(shí)驗(yàn)將加速步長(zhǎng)S設(shè)為5(總步數(shù)25步)。
對(duì)比實(shí)驗(yàn)
與開(kāi)源文本引導(dǎo)擴(kuò)散方法全面對(duì)比,包括VideoComposer、CoCoCo、DiffuEraser。
定性比較。如下圖4所示,VideoComposer、CoCoCo和DiffuEraser在物體移除(OR)任務(wù)中表現(xiàn)出持續(xù)局限性,頻繁出現(xiàn)視覺(jué)偽影和內(nèi)容幻覺(jué),破壞與場(chǎng)景上下文的語(yǔ)義一致性。相比之下,F(xiàn)loED能夠用兼容內(nèi)容填充掩碼區(qū)域,展現(xiàn)出精確的文本條件生成能力,在背景修復(fù)(BR)和物體移除任務(wù)中均實(shí)現(xiàn)更優(yōu)的時(shí)間連貫性與整體協(xié)調(diào)性。
定量比較。通過(guò)指標(biāo)評(píng)估和用戶(hù)研究進(jìn)行量化對(duì)比:(1)指標(biāo)評(píng)估:針對(duì)BR任務(wù),采用PSNR、VFID和SSIM量化基礎(chǔ)質(zhì)量,并結(jié)合光流扭曲誤差與時(shí)間一致性(TC)評(píng)估時(shí)序連貫性(TC通過(guò)CLIP-Image特征空間中連續(xù)幀的余弦相似度計(jì)算)。對(duì)于OR任務(wù),由于缺乏真實(shí)數(shù)據(jù)支撐傳統(tǒng)指標(biāo),采用同樣基于CLIP分?jǐn)?shù)的文本對(duì)齊度(TA)作為評(píng)估標(biāo)準(zhǔn)。所有指標(biāo)均在512×512分辨率下測(cè)試。如下表1所示,F(xiàn)loED在所有指標(biāo)上超越其他方法,展現(xiàn)最先進(jìn)性能。
(2)用戶(hù)研究:鑒于CLIP分?jǐn)?shù)與人類(lèi)感知存在偏差,組織15名標(biāo)注者對(duì)BR和OR任務(wù)(共100個(gè)視頻)的修復(fù)結(jié)果進(jìn)行綜合評(píng)估,從時(shí)序連貫性、文本對(duì)齊度和上下文兼容性三個(gè)維度對(duì)四種方法進(jìn)行優(yōu)選。如下圖6所示,本研究的模型以BR任務(wù)62.27%和OR任務(wù)56.40%的優(yōu)選率獲得最高評(píng)價(jià)。
消融實(shí)驗(yàn)
光流相關(guān)消融研究。通過(guò)下圖5所示的實(shí)驗(yàn)驗(yàn)證運(yùn)動(dòng)引導(dǎo)機(jī)制的有效性:
(1) 光流補(bǔ)全。以物體移除場(chǎng)景為例,補(bǔ)全后的光流結(jié)果顯示受損區(qū)域?qū)崿F(xiàn)了與周邊環(huán)境保持時(shí)空一致性的上下文感知修復(fù)(B與C對(duì)比)。重建結(jié)果進(jìn)一步驗(yàn)證了時(shí)序無(wú)關(guān)光流分支的補(bǔ)全能力。 (2) 光流適配器。這些重建光流通過(guò)多尺度適配器為修復(fù)主分支提供關(guān)鍵運(yùn)動(dòng)引導(dǎo),有效提升場(chǎng)景兼容性并增強(qiáng)視頻連貫性(D與E對(duì)比)。實(shí)驗(yàn)表明,多尺度光流適配器注入的運(yùn)動(dòng)指引能顯著改善生成內(nèi)容的環(huán)境一致性,從而提升時(shí)序連貫性與整體質(zhì)量。下表2的架構(gòu)消融實(shí)驗(yàn)顯示,相較于關(guān)鍵幀策略,多尺度光流適配器對(duì)框架性能提升更具優(yōu)勢(shì),證實(shí)了其在FloED中的核心作用。
效率實(shí)驗(yàn)。本節(jié)在NVIDIA H800 GPU的FP16精度環(huán)境下進(jìn)行效率測(cè)試,F(xiàn)loED的去噪過(guò)程采用25步采樣步數(shù),分類(lèi)器無(wú)關(guān)引導(dǎo)尺度(CFG)>1。
(1)隱空間插值步數(shù)。本文僅在去噪初期階段應(yīng)用隱空間插值。下圖7的加速步數(shù)研究表明:當(dāng)加速步數(shù)S超過(guò)去噪過(guò)程早期階段時(shí),性能會(huì)出現(xiàn)斷崖式下跌。實(shí)驗(yàn)證明,在前5步采用光流引導(dǎo)的隱空間插值,可在僅輕微影響性能的前提下最大化降低去噪耗時(shí)。
(2)效率消融研究。下表3顯示,相較于不含光流模塊的基礎(chǔ)版本,本研究對(duì)比了不同效率優(yōu)化策略。由于訓(xùn)練時(shí)光流分支具有時(shí)序無(wú)關(guān)性,測(cè)試階段僅需在首步去噪時(shí)運(yùn)行光流分支完成破損光流修復(fù)并緩存記憶庫(kù),后續(xù)步驟可直接使用已修復(fù)光流進(jìn)行隱空間插值,并調(diào)用緩存的K/V鍵值對(duì)實(shí)現(xiàn)流引導(dǎo)。最終確定最優(yōu)方案:前5步(第2-6步)執(zhí)行隱空間插值,剩余步驟采用流緩存補(bǔ)充,在432×240分辨率下實(shí)現(xiàn)13.4%加速。相比完全不使用光流補(bǔ)全與注意力機(jī)制的基準(zhǔn)版本,這些優(yōu)化幾乎抵消了額外計(jì)算開(kāi)銷(xiāo)。
(3)效率對(duì)比。下表4數(shù)據(jù)表明,在相同去噪步數(shù)下,F(xiàn)loED在所有分辨率下均優(yōu)于CoCoCo、DiffuEraser等基于擴(kuò)散模型的方法,展現(xiàn)出最先進(jìn)的運(yùn)算效率。
討論本文聚焦于文本引導(dǎo)的視頻修復(fù),主要與基于擴(kuò)散模型的方法對(duì)比。本文的隱空間插值技術(shù)可直接擴(kuò)展至CoCoCo等其他擴(kuò)散模型實(shí)現(xiàn)加速處理。但需指出,預(yù)修復(fù)破損光流的策略可能限制其跨場(chǎng)景遷移能力。
結(jié)論
本文提出FloED,一種通過(guò)光流引導(dǎo)增強(qiáng)時(shí)序一致性與計(jì)算效率的視頻修復(fù)框架。該雙分支架構(gòu)首先生成修復(fù)光流,繼而通過(guò)多尺度適配器指導(dǎo)修復(fù)過(guò)程。無(wú)需訓(xùn)練的隱空間插值技術(shù)與流注意力緩存機(jī)制,顯著降低了光流整合的典型計(jì)算開(kāi)銷(xiāo)。實(shí)驗(yàn)證明FloED在背景修復(fù)與物體移除任務(wù)中均達(dá)到最先進(jìn)水平,展現(xiàn)出卓越的時(shí)序一致性與內(nèi)容連貫性保持能力。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
