大一統(tǒng)視頻編輯框架:浙大&微軟推出UniEdit,無須訓(xùn)練、支持多種編輯場景
隨著 Sora 的爆火,人們看到了 AI 視頻生成的巨大潛力,對這一領(lǐng)域的關(guān)注度也越來越高。
除了視頻生成,在現(xiàn)實生活中,如何對視頻進(jìn)行編輯同樣是一個重要的問題,且應(yīng)用場景更為廣泛。以往的視頻編輯方法往往局限于「外觀」層面的編輯,例如對視頻進(jìn)行「風(fēng)格遷移」或者替換視頻中的物體,但關(guān)于更改視頻中對象的「動作」的嘗試還很少。
UniEdit 視頻編輯結(jié)果(動作編輯、風(fēng)格遷移、背景替換、剛性 / 非剛性物體替換)
本文中,來自浙江大學(xué)、微軟亞洲研究院、和北京大學(xué)的研究者提出了一個基于文本描述的視頻編輯統(tǒng)一框架 UniEdit,不僅涵蓋了風(fēng)格遷移、背景替換、剛性 / 非剛性物體替換等傳統(tǒng)外觀編輯場景,更可以有效地編輯視頻中對象的動作,例如將以上視頻中浣熊彈吉他的動作變成「吃蘋果」或是「招手」。
此外,除了靈活的自然語言接口和統(tǒng)一的編輯框架,這一模型的另一大優(yōu)勢是無需訓(xùn)練,大大提升了部署的便捷性和用戶使用的方便度。
- 論文標(biāo)題:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
- 項目主頁:https://jianhongbai.github.io/UniEdit
- 代碼:https://github.com/JianhongBai/UniEdit
- 論文:https://arxiv.org/abs/2402.13185
1.UniEdit 在多種視頻編輯場景中的表現(xiàn)
a) 對象動作編輯
編輯指令:一只正在趴著的柯基
b) 風(fēng)格化
編輯指令:上海,碼頭,油畫風(fēng)格
c) 背景替換
編輯指令:鋼鐵俠在公園,冬季
d) 對象剛性編輯
編輯指令:一位男士穿著紅色西裝
e) 對象非剛性編輯
編輯指令:馬里奧正在享用晚餐
可以觀察到,UniEdit 在不同編輯場景中 1)保持了較好的時序一致性,2)較好的保留了原視頻的結(jié)構(gòu)及紋理細(xì)節(jié),3)生成符合文本描述的編輯視頻,展現(xiàn)出了強大的視頻編輯能力。
2.UniEdit 獨特之處與技術(shù)創(chuàng)新點
研究者表示,UniEdit 相較于其他視頻編輯方法,其獨特之處體現(xiàn)在:
- 多功能:支持視頻「動作」編輯以及多種視頻「外觀」編輯場景。
- 無需訓(xùn)練:UniEdit 直接利用與訓(xùn)練的文本到視頻生成模型,無需額外訓(xùn)練或微調(diào)。
- 靈活性:可兼容不同文本到視頻生成模型,可以使用更加強大的視頻生成模型提升 UniEdit 編輯質(zhì)量。
UniEdit 技術(shù)上的核心創(chuàng)新點為:
- 研究者發(fā)現(xiàn),視頻生成模型的時間自注意層編碼了視頻的「幀間依賴性」?;谶@個洞察,研究者引入了一個輔助的動作參考分支,用于生成文本引導(dǎo)的動作特征,然后通過時間自注意層(SA-T)將這些特征注入到主編輯路徑中,從而實現(xiàn)將文本引導(dǎo)的動作注入到源視頻中。
- 受到圖像編輯技術(shù)的啟發(fā),研究者發(fā)現(xiàn)視頻生成模型的空間自注意層(SA-S)編碼了視頻幀內(nèi)空間依賴性。因此,研究者引入了一個輔助視頻重建分支,并將從視頻重建分支的空間自我注意層獲得的特征注入到主編輯路徑中,以保留源視頻的非編輯內(nèi)容。
- 為了在編輯外觀時保持空間結(jié)構(gòu),研究者將主編輯路徑中的空間注意力圖替換為視頻重建分支中的空間注意力圖。
3.UniEdit 算法框架解讀
方法概述。如上圖所示,UniEdit 主編輯路徑遵循反演 - 生成流程:使用 DDIM 反演后的潛變量作為初始噪聲,然后以目標(biāo)提示
為文本條件,使用預(yù)訓(xùn)練的 UNet 進(jìn)行去噪處理。進(jìn)行動作編輯時,為了實現(xiàn)源內(nèi)容保留和動作控制,研究者提出加入一個輔助視頻重建分支和一個輔助動作參考分支,以提供所需的源視頻內(nèi)容和動作特征,這些特征被注入到主編輯路徑中,以實現(xiàn)內(nèi)容保留和動作編輯。
對象動作編輯 — 內(nèi)容保留。編輯任務(wù)的關(guān)鍵挑戰(zhàn)之一是繼承源視頻中的原始內(nèi)容(例如紋理和背景)。如圖像編輯中所驗證的,重建過程中去噪模型的注意力特征包含了源視頻的內(nèi)容信息。因此,UniEdit 將視頻重建分支中的注意力特征注入到主編輯路徑的空間自注意(SA-S)層中,以保留原視頻內(nèi)容。
在去噪步驟 t,主編輯路徑中第個 SA-S 模塊的注意力機(jī)制操作如下:
其中是主編輯路徑中的特征,
是重建分支中對應(yīng) SA-S 層的值(value),
和
為超參數(shù)。通過替換空間自注意力層的 value 特征,主編輯路徑合成的視頻保留了源視頻的未編輯特征(例如背景)。與之前的視頻編輯工作使用的跨幀注意力機(jī)制不同,研究者采用逐幀替換的操作,以更好地處理包含大幅度動作的源視頻。
對象動作編輯 — 動作注入。為了在不犧牲內(nèi)容一致性的情況下獲得所需的動作,研究者提出用參考動作指導(dǎo)主編輯路徑。具體來說,在去噪過程中涉及一個輔助動作參考分支。與重建分支不同,動作參考分支以包含所需動作描述的目標(biāo)提示為條件。為了將動作轉(zhuǎn)移到主編輯路徑,研究者的核心洞察是時間層模擬了合成視頻剪輯的幀間依賴性(如下圖所示)。受上述觀察的啟發(fā),研究者設(shè)計了在主編輯路徑的時間自注意層上注入注意力圖:
其中和
指的是動作參考分支的查詢(query)和鍵值(key),并在實踐中將
和
設(shè)置為零。研究者觀察到,時間注意力圖的注入可以有效地幫助主編輯路徑生成與目標(biāo)提示一致的動作。為了更好地將動作與源視頻中的內(nèi)容融合,研究者還在早期去噪步驟中對主編輯路徑和動作參考分支實施空間結(jié)構(gòu)控制。
外觀編輯 — 空間結(jié)構(gòu)控制??偟膩碚f,外觀編輯和動作編輯之間有兩個主要區(qū)別。首先,外觀編輯不需要改變視頻的幀間關(guān)系。因此,研究者從動作編輯流程中移除了動作參考分支和相應(yīng)的動作注入機(jī)制。其次,外觀編輯的主要挑戰(zhàn)是保持源視頻的結(jié)構(gòu)一致性。為了解決這個問題,研究者在主編輯路徑和重建分支之間引入了空間結(jié)構(gòu)控制。
先前的視頻外觀編輯方法主要利用輔助網(wǎng)絡(luò)(例如 ControlNet)實現(xiàn)空間結(jié)構(gòu)控制。當(dāng)輔助控制模型失敗時,可能會導(dǎo)致在保持原始視頻結(jié)構(gòu)方面的性能下降。作為替代,研究者建議從重建分支中提取源視頻的空間結(jié)構(gòu)信息。直觀地說,空間自注意層中的注意力圖編碼了合成視頻的結(jié)構(gòu),如下圖所示。因此,研究者用重建分支中的查詢和鍵替換主編輯路徑中 SA-S 模塊的查詢和鍵:
其中和
指重建分支的查詢和鍵,
和
用于控制編輯的程度。值得一提的是,空間結(jié)構(gòu)控制的效果與內(nèi)容保留機(jī)制不同。以風(fēng)格化為例,上式中的結(jié)構(gòu)控制機(jī)制只確保了每幀空間構(gòu)圖的一致性,同時使模型能夠基于文本提示生成所需的紋理和風(fēng)格。另一方面,內(nèi)容呈現(xiàn)技術(shù)繼承了源視頻的紋理和風(fēng)格。因此,研究者使用結(jié)構(gòu)控制而不是內(nèi)容保留來進(jìn)行外觀編輯。
允許圖像輸入。為了使 UniEdit 更加靈活,研究者進(jìn)一步提出一種方法,允許將圖像作為輸入并合成高質(zhì)量的視頻。與圖像動畫技術(shù)不同,UniEdit 允許用戶用文本提示指導(dǎo)動畫過程。
具體來說,研究者提出首先通過以下方式實現(xiàn)文本到圖像(I2V)的生成:1)通過模擬相機(jī)運動轉(zhuǎn)換輸入圖像,形成偽視頻片段;或者 2)利用現(xiàn)有的圖像動畫方法(例如SVD、AnimateDiff)合成一個具有隨機(jī)動作的視頻(這可能與文本提示不一致)。然后,研究者使用以上介紹的 UniEdit 算法對原始視頻進(jìn)行文本引導(dǎo)編輯,以獲得最終輸出視頻。
3.UniEdit 實驗結(jié)果
UniEdit 不局限于特定的視頻擴(kuò)散模型。研究者將 UniEdit 建立在視頻生成模型 LaVie 之上,以驗證所提出方法的有效性。對于每個輸入視頻,研究者遵循 LaVie 的預(yù)處理步驟將分辨率調(diào)整為 320×512。然后,將預(yù)處理后的視頻輸入 UniEdit 進(jìn)行視頻編輯。每個視頻在 NVIDIA A100 GPU 上編輯僅需 1-2 分鐘。
基線方法。為了評估 UniEdit 的性能,研究者將 UniEdit 的編輯結(jié)果與最先進(jìn)的動作和外觀編輯方法進(jìn)行比較。對于動作編輯,由于缺乏開源的無需訓(xùn)練的方法,研究者將最先進(jìn)的非剛性圖像編輯技術(shù) MasaCtrl 適配到 T2V 模型,以及 one-shot 視頻編輯方法 Tune-A-Video (TAV) 作為強基線。對于外觀編輯,研究者使用最新的性能強大的方法,包括 FateZero、TokenFlow 和 Rerender-A-Video (Rerender) 作為基線。結(jié)果如下圖所示:
定性結(jié)果。研究者在圖中給出了 UniEdit 的編輯示例(更多示例見項目主頁及論文原文)。觀察到 UniEdit 可以:1)在不同場景中編輯,包括動作變化、物體替換、風(fēng)格轉(zhuǎn)換、背景修改等;2)與目標(biāo)提示一致;3)展示出極佳的時序一致性。
此外,研究者在圖 5 中與最先進(jìn)的方法進(jìn)行了比較。對于外觀編輯,即將源視頻轉(zhuǎn)換為油畫風(fēng)格,UniEdit 在內(nèi)容保留方面優(yōu)于基線。例如草原仍保持其原始外觀,沒有任何額外的石頭或小路。對于動作編輯,大多數(shù)基線方法未能輸出與目標(biāo)提示對齊的視頻,或者未能保留源內(nèi)容。
定量結(jié)果。研究者從兩個方面定量驗證了 UniEdit 的有效性:時間一致性和與目標(biāo)提示的一致性。遵循之前的工作,研究者使用 CLIP 模型計算幀間一致性和文本對齊的分?jǐn)?shù)。研究者還通過邀請 10 位參與者對 UniEdit 和基線方法編輯的視頻進(jìn)行五級評分(1-5)進(jìn)行了用戶研究。如下表所示,UniEdit 的表現(xiàn)大幅超過基線方法。
更多細(xì)節(jié)內(nèi)容請參閱原論文。