自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法

發(fā)布于 2024-11-22 10:42
瀏覽
0收藏

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

前言

大家好,我是Alonzo。


隨著OpenAI在今年年初公布了Sora的demo,video generation/editing的工作呈現(xiàn)出井噴式發(fā)展的趨勢,同時(shí),我們課題組也在積極地進(jìn)行許多探索。今天,很高興能跟大家分享我們課題組的最新研究成果——StableV2V——一個(gè)專注于「人機(jī)交互一致性」的視頻編輯方法。


在開始詳細(xì)介紹StableV2V的具體工作之前,我們已經(jīng)將我們的代碼、模型、權(quán)重開源,歡迎大家來我們的項(xiàng)目倉庫提issues或PR~關(guān)于StableV2V的具體效果,歡迎大家參觀我們的項(xiàng)目主頁,我們提供了大量視頻格式的結(jié)果,以及跟現(xiàn)有state-of-the-art方法的直觀對(duì)比。以下是相關(guān)資源鏈接:

論文:https://arxiv.org/abs/2411.11045
項(xiàng)目主頁:https://alonzoleeeooo.github.io/StableV2V/
GitHub:https://github.com/AlonzoLeeeooo/StableV2V
HuggingFace model repo:https://huggingface.co/AlonzoLeeeooo/StableV2V
HuggingFace dataset repo(DAVIS-Edit):https://huggingface.co/datasets/AlonzoLeeeooo/DAVIS-Edit

如果大家能夠給我們的項(xiàng)目倉庫一個(gè)免費(fèi)的star/like,我們將不勝感激!非常感謝!

What Motivates Us?

在具體介紹StableV2V的具體做法之前,我們想先分享一下關(guān)于StableV2V研究的心路歷程。具體來說,我們會(huì)從三個(gè)方面將我們的研究動(dòng)機(jī)展開:
(1)視頻編輯的基本定義;
(2)現(xiàn)有方法關(guān)于視頻編輯的解決方案,以及它們的局限性;
(3)StableV2V的思路。

視頻編輯的基本定義

視頻編輯(video editing)這項(xiàng)任務(wù)旨在根據(jù)用戶輸入的額外條件,對(duì)原視頻中的內(nèi)容(例如:前景、背景等等)進(jìn)行編輯。在diffusion model主導(dǎo)的大背景環(huán)境下,現(xiàn)有方法的setting大多都是基于文本描述進(jìn)行的,比較有名的工作有TokenFlow、StableVideo、AVID等等。也就是說,這類方法往往會(huì)需要兩個(gè)輸入——原視頻的text prompt以及編輯后視頻的text prompt——并且這兩個(gè)text prompt之間往往僅有極個(gè)別描述視頻主體(物體、背景)的詞語區(qū)別。除此之外,也有基于image prompt的方法,例如VASE,呈現(xiàn)出的效果大致類似于圖片模態(tài)中的subject-driven generation。這些方法也就形成了目前video editing的兩大主流settings——text-based和image-based editing。

我們給出了兩個(gè)具體例子讓大家能夠更直觀地感受這兩種setting的具體效果:

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

Text-based editing效果的演示

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

Image-based editing效果的演示(右下角展示為reference image)


其實(shí)從上述兩個(gè)例子,大家不難發(fā)現(xiàn)video editing這個(gè)任務(wù)的難點(diǎn):
(1)生成視頻幀之間的連續(xù)一致性
(2)編輯內(nèi)容與user prompts之間的一致性問題。


第一點(diǎn)可以說是視頻模態(tài)相關(guān)任務(wù)的通病——即我們常說的temporal consistency問題,也就是說,我們在對(duì)原視頻進(jìn)行編輯的同時(shí),也要保證生成視頻幀與幀之間是連貫的;第二點(diǎn)則是由于人機(jī)交互帶來的問題,我們知道,用戶在交互過程中給定的prompt(文字或圖片),往往會(huì)存在跟生成內(nèi)容之間不一致的問題。具體來說,這一點(diǎn)可以是模型不能生成出text中描述的內(nèi)容,亦或是因?yàn)槟P头妒奖旧泶嬖诘膯栴},生成的內(nèi)容難以讓人滿意。

據(jù)我們觀察,這類現(xiàn)象是相當(dāng)普遍的,尤其是當(dāng)用戶期望生成的內(nèi)容,與原視頻的內(nèi)容之間有較大形狀差異。例如,上圖中用戶給定了的「斑馬」的prompt,但VASE由于其自身的特性,僅能生成「牛形狀的斑馬」,這樣的效果肯定不會(huì)是我們需要的。


于是,StableV2V基于上述我們觀察到的不一致問題為研究動(dòng)機(jī),展開了對(duì)現(xiàn)有方法的調(diào)研、綜述、反思、及改進(jìn)。

現(xiàn)有方法的解決方案及局限性

我們將現(xiàn)有方法分為四類:基于DDIM inversion的方法、基于one-shot tuning的方法、基于學(xué)習(xí)的方法(learning-based)、基于第一幀編輯的方法。在本章中,我們將詳細(xì)討論這些方法的做法,以及它們對(duì)于前述問題存在的局限性。


基于DDIM inversion的方法旨在將原視頻通過DDIM inversion的方式,獲得每個(gè)timestep對(duì)應(yīng)的特征(CNN features、attention maps)等,然后再在擴(kuò)散模型采樣時(shí)對(duì)每一步的對(duì)應(yīng)特征將這些抽取出來的原視頻特征整合進(jìn)去。這樣的做法其實(shí)很直觀,就是想將原視頻的運(yùn)動(dòng)模式對(duì)采樣過程進(jìn)行一定程度的引導(dǎo),從而讓輸出視頻在生成新的編輯內(nèi)容的基礎(chǔ)上,在其余內(nèi)容上與原視頻保持一致。具體來說,現(xiàn)在比較常用的一個(gè)思路是將PnP(Plug-and-Play Diffusion Features)的思路用到視頻里來(AnyV2V的做法),或者是通過一些一致性的約束設(shè)計(jì)讓生成視頻與原視頻保持一致性(TokenFlow的做法)。

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

PnP是一個(gè)image editing工作,通過在采樣過程中替換CNN features和attention maps,讓編輯的內(nèi)容與原圖像保持一致。

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

TokenFlow的流程圖,通過最近鄰去匹配相似的attention maps,并在采樣過程中用這些attention maps去約束生成視頻。



基于one-shot tuning的方法旨在訓(xùn)練一個(gè)video-specific的模型權(quán)重,通過這個(gè)權(quán)重對(duì)視頻的motion patterns進(jìn)行建模,然后在采樣過程中通過調(diào)整text prompt的方式生成不同的結(jié)果,比較經(jīng)典的代表作有ICCV 2023的Tune-A-Video,以及后續(xù)將prompt2prompt的思路和one-shot tuning整合到一起的Video-P2P。

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

Tune-A-Video的流程圖

但值得注意的是,前述這兩種方法很大程度上受限于原視頻的motion patterns——也就是說,它們只能處理「編輯內(nèi)容」與「原視頻內(nèi)容」形狀相似的場景——否則的話,這些從原視頻中抽取出來的motion信息,在用在新編輯的內(nèi)容上時(shí),會(huì)存在不匹配的問題,尤其是前文中講到的user prompts期望的內(nèi)容會(huì)導(dǎo)致形狀變化的場景。


相反,基于學(xué)習(xí)的方法旨在通過微調(diào)image diffusion models,通過類似AnimateDiff的范式,往image diffusion models中插入motion modules,再在大規(guī)模的文本-視頻數(shù)據(jù)集上進(jìn)行微調(diào)這些motion modules,以此賦予模型編輯視頻的方式。關(guān)于AnimateDiff相關(guān)的解讀,可以參考我的往期文章:


從圖像到視頻:淺談Video Diffusion Models背后的底層原理(https://zhuanlan.zhihu.com/p/707359440)


但是,基于學(xué)習(xí)的方法很大程度受限于image diffusion models的范式——也就是它們的inpainting架構(gòu)。比方說,AVID是從SD Inpaint開始微調(diào)的;VASE是從Paint-by-Example。這些inpainting model在用戶輸入原視頻、text prompt之外,還會(huì)要求輸入編輯區(qū)域?qū)?yīng)的mask。而這樣的mask,通常是依賴于數(shù)據(jù)集標(biāo)注(例如VOS數(shù)據(jù)集),或者需要進(jìn)行人工標(biāo)注的,這樣的標(biāo)注過程將會(huì)變得非常費(fèi)時(shí)費(fèi)力。尤其是在處理前文中說到的場景,用戶不能知道編輯的內(nèi)容會(huì)生成在什么位置,因此也不能夠給出精準(zhǔn)的mask標(biāo)注。

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

AVID的方法流程圖

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

VASE的方法流程圖

最后一類方法是基于第一幀編輯的方法,也是近期比較新穎的一類范式,代表性的工作有AnyV2V。這類方法將video editing分成兩個(gè)步驟,先對(duì)視頻的第一幀進(jìn)行編輯,然后通過motion transfer的方式,將第一幀編輯的內(nèi)容擴(kuò)散到剩余的視頻幀上去,為video editing提供了非常強(qiáng)大的靈活性。現(xiàn)有相關(guān)工作有AnyV2V和I2VEdit,然而,AnyV2V采取的motion transfer思路是前文介紹的DDIM inversion + PnP的范式,I2VEdit則是基于one-shot tuning的范式,這兩者均會(huì)受限于原視頻內(nèi)在的motion patterns。

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

AnyV2V的方法流程圖

這樣的研究背景不由得引發(fā)了我們對(duì)video editing的思考——究竟什么樣的范式才能夠解決好video editing中編輯內(nèi)容與user prompts不一致的問題?

我們的思路

在設(shè)計(jì)StableV2V的時(shí)候,我們嘗試跳出現(xiàn)有方法的范式局限,專注于思考一個(gè)問題——我們究竟能不能拿到跟user prompts對(duì)齊的motion patterns?

?

其實(shí)在早期研究的時(shí)候,我們也嘗試過前述幾種方法的范式,但最終都苦于不能仿真出與user prompts對(duì)齊的motion patterns,生成的結(jié)果往往不盡人意。但是我們始終清醒的認(rèn)識(shí)到一點(diǎn)——如果我們基于第一幀編輯的范式去設(shè)計(jì)StableV2V,那么我們是能拿到跟user prompts對(duì)齊的內(nèi)容的——也就是編輯之后的第一幀對(duì)應(yīng)的信息。 如果我們能找到一個(gè)方式,從這一幀的信息出發(fā)去仿真得到其他幀的信息,那么肯定是能拿到對(duì)齊的motion patterns的?;谶@個(gè)思路,我們最終將StableV2V呈現(xiàn)在了大家面前:

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

StableV2V的方法流程圖。圖中的綠框代表視頻的第一幀,藍(lán)框代表從第k次迭代仿真到第k+1次仿真的過程。

How do we do?

方法細(xì)節(jié)

StableV2V主要包括三個(gè)核心組件——Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)、Conditional Image-to-video Generator(CIG)。

簡單來說,Prompted First-frame Editor(PFE) 主要負(fù)責(zé)將user prompts轉(zhuǎn)換成編輯后的第一幀。這里我們考慮了目前開源的諸多圖像編輯工作,例如Paint-by-Example、SD Inpaint、InstructPix2Pix等等,同時(shí)發(fā)現(xiàn),通過調(diào)整PFE,能夠?qū)崿F(xiàn)text-based editing、instruction-based editing、image-based editing等多種主流的video editing設(shè)定,甚至我們的方法能夠進(jìn)行很多有趣的應(yīng)用——例如跟用戶手畫的sketch進(jìn)行交互。


StableV2V的核心組件是Iterative Shape Aligner(ISA),也就是我們將模型使用的motion patterns與user prompts對(duì)齊的組件。前文我們說到,我們能夠拿到的第一編輯幀的信息,是與編輯視頻對(duì)齊的?;谶@點(diǎn),我們考慮到深度圖能夠?qū)σ曨l運(yùn)動(dòng)的motions和形狀同時(shí)進(jìn)行表征,于是采用深度圖作為傳遞motion patterns的中間媒介;并且,我們觀察到編輯后的物體(即使有較大形變),與原視頻中的內(nèi)容也應(yīng)該保持一樣的motion——也就是說,編輯后物體的光流與原視頻的「光流」及「深度圖」應(yīng)該保持一樣的數(shù)值。基于這點(diǎn),我們找到了仿真編輯視頻對(duì)應(yīng)的深度圖的方法

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

ISA的motion simulation過程

Motion Simulation。具體來說,ISA需要借助「原視頻幀」以及「第一編輯幀」對(duì)應(yīng)的segmentation masks來完成仿真過程,這里我們僅介紹從第1到第2個(gè)仿真的光流仿真過程(上圖中的紅色框部分),后續(xù)的過程以此類推,展示如下:

  • 首先,我們會(huì)計(jì)算「原視頻光流」在對(duì)應(yīng)segmentation mask中的均值,并以此來表征「原視頻物體的運(yùn)動(dòng)信息」;
  • 由于編輯后物體的光流與原視頻的「光流」及「深度圖」應(yīng)該保持一樣的數(shù)值,并且我們能夠拿到第一編輯幀對(duì)應(yīng)的segmentation mask,我們將前述計(jì)算得到的「平均光流值」,賦值到第一編輯幀segmentation mask對(duì)應(yīng)的區(qū)域,我們將這一過程稱為motion pasting,仿真后的光流與原光流進(jìn)行拼接,就能得到「編輯視頻第1幀到第2幀的光流」;
  • 在拿到編輯視頻第1幀到第2幀的光流」后,我們將「第一編輯幀的segmentation mask」warp到下一幀,拿到第2幀對(duì)應(yīng)的segmentation mask;
  • 至此,我們已經(jīng)具備了從第2幀到第3幀進(jìn)行仿真的所有輸入條件(即原視頻光流、原視頻segmentation mask、第2編輯幀對(duì)應(yīng)的segmentation mask),因?yàn)槲覀兛梢酝ㄟ^一種迭代式的仿真方式獲得最終視頻對(duì)應(yīng)的仿真光流。

Depth Simulation。一旦我們拿到了最終視頻對(duì)應(yīng)的光流信息,下一步就是仿真對(duì)應(yīng)的深度信息,仿真深度信息的過程與仿真光流的過程類似,在此不再具體展開,感興趣的朋友歡迎移步原文。


Shape-guided Depth Refinement。到這一步,我們已經(jīng)拿到了一個(gè)仿真的深度圖,但是值得注意的是,這樣仿真出來的深度圖往往會(huì)有原視頻中的冗余信息,例如StableV2V方法流程圖中多余的天鵝部分。如果我們用這樣的深度圖去引導(dǎo)視頻生成網(wǎng)絡(luò),那么輸出的視頻中肯定會(huì)存在由于不一致導(dǎo)致的artifacts。受到video inpainting研究的啟發(fā),我們提出了一個(gè)形狀引導(dǎo)的深度圖修復(fù)網(wǎng)絡(luò)來解決這個(gè)問題,旨在將冗余的深度圖部分移除。

下面我們可視化了前述各個(gè)階段仿真的深度圖效果,大家可以直觀地看到,最終送入視頻生成網(wǎng)絡(luò)的深度圖與編輯后的內(nèi)容是一致的,并且,我們很慶幸的是我們的方法具有不錯(cuò)的精度,能有效保留編輯后物體的形狀一致(例如下圖中的葡萄)。

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

ISA各階段仿真的可視化效果

最后,Conditional Image-to-video Generator(CIG) 作為一個(gè)深度圖引導(dǎo)的圖生視頻網(wǎng)絡(luò),旨在通過「第一編輯幀」和「修復(fù)后的深度圖」將編輯的內(nèi)容擴(kuò)散到其他的視頻幀上去,以生成最終編輯后的視頻。

結(jié)果對(duì)比

另外,我們觀察到現(xiàn)有方法大多在自己搜集到的測試集上對(duì)模型的性能進(jìn)行驗(yàn)證,因?yàn)槲覀兲岢隽艘粋€(gè)基準(zhǔn)測試集,名為DAVIS-Edit,數(shù)據(jù)集已在我們的HuggingFace repo中開源,包含人工標(biāo)注的text prompts和image prompts為兩大主流settings提供了測試標(biāo)準(zhǔn)。同時(shí),DAVIS-Edit提供了兩套標(biāo)注,一套對(duì)應(yīng)編輯后物體與原視頻物體相差不大,另一套則會(huì)有較大的形狀差異,以此來推動(dòng)更多相關(guān)的研究。

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

DAVIS-Edit樣例的可視化

我們在文章中對(duì)StableV2V以及七個(gè)現(xiàn)有方法進(jìn)行了對(duì)比??陀^指標(biāo)上,我們考慮了DOVER、FVD、WE、CLIP-Temporal、CLIP score、推理時(shí)間,從視頻質(zhì)量、幀間一致性、圖文對(duì)齊、推理效率等多個(gè)方面對(duì)現(xiàn)有方法進(jìn)行評(píng)測,同時(shí),我們還考慮了human evaluation。關(guān)于實(shí)驗(yàn)結(jié)果的對(duì)比及分析,歡迎大家參考我們的原文。下面是我們主實(shí)驗(yàn)的結(jié)果:

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

StableV2V與其他方法在DAVIS-Edit上的對(duì)比結(jié)果

更多的可視化生成結(jié)果,歡迎大家移步我們的項(xiàng)目主頁,我們提供了視頻格式的結(jié)果、應(yīng)用、及對(duì)比。下面我們展示一些圖片格式的結(jié)果預(yù)覽:

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

StableV2V在text-based editing(左)和image-based editing(右)上的應(yīng)用

中科大重磅開源StableV2V:專注于「人機(jī)交互一致性」的視頻編輯方法-AI.x社區(qū)

StableV2V的更多應(yīng)用

本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/GHJ8-LiKKfnlKujUsQEq0g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦