自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款 精華

發(fā)布于 2025-3-31 09:51
瀏覽
0收藏

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.10634 
項(xiàng)目鏈接:immortalco.github.io/V2Edit

亮點(diǎn)直擊

  • V2Edit,一個(gè)簡單但多功能的框架,用于無需訓(xùn)練的指令引導(dǎo)視頻和3D場景編輯。
  • 引入了協(xié)同機(jī)制,系統(tǒng)地控制視頻擴(kuò)散中的去噪過程,并支持漸進(jìn)式編輯,有效平衡原始視頻內(nèi)容的保留與編輯指令的完成,所有功能都集成在一個(gè)統(tǒng)一的框架中,適用于多種編輯任務(wù)。
  • V2Edit在各種視頻和3D場景編輯任務(wù)中始終如一地實(shí)現(xiàn)了高質(zhì)量、成功的編輯,包括現(xiàn)有方法無法解決的任務(wù),從而在這兩個(gè)領(lǐng)域確立了最先進(jìn)的性能。

總結(jié)速覽

解決的問題

  • 視頻編輯中的挑戰(zhàn):現(xiàn)有視頻編輯方法在處理時(shí)間一致性、快速移動(dòng)的相機(jī)軌跡、復(fù)雜運(yùn)動(dòng)和顯著時(shí)間變化時(shí)存在困難。
  • 原始內(nèi)容保留與編輯任務(wù)完成的平衡:現(xiàn)有訓(xùn)練自由模型在滿足編輯指令的同時(shí),難以有效保留原始視頻內(nèi)容,且需要大量超參數(shù)調(diào)優(yōu)。
  • 3D場景編輯的挑戰(zhàn):現(xiàn)有視頻編輯方法在處理大規(guī)模相機(jī)運(yùn)動(dòng)和顯著時(shí)間變化時(shí),難以生成具有強(qiáng)3D一致性的編輯結(jié)果。

提出的方案

  • V2Edit框架:提出了一種新穎的訓(xùn)練自由框架,用于指令引導(dǎo)的視頻和3D場景編輯。
  • 漸進(jìn)式策略:將復(fù)雜的編輯任務(wù)分解為一系列較簡單的子任務(wù),逐步完成每個(gè)子任務(wù)。
  • 協(xié)同控制機(jī)制:通過初始噪聲、每個(gè)去噪步驟中添加的噪聲以及文本提示與視頻內(nèi)容之間的交叉注意力圖來控制每個(gè)子任務(wù)。
  • “渲染-編輯-重建”過程:將視頻編輯方法擴(kuò)展到3D場景編輯,通過固定相機(jī)軌跡渲染場景視頻,編輯渲染視頻,然后從編輯后的視頻重建場景。

應(yīng)用的技術(shù)

  • 視頻擴(kuò)散模型:利用預(yù)訓(xùn)練的視頻擴(kuò)散模型進(jìn)行訓(xùn)練自由的視頻編輯。
  • 噪聲調(diào)度器:通過逐步添加噪聲來傳遞語義信息,保留原始視頻的低頻特征。
  • 交叉注意力圖:在去噪過程中,利用模型的交叉注意力圖來控制原始內(nèi)容的保留。
  • 3D一致性重建:通過渲染視頻的時(shí)間一致性,確保重建場景的強(qiáng)3D一致性。

達(dá)到的效果

  • 高質(zhì)量視頻編輯:在各種具有挑戰(zhàn)性的視頻編輯任務(wù)中,V2Edit能夠處理更復(fù)雜的場景,包括更長的視頻、更快的相機(jī)軌跡和更大的時(shí)間變化。
  • 高質(zhì)量3D場景編輯:V2Edit支持顯著的幾何變化,如對(duì)象插入,這是現(xiàn)有3D場景編輯方法無法實(shí)現(xiàn)的。
  • 高效編輯:無需耗時(shí)的逐視圖調(diào)整,確保快速收斂,實(shí)現(xiàn)高效視頻編輯。
  • 最先進(jìn)的性能:在視頻和3D場景編輯領(lǐng)域,V2Edit建立了最先進(jìn)的性能。

方法

在 V2Edit 中,利用預(yù)訓(xùn)練的視頻擴(kuò)散模型作為多功能視頻編輯的基礎(chǔ),而無需在配對(duì)數(shù)據(jù)集上進(jìn)行特定訓(xùn)練??蚣苋缦聢D2所示,采用漸進(jìn)式編輯過程,將復(fù)雜的編輯任務(wù)分解為一系列較簡單的子任務(wù)。為了在確保高質(zhì)量編輯的同時(shí)保留原始視頻內(nèi)容,本文實(shí)現(xiàn)了一種無需訓(xùn)練的保留控制機(jī)制,系統(tǒng)地管理擴(kuò)散過程的三個(gè)關(guān)鍵方面:(i) 初始噪聲,(ii) 每個(gè)去噪步驟中添加的噪聲,以及 (iii) 文本提示與視頻內(nèi)容之間的交叉注意力圖。這種方法通過一致的保留控制策略(無需超參數(shù)調(diào)優(yōu)),確保在有效應(yīng)用預(yù)期修改的同時(shí),穩(wěn)健地保留視頻的原始元素。

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

提示生成

利用大視覺語言模型(LVLMs)將編輯指令轉(zhuǎn)換為兩個(gè)描述性提示:一個(gè)用于原始視頻,另一個(gè)用于編輯后的視頻。這一點(diǎn)至關(guān)重要,因?yàn)榇蠖鄶?shù)文本到視頻擴(kuò)散模型需要描述視頻內(nèi)容本身的提示。通過生成這些定制提示,本文框架確保底層擴(kuò)散模型能夠有效地執(zhí)行指令引導(dǎo)的編輯,同時(shí)保持原始視頻內(nèi)容的結(jié)構(gòu)和完整性。

原始內(nèi)容保留控制

為了在編輯過程中保留原始視頻內(nèi)容,V2Edit 采用了三種互補(bǔ)的控制機(jī)制:(1) 控制初始噪聲以保留低頻信息;(2) 調(diào)節(jié)每個(gè)去噪步驟中添加的噪聲以保留語義細(xì)節(jié);(3) 利用交叉注意力圖確保文本提示與視頻內(nèi)容之間的對(duì)齊。這些機(jī)制協(xié)同工作,在實(shí)現(xiàn)有效編輯的同時(shí)保持原始視頻的完整性,確保在各種編輯任務(wù)中成功推進(jìn)。下圖3展示了本文保留控制方法的可視化。

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

基于進(jìn)展的編輯過程

不同的編輯任務(wù)可能需要不同級(jí)別的保留控制。一個(gè)簡單且容易的編輯任務(wù)可以在較低或較高的保留控制水平下成功,但一個(gè)顯著改變外觀的更具挑戰(zhàn)性的編輯任務(wù)在保留控制過于嚴(yán)格時(shí)可能會(huì)失敗。為了解決不同編輯任務(wù)中保留控制需求的變化,V2Edit 采用了一種基于進(jìn)展的策略,將復(fù)雜的編輯任務(wù)分解為一系列較簡單的子任務(wù)。由于每個(gè)分解的子任務(wù)都較為簡單,易于在原始內(nèi)容保留和編輯任務(wù)完成之間取得平衡,這種分解使本文能夠在所有子任務(wù)中應(yīng)用一致的保留控制策略,而無需針對(duì)任務(wù)進(jìn)行調(diào)整。

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

通過混合系數(shù)進(jìn)行指導(dǎo)。通過這種雙重指導(dǎo)生成逐步完成每個(gè)子任務(wù),V2Edit 在各種場景中保持高質(zhì)量和語義一致的編輯。這種協(xié)同方法有效地平衡了原始內(nèi)容的保留與編輯指令的完成,確保從一個(gè)子任務(wù)到下一個(gè)子任務(wù)的平滑和成功進(jìn)展,而無需設(shè)計(jì)不同級(jí)別的控制機(jī)制的復(fù)雜性。

高效且穩(wěn)定的3D場景編輯

除了其原生視頻編輯能力外,V2Edit 通過引入簡單的“渲染-編輯-重建”(RER)過程,無縫擴(kuò)展到3D場景編輯:沿固定相機(jī)軌跡渲染原始場景的視頻,使用 V2Edit 進(jìn)行視頻編輯,然后從編輯后的視頻中重建并重新渲染場景。


為了確保3D一致性,本文修改了漸進(jìn)式編輯框架,使得在獲得每個(gè)子任務(wù)的編輯視頻后,可以將其重建為3D并重新渲染為視頻以供下一個(gè)子任務(wù)使用。這種修改利用了渲染視頻的時(shí)間平滑性和重建的3D一致性,確保編輯視頻具有強(qiáng)3D一致性。與之前需要迭代數(shù)據(jù)集更新和額外訓(xùn)練的3D編輯方法不同,本文方法保持穩(wěn)定且高效,能夠以最少的擴(kuò)散生成實(shí)現(xiàn)高質(zhì)量編輯。此外,本文編輯視頻的時(shí)間一致性允許進(jìn)行顯著的幾何變化,例如對(duì)象插入,這在以前由于每視圖編輯結(jié)果不一致而具有挑戰(zhàn)性。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

V2Edit 設(shè)置:使用 CogVideoX-5b作為底層視頻擴(kuò)散模型,這是一個(gè)基于 diffusion transformer(DiT)的文本到視頻模型,并支持類似 SORA的長描述作為輸入提示。本文使用 GPT-4o作為大型視覺語言模型(LVLM)為底層 CogVideoX 生成提示。在本文漸進(jìn)式框架中,每個(gè)編輯任務(wù)最多允許分解為六個(gè)(6)個(gè)子任務(wù)。對(duì)于3D場景編輯任務(wù),V2Edit 獨(dú)立于特定的場景表示方法。因此,本文選擇 NeRFStudio中的 SplactFacto 或 NeRFacto 作為場景表示。


視頻編輯任務(wù):與之前的工作[35]一致,使用 DAVIS 數(shù)據(jù)集中的視頻作為源視頻。評(píng)估的編輯任務(wù)由 GPT-4o 根據(jù)原始視頻輸入建議生成。


視頻編輯基線:將 V2Edit 與視頻編輯基線進(jìn)行比較,這些基線大致分為兩類:(1) 基于圖像的方法,依賴于底層圖像生成模型,包括 Slicedit和用于單目場景的 Instruct 4D-to-4D;(2) 基于視頻的方法,利用底層視頻生成模型,包括 CogVideoX-V2V、VideoShop、StableV2V、AnyV2V、BIVDiff(逐幀編輯和整體優(yōu)化)以及 CSD。一些基于圖像的方法需要編輯后的第一幀作為指導(dǎo),本文一致使用 Instruct-Pix2Pix生成該幀。


3D場景編輯任務(wù):與之前的場景編輯方法[6, 10, 40]一致,本文主要使用 Instruct-NeRF2NeRF (IN2N) 數(shù)據(jù)集中的場景進(jìn)行比較評(píng)估。本文還使用 NeRFStudio中的一些戶外場景作為更具挑戰(zhàn)性的任務(wù)。對(duì)于場景的相機(jī)軌跡,本文使用現(xiàn)有軌跡(對(duì)于 IN2N 數(shù)據(jù)集,使用官方提供的軌跡)或手動(dòng)繪制軌跡(對(duì)于其他場景)。


3D場景編輯基線:本文將 V2Edit 與最先進(jìn)的傳統(tǒng)基于圖像的3D場景編輯方法進(jìn)行比較,包括 Instruct-NeRF2NeRF (IN2N)、Efficient-NeRF2NeRF和 V2Edit。


V2Edit 變體用于消融研究:在正文中,本文提供了以下關(guān)鍵 V2Edit 變體的消融研究:(1) CogVideoX-V2V,同樣使用 CogVideoX作為底層視頻擴(kuò)散模型;(2) No Progression (NP),僅在不使用進(jìn)展的情況下應(yīng)用本文原始保留控制。


評(píng)估指標(biāo):視頻編輯任務(wù)的評(píng)估包含多個(gè)方面,包括整體視覺質(zhì)量、原始視頻保留和編輯任務(wù)完成度。使用傳統(tǒng)方法評(píng)估這些方面具有挑戰(zhàn)性。因此,本文使用 GPT-4o進(jìn)行評(píng)估,這可以被視為 VQAScore的蒙特卡羅模擬。本文向 GPT 提供每個(gè)方面的要求、編輯指令以及原始和編輯后的視頻逐幀內(nèi)容,然后要求 GPT 為每個(gè)方面提供1到100的評(píng)分。為了比較本文與不同基線的多個(gè)視頻,本文同時(shí)向 GPT 提供所有這些視頻,并要求 GPT 一起評(píng)分以確保一致的評(píng)分規(guī)則。為避免隨機(jī)性,本文使用20次獨(dú)立評(píng)估的平均值作為最終結(jié)果。利用 GPT 的視覺語言推理能力,該指標(biāo)可以量化編輯視頻的不同方面。本文還提供了用戶研究以及基于 CLIP的評(píng)分:CLIP 文本-圖像方向相似性 (CTIDS) 和 CLIP 方向一致性 (CDC)。

實(shí)驗(yàn)結(jié)果

視頻編輯:在 DAVIS數(shù)據(jù)集上的視頻編輯可視化結(jié)果如下圖4所示,更多結(jié)果請(qǐng)參見本項(xiàng)目網(wǎng)站。

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

本文 V2Edit 在各種具有挑戰(zhàn)性的任務(wù)中始終如一地成功編輯并生成高保真結(jié)果,例如為摩托車手添加一個(gè)火焰環(huán)以穿過,或?qū)⒁粋€(gè)快速移動(dòng)的人變成蝙蝠俠;同時(shí)成功保留了無關(guān)部分,例如“蝙蝠俠”任務(wù)中網(wǎng)球場的墻壁和布局以及網(wǎng)球運(yùn)動(dòng)員的動(dòng)作,“豬”任務(wù)中農(nóng)場中的物體,以及“天鵝”任務(wù)中的河流。相比之下,每個(gè)基線方法要么無法完成編輯,要么無法保留原始場景中的無關(guān)部分——尤其是原始姿勢和動(dòng)作。值得注意的是,基線方法 CogVideoX-V2V 是一種在 CogVideoX 上應(yīng)用 SDEdit的官方方法,可以視為本文方法的一個(gè)變體。該基線生成的視頻外觀良好,但未能保留原始場景中的大部分信息。這驗(yàn)證了本文保留控制方法的關(guān)鍵性。這表明,高質(zhì)量編輯結(jié)果并非源于本文使用的強(qiáng)大底層 CogVideoX,而是源于本文新穎的原始保留和進(jìn)展流程。


3D場景編輯:3D場景編輯的結(jié)果如下圖5和下圖6所示,更多結(jié)果請(qǐng)參見本文項(xiàng)目網(wǎng)站。如下圖5所示,本文 V2Edit 在包含顯著幾何變化的挑戰(zhàn)性編輯任務(wù)中取得了成功,具有清晰的外觀和合理的幾何結(jié)構(gòu),尤其是在“小獅子”編輯中。例如,對(duì)象插入任務(wù)中,所有基線方法均未能完成大多數(shù)任務(wù)——要么無法滿足編輯要求,要么完全改變了原始場景的外觀,或者兩者兼而有之。除了面向正面的場景外,本文 V2Edit 在圖6中的室內(nèi)或室外場景中也表現(xiàn)出色,能夠很好地完成編輯指令并保留原始場景。值得注意的是,通過本文在前文中自行實(shí)現(xiàn)的基于 Flash Attention的加速,編輯一個(gè)72幀的視頻在漸進(jìn)式框架中每個(gè)子任務(wù)僅需10分鐘。因此,一個(gè)最多包含六個(gè)進(jìn)展子任務(wù)的編輯任務(wù)僅需大約一到兩個(gè)小時(shí)即可完成,實(shí)現(xiàn)了與簡單基線相當(dāng)?shù)男?,但生成了顯著更優(yōu)的結(jié)果。

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

定量評(píng)估:本文在幾個(gè)具有代表性的編輯任務(wù)上進(jìn)行了定量評(píng)估,結(jié)果如下表1所示,包括一項(xiàng)涉及43名參與者的用戶研究,以評(píng)估主觀質(zhì)量。本文 V2Edit 在視頻和3D場景編輯的所有指標(biāo)上均一致優(yōu)于所有基線方法。具體而言,V2Edit 成功平衡了原始內(nèi)容保留(通過“CDC”指標(biāo)量化原始場景與編輯場景之間的相鄰幀相似性)和編輯任務(wù)完成度(通過基于 GPT 的評(píng)估和用戶研究結(jié)果證明)。這些發(fā)現(xiàn)確立了 V2Edit 在視頻和3D場景編輯領(lǐng)域的最先進(jìn)地位。

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

消融研究:如上圖4所示,基線方法 CogVideoX-V2V 在各種編輯任務(wù)中生成了高質(zhì)量視頻,但始終無法保留原始視頻中的無關(guān)內(nèi)容。該基線有效地代表了僅使用初始噪聲控制的 V2Edit 變體。這些結(jié)果表明,僅依靠強(qiáng)大的視頻擴(kuò)散模型不足以實(shí)現(xiàn)高質(zhì)量編輯,必須結(jié)合有效的內(nèi)容保留機(jī)制,這凸顯了本文保留控制策略的必要性。此外,如下圖7所示,在沒有進(jìn)展框架的情況下直接應(yīng)用本文內(nèi)容保留機(jī)制會(huì)導(dǎo)致復(fù)雜任務(wù)(例如添加時(shí)鐘)失敗。相比之下,當(dāng)結(jié)合基于進(jìn)展的編輯策略時(shí),V2Edit 成功構(gòu)建并優(yōu)化了時(shí)鐘,實(shí)現(xiàn)了高質(zhì)量結(jié)果。值得注意的是,時(shí)鐘指針在所有視圖中保持一致,展示了出色的3D一致性。這些實(shí)驗(yàn)驗(yàn)證了本文內(nèi)容保留機(jī)制和進(jìn)展框架都是必不可少的,它們不僅確保了內(nèi)容保留,還實(shí)現(xiàn)了編輯任務(wù)的完成。

顛覆傳統(tǒng)!V2Edit零訓(xùn)練黑科技:指令級(jí)視頻魔法+3D場景大改,原畫質(zhì)無損秒變爆款-AI.x社區(qū)

結(jié)論

V2Edit,一種新穎且多功能的指令引導(dǎo)視頻和3D場景編輯框架。本文方法通過將復(fù)雜任務(wù)逐步分解為較簡單的子任務(wù),并由統(tǒng)一的保留控制機(jī)制管理,有效平衡了原始內(nèi)容的保留與編輯指令的完成。對(duì)于視頻編輯,V2Edit 在處理涉及快速移動(dòng)的相機(jī)軌跡、復(fù)雜運(yùn)動(dòng)和顯著時(shí)間變化的挑戰(zhàn)性場景時(shí)表現(xiàn)出色,確保平滑一致的編輯。對(duì)于3D場景編輯,本文框架支持具有顯著幾何變化的挑戰(zhàn)性編輯任務(wù),同時(shí)保持高3D一致性并充分保留原始場景內(nèi)容。大量實(shí)驗(yàn)表明,V2Edit 在視頻和3D場景編輯中實(shí)現(xiàn)了最先進(jìn)的性能。本文希望 V2Edit 能為未來利用視頻擴(kuò)散模型進(jìn)行視頻和3D場景編輯的進(jìn)展鋪平道路。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/g3-GfWQhE7PcG4GHiTssQQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦