CVPR`24 | 4D編輯哪家強(qiáng)?浙大首次提出通用指導(dǎo)4D編輯框架:Instruct 4D-to-4D
文章鏈接:https://arxiv.org/pdf/2406.09402
項(xiàng)目地址:https://immortalco.github.io/Instruct-4D-to-4D/
今天和大家一起學(xué)習(xí)的是Instruct 4D-to-4D,可以通過2D擴(kuò)散模型實(shí)現(xiàn)4D感知和時(shí)空一致性,以生成高質(zhì)量的指令引導(dǎo)的動(dòng)態(tài)場(chǎng)景編輯結(jié)果。先一起來看看4D編輯的精彩效果:
傳統(tǒng)的2D擴(kuò)散模型在動(dòng)態(tài)場(chǎng)景編輯中的應(yīng)用通常會(huì)導(dǎo)致不一致,主要原因在于其固有的逐幀編輯方法。為了解決將指令引導(dǎo)的編輯擴(kuò)展到4D的復(fù)雜性,本文的關(guān)鍵洞察是將4D場(chǎng)景視為偽3D場(chǎng)景,解耦為兩個(gè)子問題:在視頻編輯中實(shí)現(xiàn)時(shí)間一致性,并將這些編輯應(yīng)用于偽3D場(chǎng)景?;诖耍疚氖紫韧ㄟ^引入anchor感知注意模塊來增強(qiáng)Instruct-Pix2Pix (IP2P)模型,以實(shí)現(xiàn)批處理和一致性編輯。
此外,本文還在滑動(dòng)窗口模式下集成了光流引導(dǎo)的外觀傳播,以實(shí)現(xiàn)更精確的逐幀編輯,并結(jié)合基于深度的投影來管理偽3D場(chǎng)景的大量數(shù)據(jù),隨后通過迭代編輯實(shí)現(xiàn)收斂。本文在各種場(chǎng)景和編輯指令中對(duì)文中的方法進(jìn)行了廣泛評(píng)估,結(jié)果表明其在空間和時(shí)間上一致性方面表現(xiàn)出色,并且在細(xì)節(jié)和清晰度上顯著提升。值得注意的是,Instruct 4D-to-4D具有通用性,適用于單目和具有挑戰(zhàn)性的多攝像頭場(chǎng)景。
介紹
通過渲染合成逼真的新視角圖像,神經(jīng)輻射場(chǎng)(NeRF)及其變體已經(jīng)成為3D甚至4D動(dòng)態(tài)場(chǎng)景的主要神經(jīng)表示方法。除了僅僅表示現(xiàn)有場(chǎng)景之外,越來越多的人對(duì)通過場(chǎng)景編輯從原始場(chǎng)景創(chuàng)建新的、多樣化的場(chǎng)景產(chǎn)生了興趣。對(duì)于用戶來說,最方便和直接的方式來傳達(dá)場(chǎng)景編輯操作是通過自然語(yǔ)言——這一任務(wù)被稱為指令引導(dǎo)的編輯。
在2D圖像任務(wù)中,已經(jīng)通過2D擴(kuò)散模型,即 Instruct-Pix2Pix (IP2P)取得了成功。然而,將這一能力擴(kuò)展到以NeRF表示的3D或4D場(chǎng)景卻面臨顯著挑戰(zhàn)。困難在于NeRF表示的隱式特性,缺乏直接修改參數(shù)以實(shí)現(xiàn)目標(biāo)方向的方式,同時(shí)在新維度中出現(xiàn)的復(fù)雜性也大大增加。最近,在指令引導(dǎo)的3D場(chǎng)景編輯方面取得了顯著進(jìn)展,例如Instruct-NeRF2NeRF (IN2N)。IN2N通過從2D擴(kuò)散模型(如IP2P)蒸餾來實(shí)現(xiàn)3D編輯,即生成經(jīng)過IP2P編輯的多視圖圖像,并將它們擬合到NeRF表示的場(chǎng)景中。由于擴(kuò)散模型生成結(jié)果的高度多樣性,IP2P可能會(huì)產(chǎn)生多視圖不一致的圖像,同一對(duì)象在不同視圖中的外觀可能會(huì)不同。因此,IN2N通過在NeRF上進(jìn)行訓(xùn)練來整合結(jié)果,使其收斂到“平均”編輯結(jié)果,這在理論上是合理的,但在實(shí)踐中往往會(huì)遇到挑戰(zhàn)。
將編輯任務(wù)從3D進(jìn)一步擴(kuò)展到4D,引入了基本的困難。在超出3D場(chǎng)景的額外時(shí)間維度中,不僅需要每幀3D場(chǎng)景切片的3D空間一致性,還需要不同幀之間的時(shí)間一致性。值得注意的是,由于最近的4D NeRF模型對(duì)場(chǎng)景中每個(gè)絕對(duì)3D位置的特性進(jìn)行建模,而不是單個(gè)對(duì)象的運(yùn)動(dòng),因此不同幀中的同一對(duì)象并非由相同的參數(shù)建模。這種偏差阻礙了NeRF通過擬合不一致的多視圖圖像實(shí)現(xiàn)空間一致性,使得IN2N流程無法有效地在4D場(chǎng)景上執(zhí)行編輯。
本文引入了Instruct 4D-to-4D,是在指令引導(dǎo)的4D場(chǎng)景編輯中首次嘗試,克服了上述問題。本文的關(guān)鍵洞察是將4D場(chǎng)景視為偽3D場(chǎng)景,其中每個(gè)偽視圖是一個(gè)視頻,包含了同一視角的所有幀。隨后,對(duì)偽3D場(chǎng)景的任務(wù)可以以類似于真實(shí)3D場(chǎng)景的方式進(jìn)行處理,分解為兩個(gè)子問題:1)為每個(gè)偽視圖實(shí)現(xiàn)時(shí)間一致的編輯,2)使用第(1)步中的方法編輯偽3D場(chǎng)景。然后,我們可以用視頻編輯方法解決(1),并利用蒸餾引導(dǎo)的3D場(chǎng)景編輯方法解決(2)。
本文特別利用了一種anchor感知注意力模塊來增強(qiáng)IP2P模型。在本文的模塊中,“anchor”是一對(duì)圖像及其編輯結(jié)果,作為IP2P生成的參考。增強(qiáng)后的IP2P現(xiàn)在支持批量輸入多個(gè)圖像,并且IP2Ppipeline中的自注意力模塊被替換為針對(duì)本批次anchor圖像的交叉注意力機(jī)制。因此,IP2P基于當(dāng)前圖像與anchor圖像之間的相關(guān)性生成編輯結(jié)果,確保在該批次內(nèi)進(jìn)行一致的編輯。然而,注意力模塊可能無法始終正確關(guān)聯(lián)不同視圖中的對(duì)象,從而引入潛在的不一致性。
為此,本文進(jìn)一步提出了一種光流引導(dǎo)的滑動(dòng)窗口方法來促進(jìn)視頻編輯。利用RAFT為每幀預(yù)測(cè)光流,以建立相鄰幀之間的像素對(duì)應(yīng)關(guān)系。這使能夠?qū)⒁粋€(gè)幀的編輯結(jié)果傳播到下一個(gè)幀,類似于一種扭曲效果。結(jié)合增強(qiáng)的IP2P和光流技術(shù),本文可以按時(shí)間順序編輯視頻,通過分段處理幀并在每個(gè)段落應(yīng)用編輯,同時(shí)將編輯效果傳播到下一個(gè)段落。這個(gè)過程涉及利用光流來初始化基于前幾幀的編輯,然后使用增強(qiáng)的IP2P,其中前一個(gè)段落的最后一幀作為anchor。
在處理包含大量視角的4D場(chǎng)景時(shí),每個(gè)視角的計(jì)算成本很高。 為了解決這個(gè)問題,本文采用了受ViCA-NeRF 啟發(fā)的策略,基于關(guān)鍵視角來編輯偽3D場(chǎng)景。首先隨機(jī)選擇關(guān)鍵偽視角,并使用前面提到的方法進(jìn)行編輯。然后對(duì)于每一幀,采用基于深度的投影將關(guān)鍵視角的結(jié)果扭曲到其他視角,并利用加權(quán)平均來聚合外觀信息,從而獲得所有幀的編輯結(jié)果。鑒于4D場(chǎng)景的復(fù)雜性,本文應(yīng)用IN2N的迭代編輯過程,以逐步生成編輯后的幀并在編輯后的幀上擬合NeRF,直到場(chǎng)景收斂為止。
本文進(jìn)行了廣泛的實(shí)驗(yàn),涵蓋單目和多攝像頭動(dòng)態(tài)場(chǎng)景,驗(yàn)證了文中方法的有效性。評(píng)估結(jié)果顯示,本文的方法在實(shí)現(xiàn)更銳利的渲染結(jié)果和顯著增強(qiáng)的細(xì)節(jié)方面具有顯著能力,并且在4D編輯中保證了空間-時(shí)間一致性(見下圖1)。
本文的貢獻(xiàn)主要體現(xiàn)在三個(gè)方面:
- 引入了Instruct 4D-to-4D,這是一個(gè)簡(jiǎn)單而有效的框架,通過從2D擴(kuò)散模型的蒸餾來將4D場(chǎng)景作為偽3D場(chǎng)景進(jìn)行指導(dǎo)編輯;
- 提出了基于anchor感知的IP2P和光流引導(dǎo)的滑動(dòng)窗口方法,實(shí)現(xiàn)了對(duì)任意長(zhǎng)度的長(zhǎng)視頻或偽視角的高效和一致的編輯;
- 借助所提出的方法,開發(fā)了一個(gè)pipeline來迭代生成完整和一致編輯的數(shù)據(jù)集,在各種任務(wù)中實(shí)現(xiàn)了高質(zhì)量的4D場(chǎng)景編輯。本文的工作是首次探索和解決通用指導(dǎo)4D場(chǎng)景編輯的任務(wù),為這一有前景的領(lǐng)域奠定了基礎(chǔ)。
方法
本文提出了Instruct 4D-to-4D,這是一個(gè)新穎的pipeline,通過從Instruct-Pix2Pix (IP2P) 中提煉來編輯4D場(chǎng)景,IP2P是一種強(qiáng)大的2D擴(kuò)散模型,支持指導(dǎo)圖像編輯。本文方法的基本思想源于ViCA-NeRF,這是一種基于關(guān)鍵視角的編輯方法。將4D場(chǎng)景視為偽3D場(chǎng)景,其中每個(gè)偽視角是多幀視頻,本文應(yīng)用基于關(guān)鍵視角的編輯方法,分為兩個(gè)步驟:關(guān)鍵偽視角編輯和從關(guān)鍵偽視角傳播到其他視角,如下圖2所示。本文提出了幾個(gè)關(guān)鍵組件,在這些步驟中強(qiáng)化和實(shí)現(xiàn)空間和時(shí)間一致性,生成4D一致的編輯結(jié)果。
基于anchor的IP2P用于一致的批量生成
批量生成與偽3D卷積。將偽視圖的編輯過程視為編輯視頻。因此,在編輯每幀時(shí),需要強(qiáng)制實(shí)現(xiàn)時(shí)間上的一致性。受到之前視頻編輯工作的啟發(fā),本文在IP2P中一起編輯一批圖像,并增強(qiáng)IP2P中的UNet,使其在生成時(shí)考慮整個(gè)批次。本文將其 的2D卷積層升級(jí)為 的3D卷積層,通過重復(fù)使用原始的卷積核參數(shù)。
基于anchor感知的注意力模塊。受限于GPU內(nèi)存,本文無法一次性編輯偽視圖的所有幀,需要將生成過程分成多個(gè)批次。因此,保持批次之間的一致性至關(guān)重要。借鑒于Tune-a-Video 的思路,本文不是從頭開始生成新批次的編輯結(jié)果,而是允許模型參考一個(gè)在所有生成批次中共享的anchor幀,及其原始和編輯后的版本,以將編輯風(fēng)格從anchor幀“傳播”到新的編輯批次。通過將IP2P中的自注意力模塊替換為針對(duì)anchor幀的交叉注意力模型,能夠在當(dāng)前圖像和anchor圖像之間建立連接,通過模仿anchor的風(fēng)格生成新的編輯圖像,從而延續(xù)anchor的一致編輯風(fēng)格。值得注意的是,本文使用anchor注意力IP2P與Tune-a-Video有所不同,后者在當(dāng)前幀和上一幀之間查詢交叉注意力而非anchor幀。我們的設(shè)計(jì)還進(jìn)一步促進(jìn)了下面章節(jié)的修復(fù)過程,該過程也需要集中關(guān)注當(dāng)前幀的現(xiàn)有部分。
有效性。下圖3展示了不同版本的IP2P生成結(jié)果。原始的IP2P編輯所有圖像時(shí)存在不一致性,即使是同一個(gè)批次中的圖像也有不同的顏色分布。通過引入anchor感知注意力層,IP2P能夠?qū)⒄麄€(gè)批次作為一個(gè)整體生成,因此在同一個(gè)批次內(nèi)生成一致的編輯結(jié)果。然而,它仍然無法在不同批次之間生成一致的圖像。采用相同anchor圖像跨批次參考的全面anchor感知IP2P能夠?yàn)樗?個(gè)圖像在2個(gè)批次中生成一致的編輯結(jié)果,這表明即使沒有額外訓(xùn)練,anchor感知IP2P也能夠?qū)崿F(xiàn)一致的編輯結(jié)果。
光流引導(dǎo)滑動(dòng)窗口方法用于偽視圖編輯
光流作為4D Warping。為了確保偽視圖的時(shí)間一致性,本文需要在不同幀之間找到像素的對(duì)應(yīng)關(guān)系。傳統(tǒng)的3D場(chǎng)景編輯方法(如ViCA-NeRF、RAFT)利用基于深度的Warping來找到不同視角之間的對(duì)應(yīng)關(guān)系,使用NeRF預(yù)測(cè)的深度和相機(jī)參數(shù)進(jìn)行確定性Warping。然而,在4D中,沒有這樣明確的方法。因此,本文使用光流估計(jì)網(wǎng)絡(luò)RAFT來預(yù)測(cè)光流,其格式為每個(gè)像素的2D運(yùn)動(dòng)向量,可以推導(dǎo)出另一幀中的對(duì)應(yīng)像素。利用RAFT,本文能夠在相鄰幀之間進(jìn)行像素的Warping,就像在3D中一樣。由于每個(gè)偽視圖都是在固定的攝像機(jī)位置拍攝的,光流能夠很好地完成這項(xiàng)任務(wù)。
接著,類似于ViCA-NeRF中的思路,本文使用IP2P對(duì)滑動(dòng)窗口中每個(gè)視角的融合圖像進(jìn)行修補(bǔ)和再繪制,通過向融合圖像添加噪聲,并使用IP2P進(jìn)行去噪,使生成的編輯圖像在Warping結(jié)果上遵循相似的模式,同時(shí)重新繪制整個(gè)圖像使其看起來自然合理。為了確保整個(gè)偽視圖的風(fēng)格一致,本文使用第一幀作為所有窗口共享的anchor,這樣模型將以類似第一個(gè)視角的一致風(fēng)格生成圖像。由于一個(gè)偽視圖的攝像機(jī)位置固定,不同幀之間有許多共同的物體,因此這種方法非常有效,能夠?yàn)榇翱谥械膸梢恢碌木庉嫿Y(jié)果。
基于Warping的偽視圖傳播
生成第一幀圖像。由于本文需要將編輯后的偽視圖傳播到所有其他視圖并確保空間一致性,因此在所有關(guān)鍵偽視圖中以一種空間一致的方式編輯第一幀非常重要 - 它們不僅用于啟動(dòng)當(dāng)前偽視圖的編輯,還用作所有后續(xù)生成的anchor或參考。因此,本文首先在任意一個(gè)關(guān)鍵偽視圖中編輯一幀作為第一幀,然后使用本文的anchor感知IP2P與其一起作為anchor來生成其他第一幀。通過這種方式,所有第一幀都以一致的風(fēng)格進(jìn)行編輯,這對(duì)于編輯關(guān)鍵偽視圖是一個(gè)良好的起點(diǎn)。
從關(guān)鍵視圖傳播到其他視圖。在編輯關(guān)鍵偽視圖之后,類似于ViCA-NeRF 的方法,本文將它們的編輯結(jié)果傳播到所有其他關(guān)鍵視圖。ViCA-NeRF使用基于深度的空間Warping來從同一時(shí)間步的另一個(gè)視圖Warping圖像,而本文還提出了基于光流的時(shí)間Warping,從同一視圖的前一幀進(jìn)行Warping。通過這兩種類型的Warping,本文可以從多個(gè)來源Warping編輯后的圖像。
整體編輯 pipeline
迭代式數(shù)據(jù)集更新。借鑒 IN2N 的思想,本文在基準(zhǔn)方法上應(yīng)用迭代式數(shù)據(jù)集替換,使用文中的方法重復(fù)生成完整的數(shù)據(jù)集,并在其上適配本文的NeRF。在每次迭代中,本文首先隨機(jī)選擇幾個(gè)偽視圖作為這次生成中的關(guān)鍵視圖。本文使用文中的方法為所有這些關(guān)鍵偽視圖的第一幀生成空間一致的編輯結(jié)果,然后使用滑動(dòng)窗口方法來傳播這些編輯結(jié)果到所有偽視圖。在獲得所有編輯的關(guān)鍵偽視圖后,本文再次使用文中的方法為所有其他偽視圖生成空間和時(shí)間上一致的編輯結(jié)果,最終得到一個(gè)一致的編輯數(shù)據(jù)集。本文用這個(gè)編輯過的數(shù)據(jù)集替換原始的4D數(shù)據(jù)集,并在其上適配NeRF模型。
通過并行化和退火策略提高效率。在本文的pipeline中,NeRF只需要在數(shù)據(jù)集上進(jìn)行訓(xùn)練并提供當(dāng)前的渲染結(jié)果,而IP2P只需要根據(jù)NeRF的渲染結(jié)果生成新的數(shù)據(jù)集 - IP2P和NeRF之間幾乎沒有依賴和交互。因此,本文通過在兩個(gè)GPU上異步運(yùn)行這兩部分來并行化pipeline。在第一個(gè)GPU上,持續(xù)訓(xùn)練NeRF并在渲染緩沖區(qū)中緩存NeRF的渲染結(jié)果;而在第二個(gè)GPU上,應(yīng)用本文的迭代數(shù)據(jù)集生成pipeline來生成新的數(shù)據(jù)集,使用來自渲染緩沖區(qū)的圖像,并更新用于訓(xùn)練NeRF的數(shù)據(jù)集。通過最小化交互,最大化了并行化,從而顯著減少了訓(xùn)練時(shí)間。
另一方面,為了改善生成結(jié)果和收斂速度,本文采用了來自HiFA 的退火技巧來對(duì)NeRF進(jìn)行精細(xì)編輯。高層次的思路是使用噪聲水平來控制渲染結(jié)果與IP2P編輯結(jié)果的相似性。本文在高噪聲水平下生成數(shù)據(jù)集,以生成充分編輯的結(jié)果,然后逐漸退火噪聲水平,使其與NeRF正在收斂到的編輯結(jié)果保持一致,并進(jìn)一步細(xì)化這些結(jié)果。與IN2N總是在隨機(jī)噪聲水平下生成不同,本文的Instruct 4D-to-4D 能夠快速收斂到高質(zhì)量的編輯結(jié)果。
通過這兩種技術(shù),本文的Instruct 4D-to-4D能夠在幾個(gè)小時(shí)內(nèi)編輯一個(gè)包含20個(gè)視圖和數(shù)百幀的大規(guī)模4D場(chǎng)景。
實(shí)驗(yàn)
編輯任務(wù)和NeRF主干。本文用于評(píng)估的4D場(chǎng)景是通過單手持相機(jī)和多相機(jī)陣列捕捉的,包括:(I) DyCheck 和 HyperNeRF 中的單目場(chǎng)景,這些是簡(jiǎn)單的、以物體為中心的場(chǎng)景,使用單個(gè)移動(dòng)相機(jī);(II) DyNeRF/N3DV 中的多相機(jī)場(chǎng)景,包括具有面向前方視角和人類運(yùn)動(dòng)結(jié)構(gòu)的室內(nèi)場(chǎng)景。對(duì)于單目場(chǎng)景,本文將所有幀視為單個(gè)偽視圖進(jìn)行編輯。本文使用NeRFPlayer 作為NeRF主干,以生成高質(zhì)量的4D場(chǎng)景渲染結(jié)果。
基線方法。Instruct 4D-to-4D是首個(gè)致力于指導(dǎo)式4D場(chǎng)景編輯的工作。以前沒有研究專注于相同的任務(wù),而唯一類似的工作Control4D 尚未發(fā)布其代碼。因此,無法與現(xiàn)有方法進(jìn)行基線比較。為了展示本文的Instruct 4D-to-4D的有效性,本文構(gòu)建了一個(gè)基線方法IN2N-4D,將IN2N 平穩(wěn)地?cái)U(kuò)展到4D,它會(huì)迭代地生成一個(gè)編輯過的幀并將其添加到數(shù)據(jù)集中。本文定性和定量地比較Instruct 4D-to-4D與IN2N-4D的結(jié)果。為了量化結(jié)果,由于本文的pipeline的模型都在使用生成的圖像訓(xùn)練NeRF,本文使用傳統(tǒng)的NeRF 指標(biāo)來評(píng)估結(jié)果,即在IP2P生成的圖像(從純?cè)肼暽?,因此不?huì)依賴于NeRF的渲染圖像)與NeRF的渲染結(jié)果之間的PSNR、SSIM和LPIPS。本文在補(bǔ)充材料中進(jìn)行了Instruct 4D-to-4D各個(gè)變體的消融研究。
定性結(jié)果。本文的定性結(jié)果顯示在圖下6、下圖5和下圖4中。與基線方法IN2N-4D的定性比較如下圖5和下圖6所示。如下圖5所示,在將單目場(chǎng)景中的貓變成狐貍的任務(wù)中,IN2N-4D生成模糊的結(jié)果,并出現(xiàn)多個(gè)人工痕跡:多個(gè)耳朵、多個(gè)鼻子和嘴巴等。而本文的Instruct 4D-to-4D生成了逼真的結(jié)果,狐貍的形狀與原始場(chǎng)景中的貓非常吻合,毛發(fā)上有清晰的紋理,沒有任何痕跡。
這些結(jié)果表明,本文的anchor-aware IP2P、基于光流的Warping和滑動(dòng)窗口方法用于偽視圖編輯,能夠產(chǎn)生偽視圖的時(shí)間一致性編輯結(jié)果。相比之下,IN2N-4D中原始的IP2P生成了每幀不一致的編輯圖像,最終導(dǎo)致了4D NeRF上的奇怪結(jié)果。下圖6展示了多攝像頭場(chǎng)景上的風(fēng)格轉(zhuǎn)移結(jié)果。本文并行化的Instruct 4D-to-4D在短短兩小時(shí)內(nèi)實(shí)現(xiàn)了一致的風(fēng)格轉(zhuǎn)移結(jié)果,而IN2N-4D則需要比本文的Instruct 4D-to-4D長(zhǎng)24倍的時(shí)間,仍無法使4D NeRF收斂到指定的風(fēng)格。這表明,4D場(chǎng)景編輯具有極高的難度,而本文 Instruct 4D-to-4D通過迭代生成完整的編輯數(shù)據(jù)集的策略,實(shí)現(xiàn)了高效的編輯。所有這些結(jié)果共同顯示,本文設(shè)計(jì)的Instruct 4D-to-4D是合理且有效的,能夠以非常高效的方式生成高質(zhì)量的編輯結(jié)果。
上圖5的實(shí)驗(yàn)展示了單目場(chǎng)景mochi-high-five在不同指令下的表現(xiàn),包括對(duì)貓的局部編輯,以及整個(gè)場(chǎng)景的風(fēng)格轉(zhuǎn)移指令。本文的Instruct 4D-to-4D在Fox和Tiger指令下實(shí)現(xiàn)了逼真的局部編輯結(jié)果,如虎紋的清晰和一致。在風(fēng)格轉(zhuǎn)移指令下,編輯后的場(chǎng)景忠實(shí)地反映了指定的風(fēng)格。這些結(jié)果展示了Instruct 4D-to-4D在各種指令下編輯單目場(chǎng)景的出色能力。
上圖4的實(shí)驗(yàn)展示了其他風(fēng)格轉(zhuǎn)移結(jié)果,包括HyperNeRF和DyCheck中的單目場(chǎng)景,以及DyNeRF中的多攝像頭場(chǎng)景。Instruct 4D-to-4D始終以高保真度展現(xiàn)各種風(fēng)格的風(fēng)格轉(zhuǎn)移結(jié)果,顏色明亮,外觀清晰。
定量比較。本文在多攝像頭咖啡馬提尼場(chǎng)景上對(duì)文中的Instruct 4D-to-4D和基線方法IN2N-4D進(jìn)行了量化比較,結(jié)果見下表1。與定性比較結(jié)果一致,本文的Instruct 4D-to-4D顯著且一致地優(yōu)于基線方法IN2N-4D。這表明,由Instruct 4D-to-4D訓(xùn)練的NeRF比基線方法更好地適應(yīng)了IP2P生成的編輯結(jié)果,進(jìn)一步驗(yàn)證了本文Instruct 4D-to-4D的有效性。
消融研究:變量與設(shè)置。 本文通過與以下幾種變體的比較來驗(yàn)證本文的設(shè)計(jì)選擇:
- 視頻編輯。這個(gè)變體作為本文Instruct 4D-to-4D的最基本實(shí)現(xiàn),使用任何視頻編輯方法編輯每個(gè)偽視圖幀,并使用3D Warping將編輯結(jié)果傳播到其他幀。本文使用了一個(gè)零損耗文本驅(qū)動(dòng)的視頻編輯模型,F(xiàn)ateZero,通過預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型。本文遵循Fatezero官方實(shí)現(xiàn)中的風(fēng)格編輯和屬性編輯設(shè)置。由于它們只能處理8個(gè)視頻幀的批處理,本文采用逐批次的偽視圖編輯策略。
- 不使用光流的anchor感知IP2P。在這個(gè)變體中,本文在沒有光流引導(dǎo)的情況下進(jìn)行視頻編輯,即anchor感知IP2P直接使用相同的擴(kuò)散模型設(shè)置編輯所有訓(xùn)練圖像。
- 單次偽視圖傳播。在這個(gè)變體中,本文僅進(jìn)行一次偽視圖傳播,即所有剩余的偽視圖從4個(gè)隨機(jī)選擇的關(guān)鍵偽視圖中進(jìn)行Warping,然后在這些編輯圖像上訓(xùn)練NeRF直至收斂。
消融研究的任務(wù)是在DyNeRF數(shù)據(jù)集的咖啡馬提尼上應(yīng)用“如果由梵高繪制”的操作。由于“視頻編輯”變體不使用主文中的擴(kuò)散模型IP2P來編輯視頻,因此本文無法使用主文中的度量標(biāo)準(zhǔn)。因此,與IN2N 一致,本文使用CLIP 相似度來評(píng)估編輯操作的成功程度。
消融研究:結(jié)果。定性結(jié)果顯示在下圖7和演示視頻中。大多數(shù)變體未能對(duì)場(chǎng)景進(jìn)行足夠的編輯,呈現(xiàn)出陰沉的外觀,并且缺乏梵高典型的色彩。這表明本文Instruct 4D-to-4D的設(shè)計(jì)選擇是有效的且至關(guān)重要,可以實(shí)現(xiàn)高質(zhì)量的編輯。
量化比較結(jié)果顯示在下表2中。本文完整的Instruct 4D-to-4D在消融任務(wù)中實(shí)現(xiàn)了顯著更高的CLIP相似度,表明本文的設(shè)計(jì)是有效的。此外,觀察到視頻編輯策略甚至無法比IN2N-4D獲得更好的指標(biāo),這表明即使將其轉(zhuǎn)換為偽3D場(chǎng)景,編輯4D場(chǎng)景仍然是一個(gè)非常困難的任務(wù)。
結(jié)論
Instruct 4D-to-4D,這是第一個(gè)通過將4D場(chǎng)景視為偽3D場(chǎng)景,并采用迭代策略利用2D擴(kuò)散模型編輯偽3D場(chǎng)景的指導(dǎo)性4D場(chǎng)景編輯框架。定性實(shí)驗(yàn)結(jié)果顯示,Instruct 4D-to-4D在包括單目和多攝像頭場(chǎng)景在內(nèi)的多種任務(wù)中實(shí)現(xiàn)了高質(zhì)量的編輯結(jié)果。Instruct 4D-to-4D還顯著優(yōu)于基線方法,即將現(xiàn)有最先進(jìn)的3D編輯方法簡(jiǎn)單擴(kuò)展到4D場(chǎng)景,顯示了這一任務(wù)的難度和復(fù)雜性,以及本文方法的成功。希望本文的工作能夠激發(fā)更多關(guān)于4D場(chǎng)景編輯的未來研究。
本文轉(zhuǎn)自 AI生成未來 ,作者:Linzhan Mou等
