即插即用!CVD:第一個(gè)生成具有相機(jī)控制的多視圖一致視頻方案?。ㄋ固垢?amp;港中文) 精華
論文鏈接:https://arxiv.org/abs/2405.17414
項(xiàng)目鏈接:https://collaborativevideodiffusion.github.io/
最近對視頻生成的研究取得了巨大進(jìn)展,使得可以從文本提示或圖像生成高質(zhì)量的視頻。在視頻生成過程中添加控制是未來的重要目標(biāo),而最近一些將視頻生成模型與攝像機(jī)軌跡聯(lián)系起來的方法正在朝著這個(gè)目標(biāo)邁進(jìn)。然而,從多個(gè)不同的攝像機(jī)軌跡生成同一場景的視頻仍然具有挑戰(zhàn)性。解決這個(gè)多視頻生成問題可以實(shí)現(xiàn)大規(guī)模的3D場景生成,其中包括可編輯的攝像機(jī)軌跡等應(yīng)用。本文引入了協(xié)作視頻擴(kuò)散(CVD)作為實(shí)現(xiàn)這一愿景的重要一步。CVD框架包括一個(gè)新穎的跨視頻同步模塊,通過一個(gè)極線注意機(jī)制促進(jìn)了從不同攝像機(jī)姿態(tài)渲染的同一視頻的相應(yīng)幀之間的一致性。在基于最先進(jìn)的視頻生成攝像機(jī)控制模塊的基礎(chǔ)上進(jìn)行訓(xùn)練,CVD生成了從不同攝像機(jī)軌跡渲染的多個(gè)視頻,其一致性明顯優(yōu)于基線,在廣泛的實(shí)驗(yàn)中得到了證明。
介紹
隨著擴(kuò)散模型的顯著進(jìn)展,視頻生成也取得了顯著進(jìn)步,對數(shù)字內(nèi)容創(chuàng)作工作流程產(chǎn)生了深遠(yuǎn)影響。最近的模型如SORA展示了生成復(fù)雜動(dòng)態(tài)的長視頻的能力。然而,這些方法通常利用文本或圖像輸入來控制生成過程,缺乏對內(nèi)容和動(dòng)作的精確控制,而這對于實(shí)際應(yīng)用是至關(guān)重要的。先前的努力探索了其他輸入模態(tài)的使用,如流、關(guān)鍵點(diǎn)和深度,并開發(fā)了新的控制模塊,以有效地整合這些條件,實(shí)現(xiàn)對生成內(nèi)容的精確引導(dǎo)。盡管取得了這些進(jìn)步,但這些方法仍然未能為視頻生成過程提供攝像機(jī)控制。
最近的研究開始專注于使用各種技術(shù)進(jìn)行攝像機(jī)控制,例如運(yùn)動(dòng)LoRAs或場景流。一些代表性的作品如MotionCtrl和CameraCtrl通過將視頻生成模型條件化為一系列攝像機(jī)姿態(tài),提供了更靈活的攝像機(jī)控制,展示了自由控制視頻攝像機(jī)移動(dòng)的可行性。然而,這些方法局限于單一攝像機(jī)軌跡,導(dǎo)致從不同攝像機(jī)軌跡生成同一場景的多個(gè)視頻時(shí)在內(nèi)容和動(dòng)態(tài)上存在顯著的不一致性。在許多下游應(yīng)用中,如大規(guī)模3D場景生成,具有攝像機(jī)控制的一致性多視頻生成是可取的。然而,訓(xùn)練視頻生成模型以生成具有不同攝像機(jī)軌跡的一致性視頻非常具有挑戰(zhàn)性,部分原因是缺乏大規(guī)模的多視角野外動(dòng)態(tài)場景數(shù)據(jù)。
本文介紹了CVD,這是一個(gè)即插即用的模塊,能夠生成具有不同攝像機(jī)軌跡的視頻,這些視頻共享場景的相同基礎(chǔ)內(nèi)容和動(dòng)態(tài)。CVD基于一種協(xié)作擴(kuò)散過程設(shè)計(jì),生成具有可單獨(dú)控制的攝像機(jī)軌跡的一致性視頻對。通過引入一個(gè)可學(xué)習(xí)的跨視圖同步模塊,利用極線注意機(jī)制實(shí)現(xiàn)了視頻中對應(yīng)幀之間的一致性。為了有效訓(xùn)練這個(gè)模塊,本文提出了一種新的偽極線采樣方案,以豐富極線幾何注意力。由于缺乏用于3D動(dòng)態(tài)場景的大規(guī)模訓(xùn)練數(shù)據(jù),本文提出了一種混合訓(xùn)練方案,其中利用來自RealEstate10k的多視圖靜態(tài)數(shù)據(jù)和來自WebVid10M的單眼動(dòng)態(tài)數(shù)據(jù)分別學(xué)習(xí)攝像機(jī)控制和動(dòng)態(tài)。據(jù)本文所知,CVD是第一個(gè)能夠生成具有一致內(nèi)容和動(dòng)態(tài)的多個(gè)視頻,并提供攝像機(jī)控制的方法。通過大量實(shí)驗(yàn)證明,CVD確保了強(qiáng)大的幾何和語義一致性,在性能上明顯優(yōu)于相關(guān)基線??偨Y(jié)本文的貢獻(xiàn)如下:
? 據(jù)本文所知,CVD是第一個(gè)生成具有攝像機(jī)控制的多視圖一致視頻的視頻擴(kuò)散模型;
? 引入了一個(gè)新穎的模塊,稱為跨視頻同步模塊,旨在對齊不同輸入視頻的特征,以增強(qiáng)一致性;
? 提出了一種新的協(xié)作推理算法,可以將在視頻對上訓(xùn)練的視頻模型擴(kuò)展到任意數(shù)量的視頻生成;
? 模型在生成具有一致內(nèi)容和動(dòng)態(tài)的多視圖視頻方面表現(xiàn)出優(yōu)異性能,明顯優(yōu)于所有基線方法。
相關(guān)工作
視頻擴(kuò)散模型。 最近在訓(xùn)練大規(guī)模視頻擴(kuò)散模型方面的努力已經(jīng)實(shí)現(xiàn)了高質(zhì)量的視頻生成。視頻擴(kuò)散模型利用3D UNet從圖像和視頻中聯(lián)合學(xué)習(xí)。借助文本到圖像(T2I)生成模型,如Stable Diffusion等,獲得的優(yōu)質(zhì)圖像質(zhì)量,許多最新的工作集中在通過學(xué)習(xí)時(shí)間模塊擴(kuò)展預(yù)訓(xùn)練的T2I模型。Align-your-latents提出利用3D卷積和分解的時(shí)空塊來學(xué)習(xí)視頻動(dòng)態(tài)。類似地,AnimateDiff在Stable Diffusion的基礎(chǔ)上構(gòu)建了一個(gè)時(shí)態(tài)模塊,在每個(gè)固定的空間層之后添加一個(gè)時(shí)態(tài)模塊,實(shí)現(xiàn)了即插即用的功能,允許用戶進(jìn)行個(gè)性化的動(dòng)畫制作而無需進(jìn)行任何微調(diào)。Pyoco提出了一種時(shí)間上連貫的噪聲策略,以有效地建模時(shí)間動(dòng)態(tài)。最近,SORA利用transformer架構(gòu)和時(shí)空擴(kuò)散,向逼真的長視頻生成邁出了重要的一步。
可控視頻生成。 文本條件的模糊性通常導(dǎo)致文本到視頻模型(T2V)的控制不足。為了提供精確的引導(dǎo),一些方法利用額外的條件信號(hào),如深度、骨架和流來控制生成的視頻。最近的工作,如SparseCtrl和SVD,將圖像作為視頻生成的控制信號(hào)。為了進(jìn)一步控制輸出視頻中的運(yùn)動(dòng)和攝像機(jī)視圖,DragNUWA和MotionCtrl將運(yùn)動(dòng)和攝像機(jī)軌跡注入到條件分支中,前者使用放松的光流版本作為類似筆畫的交互式指令,后者直接將攝像機(jī)參數(shù)連接為附加特征。CameraCtrl提出使用Plückere mbedding 對攝像機(jī)參數(shù)進(jìn)行超參數(shù)化,并實(shí)現(xiàn)更精確的攝像機(jī)調(diào)節(jié)。另外,AnimateDiff訓(xùn)練攝像機(jī)軌跡LoRAs以實(shí)現(xiàn)視點(diǎn)移動(dòng)調(diào)節(jié),而MotionDirector也利用LoRAs但過擬合于特定的外觀和動(dòng)作以獲得它們的解耦。
多視圖圖像生成。 由于缺乏高質(zhì)量的場景級(jí)3D數(shù)據(jù)集,一系列研究重點(diǎn)關(guān)注生成連貫的多視圖圖像。Zero123學(xué)習(xí)從姿勢條件生成新視圖圖像,并隨后的工作將其擴(kuò)展為用于更好的視圖一致性的多視圖擴(kuò)散。然而,這些方法僅限于對象,并一直難以生成高質(zhì)量的大規(guī)模3D場景。MultiDiffusion和DiffCollage促進(jìn)了360度場景圖像的生成,而SceneScape通過扭曲和修補(bǔ)使用擴(kuò)散模型生成了放大視圖。類似地,Text2Room生成了房間的多視圖圖像,其中圖像可以通過深度投影以獲得一致的房間網(wǎng)格。DiffDreamer遵循Infinite-Nature的設(shè)置,并使用條件擴(kuò)散模型進(jìn)行投影和細(xì)化的迭代過程。最近的一項(xiàng)工作,PoseGuided-Diffusion,通過在提供攝像機(jī)姿勢的多視圖數(shù)據(jù)集上訓(xùn)練并添加極線偏差到其關(guān)注mask,從單張圖像進(jìn)行新視圖合成。然而,由于該方法的先驗(yàn)僅從定義良好的靜態(tài)室內(nèi)數(shù)據(jù)學(xué)習(xí),因此構(gòu)造的方法無法推廣到野外或動(dòng)態(tài)場景。
Po等人提供了最近在視覺計(jì)算中擴(kuò)散模型方面的進(jìn)展的全面調(diào)查。
協(xié)作視頻生成
借助現(xiàn)成的大規(guī)模視頻數(shù)據(jù)集,許多最先進(jìn)的視頻擴(kuò)散模型(VDMs)已經(jīng)成功展示了生成時(shí)間一致且逼真視頻的能力。然而,這些現(xiàn)有方法的一個(gè)關(guān)鍵缺點(diǎn)是無法生成一致連貫的多視角視頻。如下圖1所示,在相同文本條件下,由VDM生成的視頻在內(nèi)容和空間布局上存在差異。雖然可以使用推理階段的技巧,如擴(kuò)展注意力機(jī)制,以增加視頻之間的語義相似性,但這并不能解決結(jié)構(gòu)一致性的問題。為了解決這一問題,本文引入了一種新的目標(biāo),即在給定特定語義條件下,VDM能夠同時(shí)生成多個(gè)結(jié)構(gòu)一致的視頻,并將其命名為協(xié)作視頻擴(kuò)散(Collaborative Video Diffusion, CVD)。
然而,在實(shí)際操作中,大規(guī)模多視角視頻數(shù)據(jù)的稀缺性使得本文無法直接訓(xùn)練一個(gè)針對任意數(shù)量視頻的模型。因此,本文從現(xiàn)有的單目視頻數(shù)據(jù)集中構(gòu)建了一致的視頻對(即 M=2)的訓(xùn)練數(shù)據(jù)集,并訓(xùn)練擴(kuò)散模型生成共享相同基礎(chǔ)內(nèi)容和運(yùn)動(dòng)的視頻對。本文的模型設(shè)計(jì)可以適應(yīng)任意數(shù)量的輸入視頻特征,本文還開發(fā)了一種推理算法,從本文預(yù)訓(xùn)練的成對 CVD 模型中生成任意數(shù)量的視頻。
具有攝像機(jī)控制的協(xié)作視頻擴(kuò)散
受 [18, 17] 啟發(fā),本文的模型設(shè)計(jì)為相機(jī)控制視頻模型 CameraCtrl的擴(kuò)展。如下圖 2 所示,本文的模型接收兩個(gè)(或更多)帶噪視頻特征輸入,并在一次傳遞中生成噪聲預(yù)測。
這些視頻特征通過 CameraCtrl 的預(yù)訓(xùn)練權(quán)重,并在本文提出的跨視角同步模塊中同步。該模型使用兩個(gè)不同的數(shù)據(jù)集進(jìn)行訓(xùn)練:RealEstate10K,該數(shù)據(jù)集包含主要靜態(tài)場景的相機(jī)校準(zhǔn)視頻;以及 WebVid10M,該數(shù)據(jù)集包含不帶姿態(tài)的通用視頻。這導(dǎo)致了本文在下文中介紹的兩階段訓(xùn)練策略。通過本文提出的推理算法,學(xué)習(xí)到的模型可以推斷任意數(shù)量的視頻。
跨視圖同步模塊
最新的 VDM(視頻擴(kuò)散模型)通常在空間和時(shí)間維度上結(jié)合了各種類型的注意力機(jī)制:例如 AnimateDiff、SVD、LVDM將空間和時(shí)間解耦并應(yīng)用獨(dú)立的注意力層;而最新的突破性工作 SORA在其 3D 空間-時(shí)間注意模塊上同時(shí)處理這兩個(gè)維度。盡管在空間和時(shí)間維度上定義的操作在不同幀的不同像素之間帶來了強(qiáng)相關(guān)性,但捕捉不同視頻之間的上下文關(guān)系需要一種新的操作:跨視頻注意力。
幸好,先前的研究已經(jīng)表明,擴(kuò)展注意力技術(shù),即將不同視角的鍵和值拼接在一起,對于在視頻之間保留相同的語義信息是顯然有效的。然而,這種方法無法保持它們之間的結(jié)構(gòu)一致性,導(dǎo)致在幾何上完全不同的場景。因此,受到 [53] 的啟發(fā),本文引入了基于極幾何的跨視角同步模塊,以在生成過程中揭示跨視頻幀之間的結(jié)構(gòu)關(guān)系,使視頻在幾何上對齊。
兩個(gè)數(shù)據(jù)集的混合訓(xùn)練策略
考慮到目前沒有可用的大規(guī)模真實(shí)世界視頻對數(shù)據(jù)集,本文選擇利用兩個(gè)流行的單目數(shù)據(jù)集,RealEstate10K和 WebVid10M,來開發(fā)一種用于視頻對生成模型的混合訓(xùn)練策略。
RealEstate10K 與視頻折疊。訓(xùn)練的第一階段涉及 RealEstate10K,這是一個(gè)包含主要靜態(tài)室內(nèi)場景和相應(yīng)攝像機(jī)姿態(tài)的視頻剪輯數(shù)據(jù)集。本文通過簡單地從數(shù)據(jù)集中的視頻采樣2N-1幀的子序列來采樣視頻對,然后從中間剪切并反轉(zhuǎn)它們的前半部分,以形成同步的視頻對。換句話說,這些子序列被折疊成兩個(gè)共享相同起始幀的視頻剪輯。
WebVid10M 與單應(yīng)變換增強(qiáng)。 雖然 RealEstate10K 提供了不錯(cuò)的幾何先驗(yàn),但僅在這個(gè)數(shù)據(jù)集上訓(xùn)練本文的模型并不理想,因?yàn)樗话魏侮P(guān)于動(dòng)態(tài)的知識(shí),并且只包含室內(nèi)場景。另一方面,WebVid10M 是一個(gè)大規(guī)模視頻數(shù)據(jù)集,包含各種類型的視頻,可以作為 RealEstate10K 的良好補(bǔ)充。為了提取視頻對,本文克隆數(shù)據(jù)集中的視頻,然后對這些克隆視頻應(yīng)用隨機(jī)單應(yīng)變換。然而,WebVid10M 數(shù)據(jù)集不包含攝像機(jī)信息,這使得它不適合用于基于攝像機(jī)條件的模型訓(xùn)練。為了解決這個(gè)問題,本文提出了一種兩階段訓(xùn)練策略,以適應(yīng)這兩個(gè)數(shù)據(jù)集(無論是否包含攝像機(jī)姿態(tài))用于同一個(gè)模型。
兩階段訓(xùn)練。 如前所述,本文的模型基于現(xiàn)有的攝像機(jī)控制VDM CameraCtrl。它是AnimateDiff的擴(kuò)展版本,添加了一個(gè)姿態(tài)編碼器和幾個(gè)姿態(tài)特征注入器,用于原模型的時(shí)間注意力層。AnimateDiff 和 CameraCtrl 都基于 Stable Diffusion。這意味著它們采用相同的潛在空間域,因此可以訓(xùn)練一個(gè)通用適應(yīng)的模塊。因此,如下圖3所示,本文的訓(xùn)練方案設(shè)計(jì)如下:
對于 RealEstate10K 數(shù)據(jù)集,本文使用在 RealEstate10K 上通過 LoRA 微調(diào)的 CameraCtrl 作為骨干,并在跨視頻模塊中應(yīng)用真實(shí)的極線幾何。對于 WebVid10M 數(shù)據(jù)集,本文使用在 WebVid10M 上通過 LoRA 微調(diào)的 AnimateDiff 作為骨干,并在跨視頻模塊中應(yīng)用偽極線幾何(與在 RealEstate10K 數(shù)據(jù)集的第一幀中使用的策略相同)。實(shí)驗(yàn)表明,這種混合訓(xùn)練策略極大地幫助模型生成具有同步運(yùn)動(dòng)和良好幾何一致性的視頻。
觀看更多視頻
實(shí)驗(yàn)
定量結(jié)果
本文將本文的模型與兩個(gè)最先進(jìn)的相機(jī)控制視頻擴(kuò)散模型進(jìn)行定量評估比較:CameraCtrl 和 MotionCtrl。這兩個(gè)基線模型都在 RealEstate10K數(shù)據(jù)集上進(jìn)行了相機(jī)控制視頻生成的訓(xùn)練。本文進(jìn)行了以下實(shí)驗(yàn)來測試所有模型的幾何一致性、語義一致性和視頻保真度:
地產(chǎn)場景中的每視頻幾何一致性。 按照 CameraCtrl的方法,本文首先使用 RealEstate10K(主要由靜態(tài)場景組成)中的相機(jī)軌跡和文本提示測試本文模型生成的視頻幀之間的幾何一致性。具體來說,本文首先從隨機(jī)采樣的相機(jī)軌跡對(兩個(gè)具有相同起始變換的相機(jī)軌跡)和文本標(biāo)題中生成 1000 個(gè)視頻。所有基線模型一次生成一個(gè)視頻;本文的模型同時(shí)生成兩個(gè)視頻。對于每個(gè)生成的視頻,本文應(yīng)用最先進(jìn)的圖像匹配算法 SuperGlue來提取其第一幀和后續(xù)幀之間的對應(yīng)關(guān)系,并使用 RANSAC算法估計(jì)它們的相對相機(jī)姿態(tài)。為了評估對應(yīng)關(guān)系和估計(jì)的相機(jī)姿態(tài)的質(zhì)量,本文采用了 SuperGlue的相同協(xié)議:
- 通過旋轉(zhuǎn)和平移的角度誤差來評估姿態(tài)
- 通過對應(yīng)的極線誤差(即到真實(shí)極線的距離)來評估匹配的對應(yīng)關(guān)系。
結(jié)果如下表 1 所示,本文的模型顯著優(yōu)于所有基線模型。
跨視頻幾何一致性在通用場景中的表現(xiàn)。 除了評估同一視頻中幀與幀之間的一致性外,本文還測試了本文的模型在不同視頻中保持幾何信息的一致性能力。為此,本文隨機(jī)抽取了500對視頻(總計(jì)1000個(gè)視頻),使用了RealEstate10K中的相機(jī)軌跡對和WebVid10M字幕中的文本提示。據(jù)本文所知,目前沒有可用的大型視頻擴(kuò)散模型專門設(shè)計(jì)用于生成通用場景的多視角一致視頻。因此,本文修改了CameraCtrl和MotionCtrl以生成視頻對作為基線。在此,本文首先使用每個(gè)模型的文本到視頻版本生成一個(gè)參考視頻,然后將其第一幀作為輸入,使用其圖像到視頻版本(即與SparseCtrl和SVD的結(jié)合)生成第二個(gè)視頻。本文使用與第一個(gè)實(shí)驗(yàn)相同的指標(biāo),但評估的是兩個(gè)視頻中對應(yīng)幀之間的一致性。結(jié)果如上表1所示,本文的模型大大優(yōu)于所有基線模型。
語義和保真度評估。 按照之前工作的標(biāo)準(zhǔn)實(shí)踐,本文報(bào)告了CLIPembedding相似性,包括1)輸出視頻的每一幀與對應(yīng)輸入提示之間的相似性和2)視頻對之間幀的相似性。前者指標(biāo)記為CLIP-T,用于顯示本文的模型不會(huì)破壞基礎(chǔ)模型的外觀/內(nèi)容先驗(yàn),而后者指標(biāo)記為CLIP-F,旨在顯示跨視圖模塊可以提高生成視頻對之間的語義和結(jié)構(gòu)一致性。為此,本文隨機(jī)抽取了1000個(gè)視頻,使用RealEstate10K中的相機(jī)軌跡對和WebVid10M中的文本字幕(總計(jì)生成2000個(gè)視頻)。為了進(jìn)一步展示本文方法保持高保真度生成內(nèi)容的能力,本文報(bào)告了使用實(shí)現(xiàn)的FID和KID ×100。
本文不與不共享相同基礎(chǔ)模型的模型進(jìn)行FID和KID比較,因?yàn)檫@些指標(biāo)受基礎(chǔ)模型能力的強(qiáng)烈影響。按照之前的工作,本文在RealEstate10K上評估這兩個(gè)指標(biāo),因?yàn)閃ebVid10M上存在強(qiáng)烈的不良偏差,例如水印。正如下表2所示,本文的模型在基于CLIP的指標(biāo)上超越了所有基線模型。這證明了本文的模型能夠合成共享場景的協(xié)作視頻,同時(shí)根據(jù)提示保持和提高保真度。本文的模型在保真度指標(biāo)上也優(yōu)于或與所有之前的工作相當(dāng),這表明了對本文基礎(chǔ)模型所學(xué)習(xí)的外觀和內(nèi)容先驗(yàn)的魯棒性。
定性結(jié)果
與基線比較
定性比較如下圖4所示。在上文中的定量比較之后,本文對比了CameraCtrl及其與SparseCtrl 的組合、MotionCtrl及其與SVD的組合。結(jié)果表明,本文的方法在視頻內(nèi)容對齊方面具有優(yōu)越性,包括閃電、海浪等動(dòng)態(tài)內(nèi)容。
任意視圖生成的附加結(jié)果
本文還展示了下圖5中的任意視角生成結(jié)果。使用上文介紹的算法,本文的模型可以生成一組不同相機(jī)條件下的視頻,這些視頻共享相同的內(nèi)容、結(jié)構(gòu)和運(yùn)動(dòng)。
討論
本文推出了CVD,一種促進(jìn)協(xié)作視頻生成的新框架。它確保視頻實(shí)例之間的信息無縫交換,同步內(nèi)容和動(dòng)態(tài)。此外,CVD提供相機(jī)定制功能,以便使用多個(gè)相機(jī)全面捕捉場景。CVD的核心創(chuàng)新在于其利用重建pipeline中推導(dǎo)出的極幾何作為約束。這種幾何框架微調(diào)了預(yù)訓(xùn)練的視頻擴(kuò)散模型。通過整合動(dòng)態(tài)的、單視角的野外視頻,訓(xùn)練過程得到了增強(qiáng),從而保持了多樣的運(yùn)動(dòng)模式。在推理過程中,CVD采用多視角采樣策略,促進(jìn)視頻間的信息共享,從而實(shí)現(xiàn)統(tǒng)一視頻輸出的“協(xié)作擴(kuò)散”效果。據(jù)本文所知,CVD是首個(gè)解決多視角或多軌跡視頻合成復(fù)雜性的方案。它顯著超越了現(xiàn)有的多視角圖像生成技術(shù),如Zero123,不僅確保了生成視頻的一致動(dòng)態(tài),還帶來了視頻合成領(lǐng)域的重要突破,承諾了新的能力和應(yīng)用。
限制
CVD 面臨一些局限性。首先,CVD 的有效性本質(zhì)上與其基礎(chǔ)模型 AnimateDiff 和 CameraCtrl的性能密切相關(guān)。盡管 CVD 力求促進(jìn)視頻之間的穩(wěn)健信息交換,但它并未從根本上解決單個(gè)視頻內(nèi)部一致性的問題。因此,基礎(chǔ)模型中存在的詭異形變和動(dòng)態(tài)不一致等問題可能會(huì)持續(xù)存在,影響視頻輸出的整體一致性。此外,由于擴(kuò)散模型計(jì)算量大,CVD 無法實(shí)時(shí)合成視頻。然而,擴(kuò)散模型優(yōu)化領(lǐng)域正在迅速發(fā)展,未來的進(jìn)展可能會(huì)顯著提高 CVD 的效率。
更廣泛的影響
本文的方法在多攝像頭視頻合成領(lǐng)域代表了一個(gè)重要的進(jìn)步,對電影制作和內(nèi)容創(chuàng)作等行業(yè)具有廣泛的影響。然而,本文也意識(shí)到潛在的濫用風(fēng)險(xiǎn),特別是在制作虛假內(nèi)容如深度偽造(deepfakes)方面。本文堅(jiān)決反對利用本文的方法進(jìn)行任何侵犯道德標(biāo)準(zhǔn)或隱私權(quán)的行為。為了應(yīng)對這種濫用風(fēng)險(xiǎn),本文倡導(dǎo)持續(xù)開發(fā)和改進(jìn)深度偽造檢測技術(shù)。
