自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas 精華

發(fā)布于 2025-2-11 11:42
瀏覽
0收藏

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2502.04299
git 鏈接:https://motion-canvas25.github.io/


亮點(diǎn)直擊

  • 將電影鏡頭設(shè)計(jì)引入圖像到視頻的合成過程中。
  • 推出了MotionCanvas,這是一種簡化的視頻合成系統(tǒng),用于電影鏡頭設(shè)計(jì),提供整體運(yùn)動(dòng)控制,以場(chǎng)景感知的方式聯(lián)合操控相機(jī)和對(duì)象的運(yùn)動(dòng)。
  • 設(shè)計(jì)了專門的運(yùn)動(dòng)條件機(jī)制,以控制信號(hào)引導(dǎo)基于DiT的視頻擴(kuò)散模型,這些信號(hào)捕捉相機(jī)和對(duì)象的運(yùn)動(dòng)。結(jié)合了一個(gè)運(yùn)動(dòng)信號(hào)翻譯模塊,將描繪的場(chǎng)景空間運(yùn)動(dòng)意圖翻譯為屏幕空間的條件信號(hào),用于視頻生成。
  • 在多樣的真實(shí)世界照片上的評(píng)估證實(shí)了MotionCanvas在電影鏡頭設(shè)計(jì)中的有效性,突顯了其在各種創(chuàng)意應(yīng)用中的潛力。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 如何在圖像到視頻生成系統(tǒng)中實(shí)現(xiàn)直觀的電影鏡頭設(shè)計(jì)。
  • 如何有效捕捉用戶在運(yùn)動(dòng)設(shè)計(jì)上的意圖,包括相機(jī)運(yùn)動(dòng)和場(chǎng)景空間對(duì)象運(yùn)動(dòng)。
  • 如何表示運(yùn)動(dòng)信息,使其能夠被視頻擴(kuò)散模型有效利用,以合成圖像動(dòng)畫。

提出的方案

  • 引入MotionCanvas,將用戶驅(qū)動(dòng)的控制集成到圖像到視頻(I2V)生成模型中。
  • 提供整體運(yùn)動(dòng)控制,以場(chǎng)景感知的方式聯(lián)合操控相機(jī)和對(duì)象的運(yùn)動(dòng)。
  • 設(shè)計(jì)專門的運(yùn)動(dòng)條件機(jī)制,以控制信號(hào)引導(dǎo)基于DiT的視頻擴(kuò)散模型。
  • 開發(fā)運(yùn)動(dòng)信號(hào)翻譯模塊,將場(chǎng)景空間的運(yùn)動(dòng)意圖轉(zhuǎn)化為屏幕空間的條件信號(hào),用于視頻生成。

應(yīng)用的技術(shù)

  • 結(jié)合經(jīng)典計(jì)算機(jī)圖形學(xué)和當(dāng)代視頻生成技術(shù)。
  • 使用視頻擴(kuò)散模型(基于DiT)來合成圖像動(dòng)畫。
  • 運(yùn)動(dòng)信號(hào)翻譯模塊,用于將用戶的運(yùn)動(dòng)意圖轉(zhuǎn)化為可用于視頻生成的信號(hào)。

達(dá)到的效果

  • 實(shí)現(xiàn)了3D感知的運(yùn)動(dòng)控制,而無需昂貴的3D相關(guān)訓(xùn)練數(shù)據(jù)。
  • 在各種真實(shí)世界圖像內(nèi)容和鏡頭設(shè)計(jì)場(chǎng)景中展示了方法的有效性。
  • 增強(qiáng)了數(shù)字內(nèi)容創(chuàng)作的創(chuàng)意工作流程。
  • 適應(yīng)了各種圖像和視頻編輯應(yīng)用,展現(xiàn)出在創(chuàng)意應(yīng)用中的潛力。

MotionCanvas

本文的方法將靜態(tài)圖像動(dòng)畫化為短視頻,反映用戶的運(yùn)動(dòng)設(shè)計(jì)意圖。如下圖2所示,MotionCanvas由三個(gè)主要組件組成:(1) 運(yùn)動(dòng)設(shè)計(jì)模塊,用于捕捉多樣的場(chǎng)景感知運(yùn)動(dòng)意圖,(2) 翻譯模塊,用于將這些意圖轉(zhuǎn)換為屏幕空間的運(yùn)動(dòng)信號(hào),以及 (3) 運(yùn)動(dòng)條件視頻生成模型。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

運(yùn)動(dòng)設(shè)計(jì)模塊 —— 捕捉用戶意圖

利用輸入圖像作為運(yùn)動(dòng)設(shè)計(jì)的畫布,建立一個(gè)運(yùn)動(dòng)設(shè)計(jì)所依托的起始場(chǎng)景。此設(shè)置在運(yùn)動(dòng)設(shè)計(jì)中實(shí)現(xiàn)了3D場(chǎng)景感知,捕捉對(duì)象、相機(jī)和場(chǎng)景之間的空間關(guān)系。本文的統(tǒng)一界面便于對(duì)相機(jī)運(yùn)動(dòng)、對(duì)象的全局和局部運(yùn)動(dòng)以及它們的時(shí)間進(jìn)行獨(dú)立控制。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

使用場(chǎng)景anchor的邊界框進(jìn)行對(duì)象全局運(yùn)動(dòng)控制。 在設(shè)計(jì)視頻鏡頭時(shí),控制對(duì)象在場(chǎng)景中的移動(dòng)位置至關(guān)重要。認(rèn)為這種全局對(duì)象控制應(yīng)該以場(chǎng)景感知的方式定義,其中對(duì)象位置anchor在底層3D場(chǎng)景中的位置。為此,通過最小化地指定起始和結(jié)束框以及(可選的)中間關(guān)鍵框在輸入圖像上實(shí)現(xiàn)場(chǎng)景anchor邊界框(bbox)的放置。通過將邊界框放置anchor到由輸入圖像建立的固定視圖,用戶可以通過調(diào)整位置、比例和形狀來描繪想象中的目標(biāo)位置。這種場(chǎng)景感知的邊界框放置為對(duì)象的位置、比例、姿態(tài)和相對(duì)于相機(jī)的距離提供了直觀的控制。根據(jù)提供的關(guān)鍵位置和輸出視頻的預(yù)期持續(xù)時(shí)間,我們通過Catmull-Rom樣條插值生成平滑的框軌跡。


使用點(diǎn)跟蹤進(jìn)行對(duì)象局部運(yùn)動(dòng)控制。 雖然全局對(duì)象運(yùn)動(dòng)定義了對(duì)象在場(chǎng)景中的位置變化,并且是我們鏡頭設(shè)計(jì)過程的主要關(guān)注點(diǎn),但局部對(duì)象運(yùn)動(dòng)——描繪對(duì)象在位置上的運(yùn)動(dòng)(例如,抬起手臂、旋轉(zhuǎn)頭部)——也可以通過增加細(xì)節(jié)和逼真性來豐富鏡頭設(shè)計(jì)體驗(yàn)。受近期基于拖動(dòng)編輯成功的啟發(fā),我們使用稀疏點(diǎn)軌跡來描繪局部運(yùn)動(dòng)。由于局部運(yùn)動(dòng)通常涉及復(fù)雜的幾何關(guān)系和變形,稀疏點(diǎn)軌跡提供了一種靈活的方式來定義和操控這種運(yùn)動(dòng)。


定時(shí)控制。 對(duì)象和相機(jī)運(yùn)動(dòng)的定時(shí)控制能夠?qū)崿F(xiàn)協(xié)調(diào)設(shè)計(jì),增強(qiáng)敘事流暢性和視覺連貫性。本文的系統(tǒng)自然支持這一點(diǎn),允許用戶直接沿運(yùn)動(dòng)軌跡分配時(shí)間線。

運(yùn)動(dòng)信號(hào)翻譯模塊

盡管運(yùn)動(dòng)意圖最好在具有3D感知的場(chǎng)景中心方式中設(shè)計(jì),視頻生成模型通常更有效地針對(duì)2D屏幕空間的運(yùn)動(dòng)條件進(jìn)行訓(xùn)練,這些數(shù)據(jù)在視圖依賴投影后將所有運(yùn)動(dòng)類型混合在一起。這種差異產(chǎn)生的原因在于,從大規(guī)模普通視頻中提取可靠的3D信息(如相機(jī)運(yùn)動(dòng)和3D對(duì)象跟蹤)具有挑戰(zhàn)性。為了解決這個(gè)問題,本文的關(guān)鍵思路不是設(shè)計(jì)一個(gè)直接處理場(chǎng)景空間運(yùn)動(dòng)信息的視頻生成模型,而是將從上節(jié)中獲得的場(chǎng)景空間運(yùn)動(dòng)設(shè)計(jì)翻譯為可以從野外視頻中可靠提取的時(shí)空定位的屏幕空間運(yùn)動(dòng)信號(hào)。


通過點(diǎn)跟蹤實(shí)現(xiàn)相機(jī)運(yùn)動(dòng)。尋求一種屏幕空間運(yùn)動(dòng)信號(hào),(1) 可以從普通視頻中穩(wěn)健提取,(2) 編碼關(guān)于視頻中相機(jī)運(yùn)動(dòng)的詳細(xì)信息。關(guān)于人類視覺感知的研究提供了一個(gè)重要的見解:通過投影到圖像平面上的稀疏場(chǎng)景點(diǎn)跟蹤,能夠可靠地恢復(fù)自我中心運(yùn)動(dòng)。這一見解已廣泛應(yīng)用于計(jì)算機(jī)視覺中的相機(jī)姿態(tài)估計(jì)和SLAM。受此啟發(fā),我們使用點(diǎn)跟蹤來表示相機(jī)運(yùn)動(dòng)。注意,這些信息可以從真實(shí)視頻中穩(wěn)健提取。

在推理時(shí),通過在輸入圖像上隨機(jī)采樣一組點(diǎn),將3D相機(jī)路徑轉(zhuǎn)換為2D點(diǎn)軌跡。為了專注于屬于靜態(tài)背景的點(diǎn),這些點(diǎn)更能反映相機(jī)運(yùn)動(dòng),排除掉從YOLOv11 生成的 mask 中估計(jì)出的可能移動(dòng)的對(duì)象區(qū)域。然后,使用一個(gè)現(xiàn)成的單目深度估計(jì)器來獲取內(nèi)在相機(jī)參數(shù)和深度圖。最后,根據(jù)3D相機(jī)路徑和深度扭曲這些點(diǎn)以創(chuàng)建相應(yīng)的2D屏幕空間軌跡。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

基于運(yùn)動(dòng)條件的視頻生成

視頻擴(kuò)散模型已成為視頻生成的主要范式?;陬A(yù)訓(xùn)練的DiT I2V模型構(gòu)建了本文的運(yùn)動(dòng)條件視頻生成模型。該模型是DiT到視頻生成的內(nèi)部標(biāo)準(zhǔn)適配,類似于現(xiàn)有的開源適配。通過使用屏幕空間運(yùn)動(dòng)條件微調(diào)模型來適應(yīng)本文的運(yùn)動(dòng)條件生成問題。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

通過自回歸生成可變長度視頻

生成可變長度視頻對(duì)于電影敘事很有益。通過自回歸生成實(shí)現(xiàn)了這一點(diǎn),這比直接建模長視頻更具計(jì)算效率,并反映了復(fù)雜視頻鏡頭通常由短而簡單的鏡頭順序拼接而成的事實(shí)。雖然本文的圖像到視頻框架自然支持無需訓(xùn)練的自回歸長視頻生成,但發(fā)現(xiàn)這通常會(huì)導(dǎo)致明顯的運(yùn)動(dòng)不連續(xù)性,因?yàn)閱蝹€(gè)條件圖像缺乏足夠的時(shí)間運(yùn)動(dòng)信息。為了解決這個(gè)問題,在訓(xùn)練MotionCanvasAR時(shí)增加了對(duì)短視頻剪輯Cvid(16幀)的額外條件。這種重疊短剪輯策略使每個(gè)生成步驟都基于先前的時(shí)空上下文,從而實(shí)現(xiàn)自然過渡。在推理過程中,模型生成任意長度的視頻,每次生成迭代時(shí)獨(dú)立控制運(yùn)動(dòng)。為了進(jìn)一步優(yōu)化輸入的運(yùn)動(dòng)信號(hào)并使其與訓(xùn)練設(shè)置對(duì)齊,我們通過結(jié)合用戶意圖與反向追蹤的運(yùn)動(dòng)重新計(jì)算屏幕空間運(yùn)動(dòng)信號(hào)。這種方法確保了更平滑和一致的運(yùn)動(dòng)生成。

應(yīng)用

MotionCanvas允許靈活控制場(chǎng)景中相機(jī)和對(duì)象的運(yùn)動(dòng)。這使得本文的主要應(yīng)用成為電影鏡頭設(shè)計(jì)框架,允許用戶交互式地管理鏡頭的關(guān)鍵運(yùn)動(dòng)方面。此外,運(yùn)動(dòng)表示的靈活性使得在各種簡單的視頻編輯任務(wù)中自然應(yīng)用本文的框架成為可能。

聯(lián)合相機(jī)和對(duì)象控制的鏡頭設(shè)計(jì)

如下圖 4 所示,框架能夠在場(chǎng)景感知的方式下精確且獨(dú)立地控制對(duì)象和相機(jī)的運(yùn)動(dòng),從而設(shè)計(jì)出高度動(dòng)態(tài)且視覺吸引力強(qiáng)的鏡頭,同時(shí)緊密遵循所提供的運(yùn)動(dòng)設(shè)計(jì)。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

在上圖 4 中,值得注意的是,在兩個(gè)示例中,每列的結(jié)果都遵循相同的相機(jī)運(yùn)動(dòng),而對(duì)象運(yùn)動(dòng)則根據(jù)相應(yīng)的指定對(duì)象控制進(jìn)行變化。通過在場(chǎng)景感知的方式下放置邊界框,用戶可以實(shí)現(xiàn)各種場(chǎng)景空間效果。例如,這使得在底部示例中,可以讓汽車保持靜止(第一行)或在道路上前進(jìn)(第二行)和后退(第三行)。重要的是,這種場(chǎng)景anchor的運(yùn)動(dòng)在相機(jī)運(yùn)動(dòng)獨(dú)立變化時(shí)得以保留。這突顯了場(chǎng)景感知對(duì)象運(yùn)動(dòng)控制的重要性。


具有復(fù)雜軌跡的長視頻。為了生成具有復(fù)雜相機(jī)和對(duì)象運(yùn)動(dòng)的長視頻,本文的框架采用“規(guī)范-生成”循環(huán)。這種方法允許用戶為每個(gè)段定義運(yùn)動(dòng)信號(hào),然后以自回歸方式生成視頻片段。受動(dòng)畫工作流程的啟發(fā) [39, 50],MotionCanvas結(jié)合關(guān)鍵幀和插值來創(chuàng)建復(fù)雜的運(yùn)動(dòng)路徑。具體而言,用戶可以為對(duì)象和相機(jī)運(yùn)動(dòng)設(shè)置關(guān)鍵幀,然后系統(tǒng)在這些關(guān)鍵幀之間插值以生成平滑且連貫的軌跡。


如下圖 5 所示,本文的方法可以生成具有復(fù)雜相機(jī)運(yùn)動(dòng)控制序列的長視頻。為每個(gè)輸入圖像展示了兩個(gè)視頻結(jié)果,這些結(jié)果來自相同的相機(jī)控制(請(qǐng)注意,這兩個(gè)視頻生成了幾乎相同的相機(jī)運(yùn)動(dòng)),同時(shí)有意控制不同的對(duì)象運(yùn)動(dòng)。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

對(duì)象局部運(yùn)動(dòng)控制

MotionCanvas還支持控制對(duì)象的局部運(yùn)動(dòng),以潛在支持基于拖拽的編輯和生成。用戶可以通過直接在對(duì)象自身坐標(biāo)內(nèi)指定拖拽軌跡來定義局部對(duì)象運(yùn)動(dòng)。這些點(diǎn)軌跡然后被轉(zhuǎn)換為合適的屏幕空間點(diǎn)軌跡,以對(duì)視頻生成模型進(jìn)行條件化,考慮到相機(jī)和對(duì)象的全局運(yùn)動(dòng)。如下圖 6 所示,本文的方法可以生成多樣且細(xì)致的局部運(yùn)動(dòng),使得生成對(duì)象運(yùn)動(dòng)的不同變體成為可能(例如,嬰兒手臂移動(dòng)的不同方式)。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

此外,得益于專門的運(yùn)動(dòng)翻譯模塊,該模塊考慮了局部運(yùn)動(dòng)與相機(jī)運(yùn)動(dòng)以及對(duì)象全局運(yùn)動(dòng)之間的協(xié)調(diào),可以在不同的相機(jī)和對(duì)象動(dòng)態(tài)下實(shí)現(xiàn)一致的對(duì)象局部運(yùn)動(dòng)控制(上圖 6 底部)。這為將局部對(duì)象運(yùn)動(dòng)控制納入上述鏡頭設(shè)計(jì)框架打開了可能性。

附加應(yīng)用:簡單的視頻編輯

運(yùn)動(dòng)遷移。本文的方法可以適應(yīng)于從源視頻向與初始幀具有結(jié)構(gòu)相似性的輸入圖像執(zhí)行運(yùn)動(dòng)遷移。通過利用多功能的屏幕空間條件表示,框架能夠有效捕捉并遷移對(duì)象和相機(jī)運(yùn)動(dòng),即使是涉及3D變換的情況,也無需顯式3D相機(jī)姿態(tài)提取。如下圖 7 所示,蘋果的旋轉(zhuǎn)運(yùn)動(dòng)可以被遷移到獅子的頭部旋轉(zhuǎn)。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

視頻編輯。運(yùn)動(dòng)遷移的概念可以擴(kuò)展以促進(jìn)視頻編輯,其中輸入圖像通過圖像編輯從第一幀派生。利用多功能的屏幕空間條件表示,本文的方法將提取的對(duì)象和相機(jī)運(yùn)動(dòng)傳播到派生圖像,確保一致且真實(shí)的動(dòng)態(tài),類似于 [25]。上圖 7 顯示了兩個(gè)示例,其中在初始幀上執(zhí)行的編輯通過從原始視頻中提取的運(yùn)動(dòng)信號(hào)傳播,生成了一個(gè)完整編輯的視頻。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

數(shù)據(jù)。 從內(nèi)部數(shù)據(jù)集中收集了約110萬高質(zhì)量視頻。通過使用DEVA 進(jìn)行全景分割,從視頻中提取邊界框,并將這些邊界框擬合到提取的 mask  上。通過鏈?zhǔn)焦饬鳎ㄊ褂肦AFT)計(jì)算稀疏點(diǎn)跟蹤注釋。為了確??煽康倪\(yùn)動(dòng)數(shù)據(jù),設(shè)定了有效跟蹤長度的閾值。還根據(jù)關(guān)鍵詞(如向量、動(dòng)畫)過濾掉了一部分視頻,以專注于自然視頻數(shù)據(jù)。邊界框進(jìn)一步通過相鄰幀的交并比(IoU)、尺寸變化比、位置變化(歐幾里得距離)以及相關(guān)對(duì)象與我們移動(dòng)對(duì)象列表的相關(guān)性進(jìn)行優(yōu)化。最終,獲得了約60萬條具有良好運(yùn)動(dòng)質(zhì)量和高保真注釋的視頻。在訓(xùn)練過程中,以80%的概率隨機(jī)選擇N個(gè)點(diǎn)軌跡,其中N ~ U(0, 100)。此外,有10%的概率選擇僅來自移動(dòng)對(duì)象區(qū)域的點(diǎn),另有10%的概率選擇來自非移動(dòng)對(duì)象區(qū)域的點(diǎn)。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

相機(jī)運(yùn)動(dòng)控制質(zhì)量

本文采用旋轉(zhuǎn)誤差(RotErr.)、平移誤差(TransErr.)和CamMC作為指標(biāo),遵循[15, 46]。此外,還計(jì)算了Frechet Inception Distance(FID)和Frechet Video Distance(FVD)來評(píng)估生成視頻的質(zhì)量。這些指標(biāo)是在從RealEstate-10K 測(cè)試集中隨機(jī)抽取的1K視頻上計(jì)算的(@640×352,14幀)。將本文的方法與兩種最先進(jìn)的相機(jī)運(yùn)動(dòng)控制圖像到視頻方法進(jìn)行比較:MotionCtrl和CameraCtrl。定量結(jié)果如下表1所示。需要注意的是,MotionCtrl和CameraCtrl都是在RealEstate10K訓(xùn)練集上訓(xùn)練的,該訓(xùn)練集包含與測(cè)試集相同領(lǐng)域的視頻。然而,本文的方法在零樣本設(shè)置中在所有指標(biāo)上都優(yōu)于它們。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

下圖8中的視覺比較顯示,由MotionCtrl和CameraCtrl生成的運(yùn)動(dòng)質(zhì)量較低,主要是因?yàn)樗鼈円蕾囉诎?D相機(jī)姿態(tài)標(biāo)簽的視頻數(shù)據(jù)集(RealEstate10K)進(jìn)行訓(xùn)練,這些數(shù)據(jù)集缺乏多樣性,僅包含靜態(tài)場(chǎng)景。此外,本文的方法允許控制內(nèi)在參數(shù),從而能夠制作更高級(jí)的電影鏡頭,如推拉鏡頭(見下圖8右側(cè)),這是現(xiàn)有方法難以實(shí)現(xiàn)的。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

3D感知對(duì)象運(yùn)動(dòng)控制質(zhì)量

根據(jù)[49],在VIPSeg過濾后的驗(yàn)證集上計(jì)算ObjMC和FID,該驗(yàn)證集在排除沒有移動(dòng)物體的視頻后包含116個(gè)樣本(@640×352,14幀)。我們與DragAnything、MOFA-Video和TrackDiffusion進(jìn)行比較,量化結(jié)果如下表2所示。本文的方法在控制精度(ObjMC)和幀質(zhì)量(FID)上都優(yōu)于其他基線,如圖9進(jìn)一步證實(shí)。DragAnything和MOFA-Video中的顯式變形引入了對(duì)象失真,而TrackDiffusion對(duì)歐幾里得坐標(biāo)的依賴阻礙了收斂,導(dǎo)致不準(zhǔn)確。通過為邊界框引入時(shí)空表示,本文的方法實(shí)現(xiàn)了精確的對(duì)象運(yùn)動(dòng)控制(例如,位置、大小和姿態(tài))。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

聯(lián)合相機(jī)和對(duì)象控制

進(jìn)行了一項(xiàng)用戶研究,以評(píng)估在3D場(chǎng)景感知上下文中聯(lián)合相機(jī)和對(duì)象運(yùn)動(dòng)控制的感知質(zhì)量。將本文的方法與基于拖拽的I2V方法進(jìn)行比較:DragAnything和MOFA-Video。注意,現(xiàn)有方法沒有設(shè)計(jì)用于3D感知控制,因此我們直接采用場(chǎng)景空間點(diǎn)軌跡作為基線的輸入,遵循其原始設(shè)置。除了用于對(duì)象局部運(yùn)動(dòng)控制的點(diǎn)軌跡外,還提供了來自邊界框序列和基于深度的變形的點(diǎn)軌跡,用于對(duì)象和相機(jī)的全局運(yùn)動(dòng)控制。參與者被要求根據(jù)運(yùn)動(dòng)依從性、運(yùn)動(dòng)質(zhì)量和幀保真度選擇最佳結(jié)果。35名參與者的回應(yīng)統(tǒng)計(jì)結(jié)果匯總在下表3中。本文的方法在所有評(píng)估方面始終優(yōu)于競(jìng)爭對(duì)手。視覺結(jié)果如下圖10所示,其中兩個(gè)基線方法均未能在3D感知的方式下共同捕捉復(fù)雜對(duì)象的全局運(yùn)動(dòng)(即身體的移動(dòng))、局部運(yùn)動(dòng)(即放下手)和相機(jī)運(yùn)動(dòng)。相比之下,本文的MotionCanvas生成了遵循所有類型控制的運(yùn)動(dòng),這要?dú)w功于其統(tǒng)一的框架和運(yùn)動(dòng)表示設(shè)計(jì)。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

消融研究

相機(jī)運(yùn)動(dòng)表示。 構(gòu)建了幾個(gè)基線來研究本文的相機(jī)運(yùn)動(dòng)表示的有效性:高斯圖(2D高斯模糊稀疏光流圖)、Plucker embedding和我們提出的基于DCT系數(shù)的軌跡編碼。量化比較如下表4所示。由于固有的模糊性(特別是在更密集的控制下),高斯圖變體在精確相機(jī)控制方面表現(xiàn)不佳,傾向于生成靜態(tài)相機(jī)運(yùn)動(dòng)(高FVD)。值得注意的是,Plucker embedding 變體需要在帶有3D相機(jī)姿態(tài)標(biāo)簽的視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練(即,遵循[15]的RealEstate10K訓(xùn)練集)。它在這個(gè)域內(nèi)靜態(tài)測(cè)試集上表現(xiàn)良好,但未能生成對(duì)象運(yùn)動(dòng)(下圖11‘貓’)且缺乏普適性。此外,本文的軌跡編碼效率極高,僅引入少量系數(shù) token ,同時(shí)為相機(jī)內(nèi)在和外在控制提供穩(wěn)健的性能。

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

讓創(chuàng)意起飛!用戶可控的電影級(jí)圖像到視頻生成方法!港中文&Adobe發(fā)布MotionCanvas-AI.x社區(qū)

邊界框條件。 進(jìn)一步評(píng)估了本文的邊界框條件。應(yīng)用了[43]中提出的另一種條件設(shè)計(jì),將邊界框坐標(biāo)連接到視覺 token 上(Ourscoord)。上表2的最后兩列結(jié)果表明本文的時(shí)空顏色編碼圖條件的優(yōu)越性。歐幾里得坐標(biāo) token 與視覺 token 融合的難度導(dǎo)致低ObjMC。

結(jié)論

MotionCanvas,一個(gè)統(tǒng)一的I2V合成系統(tǒng),能夠靈活控制相機(jī)和對(duì)象運(yùn)動(dòng),實(shí)現(xiàn)電影鏡頭設(shè)計(jì)。通過運(yùn)動(dòng)信號(hào)翻譯模塊,MotionCanvas將直觀的3D運(yùn)動(dòng)規(guī)劃轉(zhuǎn)換為精確的2D控制信號(hào),用于訓(xùn)練視頻模型,而無需依賴3D注釋,從而拓寬了訓(xùn)練數(shù)據(jù)的來源。綜合評(píng)估顯示,MotionCanvas在生成多樣化、高質(zhì)量的視頻方面有效地反映了用戶的運(yùn)動(dòng)意圖。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/_OV-E4ZIAjMcWH51rY8z0Q??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄