自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control 精華

發(fā)布于 2025-1-13 10:16
瀏覽
0收藏

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2501.05020
項(xiàng)目鏈接:https://chen-yingjie.github.io/projects/Perception-as-Control


運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

亮點(diǎn)直擊

  • 引入了3D感知運(yùn)動(dòng)表示,以促進(jìn)精細(xì)化的協(xié)同運(yùn)動(dòng)控制,該表示可以被修改和感知,從而將用戶意圖轉(zhuǎn)化為空間對齊的運(yùn)動(dòng)控制信號。
  • 基于3D感知運(yùn)動(dòng)表示,提出了一種精細(xì)化運(yùn)動(dòng)可控的圖像動(dòng)畫框架,即Perception-as-Control,利用擴(kuò)散模型實(shí)現(xiàn)精確且靈活的協(xié)同運(yùn)動(dòng)控制。
  • 該框架通過對用戶意圖的解析,可以支持多種與運(yùn)動(dòng)相關(guān)的應(yīng)用,例如運(yùn)動(dòng)生成、運(yùn)動(dòng)克隆、運(yùn)動(dòng)遷移以及運(yùn)動(dòng)編輯。

總結(jié)速覽

解決的問題

在圖像動(dòng)畫領(lǐng)域,現(xiàn)有方法在控制攝像機(jī)和物體運(yùn)動(dòng)時(shí)仍面臨以下挑戰(zhàn):

  1. 協(xié)同控制難題:無法實(shí)現(xiàn)攝像機(jī)和物體運(yùn)動(dòng)的協(xié)同控制,容易產(chǎn)生沖突。
  2. 控制粒度不足:缺乏精細(xì)化的控制能力,難以滿足復(fù)雜的動(dòng)畫需求。
  3. 三維感知不足:運(yùn)動(dòng)表示通常缺乏3D感知,導(dǎo)致局部區(qū)域在同時(shí)控制攝像機(jī)和物體運(yùn)動(dòng)時(shí)出現(xiàn)控制沖突。

提出的方案

提出了Perception-as-Control的圖像動(dòng)畫框架,基于3D感知運(yùn)動(dòng)表示,實(shí)現(xiàn)精細(xì)化的協(xié)同運(yùn)動(dòng)控制。

應(yīng)用的技術(shù)

  • 3D感知運(yùn)動(dòng)表示:通過重構(gòu)3D場景,使用單位球體簡化動(dòng)態(tài)部分和靜態(tài)部分,生成反映運(yùn)動(dòng)和空間關(guān)系的感知結(jié)果。
  • 輕量化雙編碼器:分別對攝像機(jī)和物體的控制信號進(jìn)行編碼,確??刂菩盘柵c參考圖像對齊,提高運(yùn)動(dòng)控制的靈活性。
  • 擴(kuò)散模型:利用基于U-Net的架構(gòu),將外觀信息與運(yùn)動(dòng)信息結(jié)合,用于生成目標(biāo)動(dòng)畫。
  • 數(shù)據(jù)管道與訓(xùn)練策略:自動(dòng)化處理真實(shí)視頻數(shù)據(jù),采用分階段訓(xùn)練平衡控制能力,支持多種運(yùn)動(dòng)相關(guān)任務(wù)。

達(dá)到的效果

  • 精細(xì)化控制:能夠?qū)崿F(xiàn)攝像機(jī)和物體的協(xié)同運(yùn)動(dòng)控制,避免控制沖突。
  • 視覺一致性:通過3D感知運(yùn)動(dòng)表示,確保運(yùn)動(dòng)信號與生成的動(dòng)畫幀空間對齊,提升動(dòng)畫質(zhì)量。
  • 任務(wù)統(tǒng)一性:支持各種運(yùn)動(dòng)相關(guān)的視頻生成任務(wù),具備高度的靈活性和適應(yīng)性。
  • 性能優(yōu)越:實(shí)驗(yàn)結(jié)果表明,該框架在多個(gè)任務(wù)中均優(yōu)于現(xiàn)有方法,實(shí)現(xiàn)更精確的運(yùn)動(dòng)控制與更高質(zhì)量的動(dòng)畫效果。

Perception-as-Control

首先介紹一個(gè)用于從自然視頻中構(gòu)建3D感知運(yùn)動(dòng)表示的數(shù)據(jù)整理流程。隨后,描述了精細(xì)化運(yùn)動(dòng)可控的圖像動(dòng)畫框架——感知即控制(Perception-as-Control)。同時(shí),提出了一種三階段訓(xùn)練策略,用于平衡攝像機(jī)和物體的運(yùn)動(dòng)控制,并促進(jìn)精細(xì)化的物體運(yùn)動(dòng)控制。

預(yù)備知識

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

基于3D的運(yùn)動(dòng)表示

為了進(jìn)行訓(xùn)練,需要視頻數(shù)據(jù)和相應(yīng)的基于3D的運(yùn)動(dòng)表示。然而,常用的大規(guī)模視頻數(shù)據(jù)集主要由缺乏相機(jī)設(shè)置和場景信息的野外視頻組成?;謴?fù)此類信息的一種方法是通過單目3D重建算法(例如 SfM )估計(jì)相機(jī)參數(shù)并重建場景,然后簡化重建的3D場景。然而,這些算法計(jì)算成本高,并且由于尺度模糊問題,會導(dǎo)致不可忽略的重建誤差。另一種方法是通過適當(dāng)?shù)慕浦苯訕?gòu)建簡化的3D場景,從而繞過這些問題,即使是針對野外視頻也可以輕松實(shí)現(xiàn)。因此,我們引入了數(shù)據(jù)處理流水線,使用現(xiàn)成的算法為任何可收集的視頻構(gòu)建基于3D的運(yùn)動(dòng)表示,如下圖3左上部分所示。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

剪輯檢測與運(yùn)動(dòng)過濾
首先,應(yīng)用常見的預(yù)處理步驟,從視頻中提取包含連續(xù)視覺內(nèi)容的片段。通過剪輯檢測算法將原始視頻分割成多個(gè)視頻片段。隨后,使用 RAFT 估計(jì)視頻片段中每對相鄰幀之間的光流。然后,計(jì)算估計(jì)光流的 Frobenius 范數(shù)作為運(yùn)動(dòng)分?jǐn)?shù),并進(jìn)一步過濾掉運(yùn)動(dòng)分?jǐn)?shù)低于第30百分位的視頻片段(即運(yùn)動(dòng)不明顯的視頻片段),這一點(diǎn)與之前的方法[16]一致。接下來,為每個(gè)視頻片段構(gòu)建基于3D的運(yùn)動(dòng)表示。該過程分為兩個(gè)步驟:用于捕捉局部對象運(yùn)動(dòng)的3D點(diǎn)跟蹤和用于捕捉全局相機(jī)運(yùn)動(dòng)的視覺里程計(jì)。

局部對象運(yùn)動(dòng)的3D點(diǎn)跟蹤

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

全球相機(jī)運(yùn)動(dòng)的視覺里程計(jì)
使用一個(gè)世界包絡(luò)體來標(biāo)記剩余部分,該部分相對于世界坐標(biāo)系是靜止的。為了將全球相機(jī)運(yùn)動(dòng)轉(zhuǎn)換為視覺變化,可以使用現(xiàn)成的算法從連續(xù)幀序列中恢復(fù)相機(jī)軌跡并渲染世界包絡(luò)體。盡管存在尺度模糊問題,我們的世界包絡(luò)體作為場景標(biāo)記,只需要粗略的相機(jī)位姿,而不需要極其精確的位姿。因此,將相機(jī)內(nèi)參設(shè)置為I = [W,0,W//2; 0,H,H//2; 0,0,1]。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

為了避免 RGB 級別的干擾,將單位球體和世界包絡(luò)體分別渲染為兩個(gè)空間層,分別作為對象和相機(jī)控制信號。

網(wǎng)絡(luò)架構(gòu)

本文提出了一種基于 3D感知運(yùn)動(dòng)表示 的運(yùn)動(dòng)可控圖像動(dòng)畫框架,稱為 Perception-as-Control,該框架以參考圖像和一系列空間對齊的運(yùn)動(dòng)控制信號為輸入,生成視頻作為輸出。


如前面圖 3 右側(cè)所示,本文的框架基于 去噪 U-Net 架構(gòu),并加入了額外的運(yùn)動(dòng)模塊以建模時(shí)間信息。在圖像動(dòng)畫的設(shè)置下,必須保留參考圖像(圖像控制信號)中包含的外觀信息,并遵循運(yùn)動(dòng)控制信號中包含的運(yùn)動(dòng)信息。


以往方法通過直接將空間對齊的控制信號添加到輸入噪聲中,或通過輔助架構(gòu)將其集成到去噪 U-Net 中,并通過注意力機(jī)制注入高級控制信號。鑒于運(yùn)動(dòng)控制信號已經(jīng)是空間對齊的,在本文的框架中,通過將運(yùn)動(dòng)控制信號添加到噪聲中進(jìn)行注入,并通過 ReferenceNet 注入?yún)⒖紙D像。


本文使用兩個(gè)輕量級編碼器分別編碼相機(jī)控制信號和對象控制信號,以避免 RGB 級別的干擾。然后,通過一個(gè)融合模塊將編碼后的相機(jī)控制信號和對象控制信號合并。經(jīng)驗(yàn)性地將融合模塊實(shí)現(xiàn)為一個(gè)卷積塊。


在訓(xùn)練過程中,訓(xùn)練數(shù)據(jù)對通過本文的數(shù)據(jù)策劃管道準(zhǔn)備,并采用三階段的訓(xùn)練策略以平衡相機(jī)和對象控制信號。推理時(shí),將用戶意圖以各種形式轉(zhuǎn)換為 3D感知運(yùn)動(dòng)表示,然后使用所提出的框架根據(jù)該表示生成視頻。

訓(xùn)練策略

盡管 3D感知運(yùn)動(dòng)表示 將相機(jī)和對象運(yùn)動(dòng)轉(zhuǎn)化為統(tǒng)一的形式,但由于訓(xùn)練數(shù)據(jù)中的運(yùn)動(dòng)通常是糾纏在一起的,訓(xùn)練策略仍然非常重要。本文提出了三階段訓(xùn)練策略,旨在平衡相機(jī)和對象控制信號,從而實(shí)現(xiàn)精細(xì)化的協(xié)作運(yùn)動(dòng)控制。

階段 1:相機(jī)運(yùn)動(dòng)控制訓(xùn)練
在第一階段,使用僅包含相機(jī)運(yùn)動(dòng)的視頻片段(來自 RealEstate10K)訓(xùn)練相機(jī)編碼器。此階段中暫時(shí)排除對象編碼器和融合模塊。


由于渲染的球體可能出現(xiàn)在像素平面的任意位置,去噪 U-Net 中的運(yùn)動(dòng)模塊會與其一起訓(xùn)練。這使得模型能夠?qū)⒚總€(gè)渲染球體與其代表的對象部分對齊。因此,在這一階段,訓(xùn)練 相機(jī)編碼器、去噪 U-Net 中的運(yùn)動(dòng)模塊以及 ReferenceNet。

階段 2:協(xié)作運(yùn)動(dòng)控制訓(xùn)練
在第二階段,加入來自 WebVid10M 的視頻片段(包含相機(jī)和對象運(yùn)動(dòng))進(jìn)行訓(xùn)練。此階段中添加對象編碼器和融合模塊,以實(shí)現(xiàn)協(xié)作運(yùn)動(dòng)控制。


為了加速球體與對象部分的對齊過程,此階段中使用密集的單位球作為對象控制信號。固定相機(jī)編碼器,訓(xùn)練對象編碼器、融合模塊、運(yùn)動(dòng)模塊和 ReferenceNet。


此外,為了同時(shí)保持兩種控制信號的有效性,尤其是在沖突情況下,在訓(xùn)練期間以固定的丟棄率隨機(jī)丟棄來自 RealEstate10K 視頻片段中的一種控制信號。

階段 3:從密集到稀疏的微調(diào)

第三階段的目標(biāo)是通過稀疏的單位球?qū)崿F(xiàn)精細(xì)化的對象運(yùn)動(dòng)控制,這需要模型自適應(yīng)地確定每個(gè)渲染點(diǎn)的控制范圍。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

在所有階段中,使用類似于 Eq. 2 的損失函數(shù)來優(yōu)化框架:

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。使用視頻數(shù)據(jù)集RealEstate10K和WebVid10M進(jìn)行訓(xùn)練。RealEstate10K包含僅有相機(jī)運(yùn)動(dòng)的視頻,每個(gè)視頻都標(biāo)注了真實(shí)的相機(jī)內(nèi)外參。WebVid10M是一個(gè)大規(guī)模數(shù)據(jù)集,包含了同時(shí)具有相機(jī)和物體運(yùn)動(dòng)的野外視頻,但這些視頻的質(zhì)量不夠高。通過本文的數(shù)據(jù)整理流程,最終的訓(xùn)練數(shù)據(jù)包含約6K個(gè)來自RealEstate10K的視頻片段和35K個(gè)來自WebVid10M的視頻片段。


實(shí)現(xiàn)細(xì)節(jié)。采用Stable Diffusion 1.5(SD1.5)作為基礎(chǔ)模型,并使用SD1.5的預(yù)訓(xùn)練權(quán)重初始化去噪U(xiǎn)-Net和ReferenceNet的權(quán)重。按照之前的工作[8, 2]添加運(yùn)動(dòng)模塊,并進(jìn)行隨機(jī)初始化。訓(xùn)練過程中,VAE 編碼器和解碼器的權(quán)重,以及CLIP圖像編碼器的權(quán)重被凍結(jié)。訓(xùn)練時(shí),隨機(jī)為每個(gè)視頻片段采樣16幀,分辨率為768×512。使用AdamW作為優(yōu)化器。訓(xùn)練在8個(gè)NVIDIA A100 GPU上進(jìn)行。第一階段訓(xùn)練約20k次迭代,第二階段20k次迭代,第三階段50k次迭代,批次大小為1,以確保收斂。

可控圖像動(dòng)畫

僅相機(jī)運(yùn)動(dòng)控制

為了展示Perception-as-Control在僅相機(jī)運(yùn)動(dòng)控制中的優(yōu)越性,選擇了基本和任意相機(jī)運(yùn)動(dòng),并將其可視化為3D。如下圖4所示,本文的框架可以生成符合預(yù)期相機(jī)運(yùn)動(dòng)的視頻。由于世界包絡(luò)顯示了相機(jī)運(yùn)動(dòng)的方向和幅度,并增強(qiáng)了整體感知,生成的視頻中的空間結(jié)構(gòu)穩(wěn)定且一致。此外,通過將多個(gè)單位球體添加到關(guān)鍵部位,生成的視頻能夠感知深度信息,并能夠準(zhǔn)確地反映在不同焦距下的透視效果。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

僅物體運(yùn)動(dòng)控制

對于僅物體運(yùn)動(dòng)控制,在下圖5中提供了案例,以展示本文的方法在實(shí)現(xiàn)靈活和精確的多實(shí)例及精細(xì)粒度運(yùn)動(dòng)控制方面的優(yōu)越性。由于沒有相機(jī)運(yùn)動(dòng),將單位球體的中心投影到像素平面上,并可視化它們隨時(shí)間的變化,使用顏色表示運(yùn)動(dòng)的方向。如圖5左側(cè)所示,控制參考圖像中越來越多的熱氣球,生成的視頻準(zhǔn)確地反映了每個(gè)熱氣球的運(yùn)動(dòng)。在圖5右側(cè),當(dāng)對竹子施加額外的控制時(shí),所提出的方法能夠自適應(yīng)地確定每個(gè)單位球體的控制范圍。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

協(xié)同運(yùn)動(dòng)控制

本文的框架還支持相機(jī)和物體運(yùn)動(dòng)的協(xié)同控制。如下圖6所示,控制相機(jī)和物體的運(yùn)動(dòng),并可視化相應(yīng)的3D感知運(yùn)動(dòng)表示。本文的方法能夠處理大幅度的物體運(yùn)動(dòng)和精細(xì)的物體運(yùn)動(dòng)。生成的視頻遵循指定的相機(jī)運(yùn)動(dòng),并準(zhǔn)確展示適應(yīng)后的物體運(yùn)動(dòng)。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

應(yīng)用

所提出的圖像動(dòng)畫框架可以通過仔細(xì)解釋用戶意圖,應(yīng)用于各種與運(yùn)動(dòng)相關(guān)的應(yīng)用,如下圖1所示。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

運(yùn)動(dòng)生成是指基于參考圖像和用戶繪制的2D軌跡生成圖像動(dòng)畫。


運(yùn)動(dòng)克隆是指模仿源視頻中的相機(jī)和物體運(yùn)動(dòng)。用戶提供源視頻以構(gòu)建3D感知運(yùn)動(dòng)表示,并編輯第一幀作為參考圖像。


運(yùn)動(dòng)轉(zhuǎn)移是指通過根據(jù)語義對應(yīng)自適應(yīng)地重新定位和縮放源視頻中的局部運(yùn)動(dòng),將其轉(zhuǎn)移到參考圖像上。


運(yùn)動(dòng)編輯比上述設(shè)置具有更大的控制自由度。用戶可以提供分割掩碼,并編輯掩碼內(nèi)外的運(yùn)動(dòng)。


更多示例請參見下圖7。

運(yùn)動(dòng)應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動(dòng)畫框架Perception-as-Control-AI.x社區(qū)

對于運(yùn)動(dòng)生成,基于參考圖像通過單目深度估計(jì)構(gòu)建3D感知運(yùn)動(dòng)表示,并根據(jù)2D軌跡進(jìn)行操控。結(jié)果表明,本文的框架有效處理了各種運(yùn)動(dòng),包括自然擺動(dòng)、形狀變化、交叉和從像素平面延伸出的運(yùn)動(dòng)。


對于運(yùn)動(dòng)克隆,編輯每個(gè)源視頻的第一幀作為參考圖像,并從源視頻中構(gòu)建3D感知運(yùn)動(dòng)表示作為控制信號。結(jié)果精確再現(xiàn)了源視頻中的相機(jī)和物體運(yùn)動(dòng)。


對于運(yùn)動(dòng)轉(zhuǎn)移,我們提取與語義點(diǎn)對應(yīng)的單位球體的3D軌跡,并將其重新定位以匹配參考圖像。結(jié)果表明,源視頻中的局部運(yùn)動(dòng)成功地轉(zhuǎn)移到參考圖像中不同位置、不同尺度的物體上。


對于運(yùn)動(dòng)編輯,根據(jù)分割掩碼修改源視頻的3D感知運(yùn)動(dòng)表示,例如修改幾個(gè)單位球體的軌跡或視點(diǎn)。結(jié)果展示了我們框架的靈活性。

結(jié)論

與以往僅控制相機(jī)運(yùn)動(dòng)或物體運(yùn)動(dòng)的方法不同,本文提出了一種用于協(xié)同運(yùn)動(dòng)控制的精細(xì)控制可控圖像動(dòng)畫框架。該框架將從3D感知運(yùn)動(dòng)表示中獲得的運(yùn)動(dòng)控制信號作為輸入,簡化原始的3D場景,將相機(jī)和物體的運(yùn)動(dòng)轉(zhuǎn)化為統(tǒng)一且一致的視覺變化。由于引入的3D感知運(yùn)動(dòng)表示的靈活性,本文的框架可以通過將用戶意圖轉(zhuǎn)化為表示中的變化,支持各種與運(yùn)動(dòng)相關(guān)的應(yīng)用。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/r9NXjDsuuedxaOmxj8zRFg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦