自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成 精華

發(fā)布于 2024-8-2 09:52
瀏覽
0收藏

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2407.21705
項(xiàng)目鏈接:https://ali-videoai.github.io/tora_video/

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

亮點(diǎn)直擊

  • 本文引入了Tora,這是第一個(gè)軌跡導(dǎo)向的DiT用于視頻生成。如下圖2所示,Tora無(wú)縫整合了廣泛的視覺(jué)和軌跡指令,從而能夠熟練地創(chuàng)建可操控運(yùn)動(dòng)的視頻。
  • 為了與DiT的可擴(kuò)展性保持一致,本文設(shè)計(jì)了一種新穎的軌跡提取器和運(yùn)動(dòng)引導(dǎo)融合機(jī)制,以獲取時(shí)空運(yùn)動(dòng)塊,隨后將這些塊注入DiT塊中。本文對(duì)幾種架構(gòu)選擇進(jìn)行了消融實(shí)驗(yàn),并為未來(lái)基于DiT的運(yùn)動(dòng)控制研究提供了實(shí)證基線。
  • 實(shí)驗(yàn)表明,Tora能夠生成具有不同縱橫比的720p分辨率視頻,最長(zhǎng)可達(dá)204幀,所有這些都由指定的軌跡引導(dǎo)。此外,它在模擬物理世界中的運(yùn)動(dòng)方面表現(xiàn)出色。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

最近在 Diffusion Transformer (DiT) 方面的進(jìn)展展示了其在生成高質(zhì)量視頻內(nèi)容方面的卓越能力。然而,基于transformer的擴(kuò)散模型在有效生成具有可控運(yùn)動(dòng)的視頻方面的潛力仍然是一個(gè)探索有限的領(lǐng)域。本文介紹了Tora,這是第一個(gè)軌跡導(dǎo)向的DiT框架,它同時(shí)整合了文本、視覺(jué)和軌跡條件用于視頻生成。具體來(lái)說(shuō),Tora由軌跡提取器 (TE)、時(shí)空DiT和運(yùn)動(dòng)引導(dǎo)融合器 (MGF) 組成。TE通過(guò)3D視頻壓縮網(wǎng)絡(luò)將任意軌跡編碼為分層時(shí)空運(yùn)動(dòng)塊。MGF將運(yùn)動(dòng)塊整合到DiT塊中,以生成遵循軌跡的一致視頻。本文的設(shè)計(jì)與DiT的可擴(kuò)展性無(wú)縫對(duì)接,允許對(duì)視頻內(nèi)容的動(dòng)態(tài)進(jìn)行精確控制,支持多種時(shí)長(zhǎng)、縱橫比和分辨率。大量實(shí)驗(yàn)表明,Tora在實(shí)現(xiàn)高運(yùn)動(dòng)保真度方面表現(xiàn)出色,同時(shí)還精細(xì)地模擬了物理世界的運(yùn)動(dòng)。

方法

Preliminary

潛在視頻擴(kuò)散模型(Latent Video Diffusion Model, LVDM)。LVDM通過(guò)集成3D U-Net增強(qiáng)了Stable Diffusion模型,從而提升了視頻數(shù)據(jù)處理的效率。這個(gè)3D U-Net設(shè)計(jì)在每個(gè)空間卷積中增加了一個(gè)額外的時(shí)間卷積,并在每個(gè)空間注意力塊之后跟隨相應(yīng)的時(shí)間注意力塊。它通過(guò)噪聲預(yù)測(cè)目標(biāo)函數(shù)進(jìn)行優(yōu)化:

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

Tora

Tora 采用 OpenSora 作為其 DiT 架構(gòu)的基礎(chǔ)模型。為了在不同持續(xù)時(shí)間內(nèi)實(shí)現(xiàn)精確且用戶友好的運(yùn)動(dòng)控制,Tora 引入了兩個(gè)新的運(yùn)動(dòng)處理組件:軌跡提取器(Trajectory Extractor, TE)和運(yùn)動(dòng)引導(dǎo)融合器(Motion-guidance Fuser, MGF)。這些模塊用于將提供的軌跡編碼為多層次時(shí)空運(yùn)動(dòng)補(bǔ)丁,并將這些補(bǔ)丁精細(xì)地集成到 DiT 塊的堆疊結(jié)構(gòu)中。Tora 的工作流程概述如下圖 3 所示。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

時(shí)空 DiT(ST-DiT) ST-DiT 架構(gòu)包含兩種不同類(lèi)型的塊:空間 DiT 塊(S-DiT-B)和時(shí)間 DiT 塊(T-DiT-B),它們以交替順序排列。S-DiT-B 包含兩個(gè)注意力層,每個(gè)注意力層依次執(zhí)行空間自注意(Spatial Self-Attention, SSA)和交叉注意(Cross-Attention),然后是一個(gè)逐點(diǎn)前饋層,用于連接相鄰的 T-DiT-B 塊。值得注意的是,T-DiT-B 僅通過(guò)用時(shí)間自注意(Temporal Self-Attention, TSA)替換 SSA 來(lái)修改此架構(gòu),從而保持架構(gòu)的一致性。在每個(gè)塊內(nèi),輸入在歸一化后,通過(guò)跳躍連接(skip-connections)連接回塊的輸出。通過(guò)利用處理可變長(zhǎng)度序列的能力,去噪 ST-DiT 可以處理不同持續(xù)時(shí)間的視頻。


寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

運(yùn)動(dòng)引導(dǎo)融合器。 為了將基于 DiT 的視頻生成與軌跡相結(jié)合,本文探索了三種將運(yùn)動(dòng)塊注入每個(gè) ST-DiT 塊的融合架構(gòu)變體。這些設(shè)計(jì)如下圖 4 所示。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)


本文實(shí)驗(yàn)了三種類(lèi)型的融合架構(gòu),發(fā)現(xiàn)自適應(yīng)歸一化表現(xiàn)出最佳的生成性能和計(jì)算效率。在本文的其余部分,MGF 使用自適應(yīng)歸一化層,除非另有說(shuō)明。

訓(xùn)練策略和數(shù)據(jù)處理

為了在使用任意軌跡生成視頻時(shí)實(shí)現(xiàn)細(xì)粒度控制,以及文本、圖像或它們的組合,本文為不同的條件注入引入了幾種訓(xùn)練策略。


運(yùn)動(dòng)條件訓(xùn)練,受到 DragNUWA 和 MotionCtrl 的啟發(fā),本文采用兩階段的訓(xùn)練方法來(lái)進(jìn)行軌跡學(xué)習(xí)。在第一階段,本文從訓(xùn)練視頻中提取稠密光流作為軌跡,提供更豐富的信息以加速運(yùn)動(dòng)學(xué)習(xí)。在第二階段,為了使模型從完整的光流適應(yīng)到更用戶友好的軌跡,本文根據(jù)運(yùn)動(dòng)分割結(jié)果和光流得分隨機(jī)選擇 1 到N個(gè)對(duì)象軌跡樣本。從稀疏軌跡中解決分散問(wèn)題,本文應(yīng)用高斯濾波進(jìn)行細(xì)化。完成兩階段訓(xùn)練后,Tora 能夠使用任意軌跡實(shí)現(xiàn)靈活的運(yùn)動(dòng)控制。


圖像條件訓(xùn)練,本文遵循 OpenSora 使用的mask策略來(lái)支持視覺(jué)條件。具體來(lái)說(shuō),本文在訓(xùn)練期間隨機(jī)解除幀的mask,未mask幀的視頻塊不受任何噪聲影響。這使得本文的 Tora 模型能夠無(wú)縫地將文本、圖像和軌跡整合到一個(gè)統(tǒng)一的模型中。


寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

實(shí)驗(yàn)

定量和定性結(jié)果

本文將本文的方法與流行的運(yùn)動(dòng)引導(dǎo)視頻生成方法進(jìn)行了比較。評(píng)估在三種設(shè)置下進(jìn)行:16幀、64幀和128幀,所有幀的分辨率均為512X512,以確保公平比較。提供的軌跡被剪裁以適應(yīng)不同評(píng)估的視頻長(zhǎng)度。對(duì)于大多數(shù)基于U-Net的方法,本文采用序列推理,其中上一批生成的最后一幀作為當(dāng)前批次的視覺(jué)條件,以符合其推理設(shè)置。如下表1所示,在基于U-Net的方法常用的16幀設(shè)置下,MotionCtrl和DragNUWA與提供的軌跡對(duì)齊較好,但仍不及本文提出的Tora。當(dāng)幀數(shù)增加時(shí),基于U-Net的方法在某些幀中表現(xiàn)出顯著的偏差,錯(cuò)位誤差傳播并導(dǎo)致后續(xù)序列中的變形、運(yùn)動(dòng)模糊或?qū)ο笙?。相比之下,Tora由于整合了transformer的縮放能力,對(duì)不同幀數(shù)表現(xiàn)出高度的魯棒性。Tora生成的運(yùn)動(dòng)更加平滑,并且更符合物理世界。當(dāng)在128幀測(cè)試設(shè)置下進(jìn)行評(píng)估時(shí),Tora的軌跡準(zhǔn)確性超過(guò)其他方法3到5倍,展示了其卓越的運(yùn)動(dòng)控制能力。在下圖5中,本文提供了不同分辨率和時(shí)長(zhǎng)下的軌跡誤差分析。與基于U-Net的模型不同,后者隨時(shí)間推移表現(xiàn)出顯著的軌跡誤差,Tora的軌跡誤差僅隨時(shí)長(zhǎng)增加而逐漸增加。這種誤差的逐漸增加與DiT模型在時(shí)長(zhǎng)延長(zhǎng)時(shí)觀察到的視頻質(zhì)量下降相一致。結(jié)果清楚地表明,本文的方法在較長(zhǎng)時(shí)長(zhǎng)內(nèi)保持了有效的軌跡控制。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

下圖6展示了本文提出的方法與主流運(yùn)動(dòng)控制技術(shù)的對(duì)比分析。在第一個(gè)場(chǎng)景中,涉及兩個(gè)人的共同運(yùn)動(dòng),所有方法都能夠生成相對(duì)準(zhǔn)確的運(yùn)動(dòng)軌跡。然而,本文的方法在視覺(jué)質(zhì)量上表現(xiàn)出色。這一優(yōu)勢(shì)主要?dú)w功于使用了更長(zhǎng)的序列幀,從而實(shí)現(xiàn)了更平滑的運(yùn)動(dòng)軌跡和更逼真的背景渲染。例如,在本文生成的自行車(chē)場(chǎng)景中,人類(lèi)的腿部表現(xiàn)出真實(shí)的踩踏動(dòng)作,而DragNUWA的輸出中腿部幾乎水平漂浮,違反了物理現(xiàn)實(shí)。此外,DragNUWA和MotionCtrl在視頻結(jié)尾處都出現(xiàn)了顯著的運(yùn)動(dòng)模糊。更進(jìn)一步,盡管沒(méi)有攝像機(jī)運(yùn)動(dòng)條件,MotionCtrl在騎行序列中引入了意外的攝像機(jī)移動(dòng)。在另一個(gè)案例中,隨著提供的軌跡不斷上升和下降,DragNUWA顯示了燈籠的嚴(yán)重變形。盡管MotionCtrl的軌跡相對(duì)準(zhǔn)確,但生成的視頻未能匹配預(yù)期的兩個(gè)燈籠的描繪??傮w而言,本文的方法不僅緊密遵循提供的軌跡,還最大限度地減少了物體變形,從而確保了更高保真度的運(yùn)動(dòng)表現(xiàn)。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

消融實(shí)驗(yàn)

本文進(jìn)行了若干消融研究以分析設(shè)計(jì)選擇的影響。所有模型均在480p分辨率、16:9寬高比和204幀的條件下進(jìn)行評(píng)估。


軌跡壓縮。 為了將軌跡向量整合到與視頻片段相同的潛在空間中,本文研究了三種不同的軌跡壓縮方法,如下表2所總結(jié)的。第一種方法在連續(xù)的4幀區(qū)間內(nèi)采樣中幀作為關(guān)鍵幀,并采用Patch-Unshuffle進(jìn)行空間壓縮。盡管其簡(jiǎn)單,但由于在遇到快速運(yùn)動(dòng)或遮擋時(shí)可能產(chǎn)生潛在的流估計(jì)誤差,這種方法在運(yùn)動(dòng)控制方面表現(xiàn)不佳。此外,所選幀間隔引起的片段間相似性放大,增加了學(xué)習(xí)難度。第二種方法使用平均池化來(lái)匯總連續(xù)幀。雖然這捕捉到了一般的運(yùn)動(dòng)感,但通過(guò)均質(zhì)化軌跡的方向和幅度,它無(wú)意中犧牲了精度,從而稀釋了關(guān)鍵的運(yùn)動(dòng)細(xì)節(jié)。為了盡可能保留連續(xù)幀之間的軌跡信息,本文進(jìn)一步使用3D VAE提取連續(xù)軌跡區(qū)間的全局上下文。軌跡數(shù)據(jù)被視覺(jué)化為RGB圖像格式,以利用現(xiàn)有的3D VAE權(quán)重。在大量軌跡視頻上進(jìn)行廣泛訓(xùn)練的這種設(shè)置下,產(chǎn)生了最有利的結(jié)果,強(qiáng)調(diào)了本文定制的3D VAE方法在軌跡壓縮中的有效性。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

設(shè)計(jì)塊和MGF的集成位置,本文按照之前描述的方法訓(xùn)練了三種不同的MFG塊,結(jié)果如下表3所示。值得注意的是,自適應(yīng)歸一化塊在FVD和軌跡誤差方面都比交叉注意力和額外通道條件方法更低,同時(shí)還表現(xiàn)出最高的計(jì)算效率。這種優(yōu)勢(shì)歸因于其在不同條件下無(wú)需嚴(yán)格對(duì)齊的情況下進(jìn)行動(dòng)態(tài)特征適應(yīng)的能力,這是交叉注意力常遇到的限制。此外,通過(guò)隨時(shí)間調(diào)節(jié)條件信息,它確保了時(shí)間一致性,這對(duì)于注入運(yùn)動(dòng)提示至關(guān)重要。相比之下,通道連接可能會(huì)導(dǎo)致信息擁塞,使運(yùn)動(dòng)信號(hào)的效果減弱。在訓(xùn)練過(guò)程中,本文觀察到將歸一化層初始化為恒等函數(shù)對(duì)于實(shí)現(xiàn)最佳性能非常重要。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

此外,本文評(píng)估了MGF模塊在Spatial DiT和Temporal DiT塊中的集成位置。本文的研究結(jié)果表明,將MGFembeddingTemporal DiT塊中顯著增強(qiáng)了軌跡運(yùn)動(dòng)控制,軌跡誤差從23.39下降到14.25。這種方法提高了MGF與時(shí)間動(dòng)態(tài)交互的效率,從而顯著改善了運(yùn)動(dòng)合成的保真度。


訓(xùn)練策略。 本文評(píng)估了兩階段訓(xùn)練方法的有效性,結(jié)果總結(jié)在下表4中。僅使用密集光流進(jìn)行訓(xùn)練效果不佳,因?yàn)樗鼰o(wú)法準(zhǔn)確捕捉提供的稀疏軌跡中的復(fù)雜細(xì)節(jié)。另一方面,僅使用稀疏軌跡進(jìn)行訓(xùn)練提供的信息有限,使得學(xué)習(xí)過(guò)程更加困難。通過(guò)首先使用密集光流進(jìn)行訓(xùn)練,然后使用稀疏軌跡進(jìn)行微調(diào),本文的模型展示了對(duì)各種類(lèi)型軌跡數(shù)據(jù)的更高適應(yīng)性。這種方法不僅增強(qiáng)了整體性能,還提高了模型處理多樣化運(yùn)動(dòng)模式的能力。

寥寥數(shù)筆,動(dòng)畫(huà)自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成-AI.x社區(qū)

結(jié)論

本文介紹了Tora,這是第一個(gè)面向軌跡的擴(kuò)散Transformer框架,用于視頻生成,集成了文本、圖像和軌跡條件。Tora有效地將任意軌跡編碼為時(shí)空運(yùn)動(dòng)塊,這與DiT的縮放特性相一致,從而實(shí)現(xiàn)了更逼真的物理世界運(yùn)動(dòng)模擬。通過(guò)采用兩階段訓(xùn)練過(guò)程,Tora在各種持續(xù)時(shí)間、縱橫比和分辨率下實(shí)現(xiàn)了運(yùn)動(dòng)可控的視頻生成。值得注意的是,它可以生成符合指定軌跡的高質(zhì)量視頻,最高可達(dá)204幀,分辨率為720p。這一能力突顯了Tora在處理多樣化運(yùn)動(dòng)模式時(shí)的多功能性和魯棒性,同時(shí)保持高視覺(jué)保真度。本文希望本文的工作為未來(lái)的運(yùn)動(dòng)引導(dǎo)擴(kuò)散Transformer方法研究提供一個(gè)強(qiáng)有力的基線。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Zhenghao Zhang


原文鏈接:??https://mp.weixin.qq.com/s/QGz1sWZAgJQ02Ew96WcLtA??

標(biāo)簽
已于2024-8-2 09:53:37修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦