自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律

發(fā)布于 2024-8-5 09:13
瀏覽
0收藏

目前,擴散模型能夠生成多樣化且高質(zhì)量的圖像或視頻。此前,視頻擴散模型采用 U-Net 架構(gòu) ,主要側(cè)重于合成有限時長(通常約為兩秒)的視頻,并且分辨率和縱橫比受到固定限制。


Sora 的出現(xiàn)打破了這一限制,其采用 Diffusion Transformer(DiT)架構(gòu),不僅擅長制作 10 到 60 秒的高質(zhì)量視頻,而且還因其生成不同分辨率、各種縱橫比、且遵守實際物理定律的能力而脫穎而出。


可以說 Sora 是 DiT 架構(gòu)最有利的證明,然而,基于 Transformer 的擴散模型在有效生成可控動作視頻方面還未被充分探索。


針對這一問題,來自阿里的研究者提出了 Tora,這是第一個面向軌跡的 DiT 架構(gòu),它將文本、視覺和軌跡條件同時集成在一起以生成視頻。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


Tora 的設計與 DiT 的可擴展性無縫契合,允許精確控制具有不同持續(xù)時間、寬高比和分辨率的視頻內(nèi)容。大量實驗證明,Tora 在實現(xiàn)高運動保真度方面表現(xiàn)出色,同時還能細致模擬物理世界的運動。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


  • 論文地址:https://arxiv.org/pdf/2407.21705
  • 論文主頁:https://ali-videoai.github.io/tora_video/
  • 論文標題:Tora: Trajectory-oriented Diffusion Transformer for Video Generation


一艘老式的木制帆船沿著規(guī)定好的路線在迷霧籠罩的河流上平穩(wěn)地滑行,周圍是茂密的綠色森林。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


一條鯽魚優(yōu)雅地游過火星的紅色巖石表面,魚的軌跡向左,火星的軌跡向右。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


熱氣球沿著不同的軌跡升入夜空,一個沿著規(guī)定的斜線,另一個沿著有彎度的軌跡。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


兩只可愛的小貓并排走在寧靜的金色沙灘上。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


氣泡沿著軌跡輕輕地漂浮在盛開的野花中。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


楓葉在清澈的湖面上顫動,映照著秋天的森林。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


山間的瀑布傾瀉而下,主題、背景的運動都可以按照不同的路線運動。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


在 Tora 與其他方法的比較中,可以看出 Tora 生成的視頻流暢度更高,更遵循軌跡,且物體不會存在變形的問題,保真度更好。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

方法介紹

Tora 采用 OpenSora 作為其 DiT 架構(gòu)的基礎模型,包含一個軌跡提取器 (TE,Trajectory Extractor)、時空 DiT(Spatial-Temporal DiT )和一個運動引導融合器 (MGF,Motion-guidance Fuser) 。TE 使用 3D 視頻壓縮網(wǎng)絡將任意軌跡編碼為分層時空運動 patch。MGF 將運動 patch 集成到 DiT 塊中,以生成遵循軌跡的一致視頻。圖 3 概述了 Tora 的工作流程。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

時空 DiT(ST-DiT)

ST-DiT 架構(gòu)包含兩種不同的塊類型:空間 DiT 塊 (S-DiT-B) 和時間 DiT 塊 (T-DiT-B),它們交替排列。S-DiT-B 包含兩個注意力層,每個層按順序執(zhí)行空間自注意力 (SSA) 和交叉注意力,后面跟著一個逐點前饋層,用于連接相鄰的 T-DiT-B 塊。T-DiT-B 僅通過用時間自注意力 (TSA) 替換 SSA 來修改此架構(gòu),從而保持架構(gòu)一致性。在每個塊中,輸入在經(jīng)過規(guī)范化后,通過跳躍連接連接回塊的輸出。通過利用處理可變長度序列的能力,去噪 ST-DiT 可以處理可變持續(xù)時間的視頻。

軌跡提取器

軌跡已被證明是一種更加用戶友好的方法來控制生成視頻的運動。然而,DiT 模型采用視頻自編碼器和 patch 化過程將視頻轉(zhuǎn)換為視頻 patch。在這里,每個 patch 都是跨多個幀導出,因此直接采用幀間偏移是不合適的。為了解決這個問題,本文提出的 TE 將軌跡轉(zhuǎn)換為運動 patch,運動 patch 與視頻 patch 位于相同的潛在空間。

運動引導融合器

為了將基于 DiT 的視頻生成與軌跡結(jié)合起來,本文探索了三種融合架構(gòu)變體,將運動 patch 注入每個 ST-DiT 塊。這些設計如圖 4 所示。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

實驗結(jié)果

在實現(xiàn)細節(jié)上,研究者基于 OpenSora v1.2 權重來訓練 Tora。訓練視頻的分辨率由 144p 到 720p 不等。為了平衡訓練 FLOP 以及每次迭代不同分辨率和幀數(shù)所需的內(nèi)存,研究者相應地將批大小從 1 調(diào)整到 25。


至于訓練基礎設施,研究者使用了 4 塊英偉達 A100 和 Adam 優(yōu)化器,學習率為 2 × 10^?5。


研究者將 Tora 與流行的運動指導視頻生成方法進行了比較。評估中使用了三種設置,分別為 16、64 和 128 幀,所有設置都是 512×512 的分辨率。


結(jié)果如下表 1 所示,在 U-Net 方法常用的 16 幀設置下,MotionCtrl 和 DragNUWA 能夠更好地與所提供的軌跡實現(xiàn)對齊,但仍弱于 Tora。隨著幀數(shù)增加,U-Net 方法在某些幀中出現(xiàn)明顯偏差,并且錯位誤差傳播會導致后續(xù)序列中出現(xiàn)變形、運動模糊或物體消失。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)


相比之下,得益于集成了 Transformer 的縮放能力,Tora 對幀數(shù)變化表現(xiàn)出很高的穩(wěn)健性。Tora 產(chǎn)生的運動更加流暢,且更符合物理世界。對于 128 幀測試設置下的評估,Tora 的軌跡精度達到其他方法的 3 到 5 倍,展現(xiàn)出了卓越的運動控制能力。


在下圖 5 中,研究者對不同分辨率和持續(xù)時長的軌跡誤差進行分析。結(jié)果顯示,不同于 U-Net 隨時間推移出現(xiàn)明顯的軌跡誤差,Tora 的軌跡誤差隨時間推移出現(xiàn)漸進增加。這與 DiT 模型中視頻質(zhì)量隨時間增加而下降相一致。Tora 在更長的時間下保持了有效的軌跡控制。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

下圖 6 展示了 Tora 與主流運動控制方法的比較分析,在包含兩人共同運動的場景中,所有方法都能生成相對準確的運動軌跡。不過,Tora 的視覺質(zhì)量更好,這要歸功于更長序列幀的使用,有助于實現(xiàn)更平滑的運動軌跡和更逼真的背景渲染。


可以看到,在 Tora 生成的自行車場景中,人的雙腿表現(xiàn)出逼真的踩踏動作,而 DragNUWA 的雙腿幾乎水平漂浮,違反了物理真實性。此外,DragNUWA 和 MotionCtrl 在視頻結(jié)尾處都出現(xiàn)了嚴重的運動模糊。


在另一個生成燈籠的場景中,DragNUWA 隨著所提供軌跡的持續(xù)升降出現(xiàn)了嚴重的變形。MotionCtrl 的軌跡雖然相對準確,但生成的視頻與兩個燈籠的描述不相符。Tora 不僅嚴格地遵循了軌跡,而且最大程度地減少了物體變形,確保了更高保真度的動作表示。


阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律-AI.x社區(qū)

更多技術細節(jié)和實驗結(jié)果請參閱原論文。


本文轉(zhuǎn)自 機器之心,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/GMN9lsFsM-5uMabStLoKEQ??

收藏
回復
舉報
回復
相關推薦