自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta新視頻生成框架拿捏倒立雜技,雙人舞也能完美同步!運(yùn)動(dòng)一致性暴增近20%,可無縫集成DiT模型

人工智能 新聞
VideoJAM在處理運(yùn)動(dòng)場(chǎng)景時(shí),不僅視覺上效果更好,也更加貼合物理規(guī)律。

針對(duì)視頻生成中的運(yùn)動(dòng)一致性難題,Meta GenAI團(tuán)隊(duì)提出了一個(gè)全新框架VideoJAM。

VideoJAM基于主流的DiT路線,但和Sora等純DiT模型相比,動(dòng)態(tài)效果直接拉滿:

哪怕變化又大又迅速、動(dòng)作又復(fù)雜的舞蹈,也看起來像真的一樣,而且還是兩個(gè)人同步:

像倒立這樣的操作,同樣可以輕松駕馭:

而且不需要額外數(shù)據(jù)或縮放,就能無縫集成到不同規(guī)模的DiT模型當(dāng)中,帶來運(yùn)動(dòng)效果的提升。

有網(wǎng)友表示,第一眼看上去就和真的一樣,也許到今年年底,我們看不到區(qū)別了。

運(yùn)動(dòng)效果超越Sora、Gen3

VideoJAM在處理運(yùn)動(dòng)場(chǎng)景時(shí),不僅視覺上效果更好,也更加貼合物理規(guī)律。

比如吹滅蠟燭時(shí)火苗的晃動(dòng),以及漸進(jìn)式的熄滅過程,連燃燒產(chǎn)生的白煙也沒有落下:

寫書法時(shí)毛筆的運(yùn)動(dòng)處理得也很精細(xì),并且做到了筆跡和紙上的字跡同步(雖然不知道寫的是什么)

還有用手捏史萊姆時(shí)的形狀變化,以及內(nèi)部產(chǎn)生的流體效果,連手松開時(shí)的粘連效果也體現(xiàn)了出來:

甚至是三個(gè)球來回拋的雜技表演,也能很好地體現(xiàn)出拋物線軌跡:

另外,作者也針對(duì)文本/外觀/運(yùn)動(dòng)一致性、視頻質(zhì)量等指標(biāo),在4B和30B的DiT模型上分別運(yùn)用VideoJAM進(jìn)行了評(píng)估,并與主流視頻生成模型進(jìn)行了對(duì)比。

結(jié)果在4B和30B規(guī)模下,相比于原始的DiT模型,運(yùn)動(dòng)質(zhì)量從78.3和88.1,分別提升到了93.7和92.4,提升比例分別為19.67%和4.88%。

并且應(yīng)用VideoJAM后,運(yùn)動(dòng)質(zhì)量也超過了Gen3、Sora等其他對(duì)比模型。

那么,VideoJAM是如何做到的呢?

訓(xùn)練中引入運(yùn)動(dòng)信息

在訓(xùn)練和推理階段,VideoJAM針對(duì)經(jīng)典的DiT架構(gòu)都進(jìn)行了一定補(bǔ)充。

具體來說,在訓(xùn)練階段,VideoJAM采用了聯(lián)合外觀-運(yùn)動(dòng)表示(Joint Appearance-Motion Representation)。

通過在模型中引入額外的運(yùn)動(dòng)預(yù)測(cè)任務(wù),讓模型在生成視頻的同時(shí)也學(xué)習(xí)如何預(yù)測(cè)對(duì)應(yīng)的運(yùn)動(dòng)。

為實(shí)現(xiàn)聯(lián)合外觀-運(yùn)動(dòng)表示,VideoJAM對(duì)現(xiàn)有視頻生成模型進(jìn)行了兩處關(guān)鍵性改動(dòng),添加了輸入和輸出兩個(gè)線性投影層。

  • 輸入投影層將外觀特征(視頻幀的表示)和運(yùn)動(dòng)特征拼接后映射到模型的隱藏空間,形成一個(gè)聯(lián)合的潛在表示,這個(gè)潛在表示融合了靜態(tài)外觀信息和動(dòng)態(tài)運(yùn)動(dòng)信息。
  • 輸出投影層則從模型的聯(lián)合潛在表示中,分別解碼出視頻的外觀預(yù)測(cè)和運(yùn)動(dòng)預(yù)測(cè),其中外觀預(yù)測(cè)用于生成最終的視頻幀,運(yùn)動(dòng)預(yù)測(cè)則用來評(píng)估模型對(duì)時(shí)間一致性的理解。

在這一過程當(dāng)中,運(yùn)動(dòng)是用光流(Optical Flow),也就是視頻幀之間像素的位移的形式進(jìn)行表示的。

處理時(shí),VideoJAM將光流轉(zhuǎn)換成RGB格式,像素運(yùn)動(dòng)方向被映射為色調(diào),強(qiáng)度則被映射為亮度或透明度,使其可以像普通視頻一樣被模型處理。

這種處理方式無需額外訓(xùn)練復(fù)雜的運(yùn)動(dòng)編碼器,且兼容性強(qiáng),可以方便地嵌入到現(xiàn)有的視頻生成模型中。

到了推理階段,VideoJAM采用了內(nèi)部引導(dǎo)機(jī)制(Inner-Guidance Mechanism),進(jìn)一步增強(qiáng)生成視頻的運(yùn)動(dòng)一致性。

這種機(jī)制不依賴外部條件,而是使用模型自身在每個(gè)生成步驟中預(yù)測(cè)的運(yùn)動(dòng)信息來動(dòng)態(tài)調(diào)整生成過程,可以實(shí)時(shí)捕捉生成視頻的動(dòng)態(tài)變化。

和其他擴(kuò)散模型一樣,生成視頻的初始輸入是隨機(jī)噪聲,模型首先對(duì)噪聲進(jìn)行處理,生成初步的視頻幀和對(duì)應(yīng)的運(yùn)動(dòng)預(yù)測(cè)。

生成過程中,模型會(huì)使用當(dāng)前幀的運(yùn)動(dòng)預(yù)測(cè)作為指導(dǎo)信號(hào),調(diào)整下一個(gè)時(shí)間步的生成方向。

這種反饋機(jī)制之下,模型不斷審視自己生成的動(dòng)作是否連貫,并在發(fā)現(xiàn)不一致時(shí)自動(dòng)進(jìn)行調(diào)整。

具體到生成進(jìn)程,可以分成兩個(gè)階段,內(nèi)部引導(dǎo)主要應(yīng)用在其中第一個(gè):

  • 粗略階段:在生成初期(大約前50%的步驟),重點(diǎn)關(guān)注大范圍的運(yùn)動(dòng)連貫性,如整體方向和節(jié)奏。
  • 細(xì)化階段:在生成后期,轉(zhuǎn)向優(yōu)化細(xì)節(jié),如肢體動(dòng)作的微調(diào)和物體交互的物理合理性。

消融實(shí)驗(yàn)表明,作者采用的光流表示和內(nèi)部引導(dǎo)機(jī)制正是VideoJAM實(shí)現(xiàn)高運(yùn)動(dòng)一致性的關(guān)鍵。

論文地址:
https://arxiv.org/abs/2502.02492項(xiàng)目主頁(yè):
https://hila-chefer.github.io/videojam-paper.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-03 08:32:00

模型AI訓(xùn)練

2025-04-28 09:28:14

2024-01-22 08:59:00

AI

2014-05-09 10:29:19

TD-LTELTE FDD4G

2017-07-25 14:38:56

數(shù)據(jù)庫(kù)一致性非鎖定讀一致性鎖定讀

2022-12-14 08:23:30

2024-04-23 08:22:58

Meta緩存系統(tǒng)

2020-06-01 22:09:48

緩存緩存同步緩存誤用

2024-08-20 16:13:52

2025-03-11 10:15:00

模型視頻生成

2021-02-05 08:00:48

哈希算法?機(jī)器

2021-02-02 12:40:50

哈希算法數(shù)據(jù)

2024-03-20 00:00:00

StabilityAI開源人工智能

2025-01-09 13:30:00

2021-07-28 08:39:25

分布式架構(gòu)系統(tǒng)

2019-10-24 10:42:00

CPU內(nèi)存存儲(chǔ)器

2020-05-12 10:43:22

Redis緩存數(shù)據(jù)庫(kù)

2020-11-24 09:03:41

一致性MySQLMVCC

2025-03-27 09:24:16

2022-03-22 09:54:22

Hash算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)