雙人動作生成新SOTA!浙大提出TIMotion框架 | CVPR 2025
雙人動作生成新SOTA!
針對Human-human motion generation問題,浙江大學(xué)提出了一種對雙人運動序列進行時序和因果建模的架構(gòu)TIMotion,論文已發(fā)表于CVPR 2025。
具體來說,通過分別利用運動序列時間上的因果關(guān)系和兩人交互過程中的主動被動關(guān)系,TIMotion設(shè)計了兩種有效的序列建模方式。
此外還設(shè)計了局部運動模式增強,使得生成的運動更加平滑自然。
同一提示詞下,使用TIMotion和當前SOTA方法Intergen對比如下:
(翻譯版)這兩個人傾斜著身子,面對面,玩起了石頭剪刀布。與此同時,有一個人選擇出布。
仔細對比手部動作,可以看出TIMotion的生成效果更好。
除此之外,實驗結(jié)果顯示,TIMotion在InterHuman和InterX數(shù)據(jù)集上均達到了SOTA效果。
下面具體來看。
全新瞄準雙人動作生成
在生成式計算機視覺領(lǐng)域,人類動作生成對計算機動畫、游戲開發(fā)和機器人控制都具有重要意義。
近年來,在用戶指定的各種條件的驅(qū)動下,人類動作生成技術(shù)取得了顯著進步。其中,許多利用大語言模型和擴散模型的方法得益于其強大的建模能力,在生成逼真而多樣的動作方面取得了令人矚目的成果。
盡管取得了這一進展,但現(xiàn)有的大多數(shù)方法主要是針對單人運動場景而設(shè)計的,因此忽略了人體運動的一個關(guān)鍵因素:人與人之間復(fù)雜而動態(tài)的互動。
為了更好地探索雙人動作生成,研究團隊首先抽象出了一個通用框架MetaMotion,如圖1左側(cè)所示,它由兩個階段組成:時序建模和交互混合。
以往的方法優(yōu)先考慮的是交互混合而非時序建模,主要分為以下兩類:
- 基于單人生成方法的擴展
- 基于單人建模的方法
如圖(a)所示,基于單人生成方法的擴展會將兩個人合并成一個人,然后將其輸入現(xiàn)有的單人運動生成模塊之中?;趩稳私5姆椒ㄈ鐖D(b)所示,是對兩個個體單獨建模,然后分別使用自我注意和交叉注意機制,從兩個個體自身和對方身上提取運動信息。
按照MetaMotion的一般邏輯,團隊提出了 “時空交互框架”(Temporal and Interactive Framework),如圖(c)所示,該框架模擬了人與人之間的因果互動,這種有效的時序建模方法可以簡化交互混合模塊的設(shè)計,減少可學(xué)習(xí)參數(shù)的數(shù)量。
提出雙人動作生成架構(gòu)TIMotion
團隊首次提出了用于雙人動作生成的核心概念 “MetaMotion”。
如上圖所示,他們將雙人運動生成過程抽象為兩個階段:時序建模和交互混合。
具體來說,兩個單人序列通過時序建模模塊得到輸入序列。然后,輸入序列被送入交互混合模塊,這一過程可表示為其中,InteractionMixing通常是Transformer結(jié)構(gòu),包括自注意和交叉注意機制。
值得注意的是,InteractionMixing也可以是一些新興結(jié)構(gòu),比如Mamba、RWKV等等。
TIMotion
TIMotion的整體架構(gòu)如下圖所示,主要包含三個部分:(1) Causal Interactive Injection; (2) Role-Evolving Scanning; (3) Localized Pattern Amplification。
Causal Interactive Injection
運動的自我感知以及與他人運動的交互感知是雙人運動生成的關(guān)鍵要素。
考慮到運動的因果屬性,團隊提出了 “因果互動注入”(Causal Interactive Injection)這一時序建模方法,以同時實現(xiàn)對自我運動的感知和兩人之間的互動。
具體來說,團隊用表示兩個單人運動序列,其中
和
是各自的運動序列,L是序列的長度。
由于兩個人在當前時間步的運動是由他們在之前時間步的運動共同決定的,因此團隊將兩個人的運動序列建模為一個因果交互序列,符號 // 表示除法后四舍五入,k可以通過下式獲得:
然后,團隊可以將它們注入交互混合模塊,并根據(jù)k的定義將兩個個體的動作特征從輸出結(jié)果中分離出來。
Role-Evolving Scanning
人類在交互過程中通常存在一定的內(nèi)在順序,例如,“握手”通常由一個人先伸出手,這意味著交互動作可以被分為主動運動和被動運動。
一些方法將文本描述分為主動和被動語態(tài)。
然而,隨著互動的進行,“主動方”和“被動方”不斷在兩人之間交換,如圖3所示。
為了避免冗余的文本預(yù)處理并且適應(yīng)角色的不斷變化,論文設(shè)計了一種高效且有效的方法:角色演變掃描(Role-Evolving Scanning)。
對于在Causal Interactive Injection中定義的因果交互序列x,顯然a和b分別代表了主動方運動序列和被動方運動序列。然而這種關(guān)于主動和被動序列的假設(shè)并不總是符合實際順序。
為了應(yīng)對角色的變化,論文將因果交互序列重新建模為對稱因果交互序列,k’由下式得到:
給定因果交互序列和對稱因果交互序列,論文通過角色演變掃描得到最終的雙人交互序列:
然后序列X被送入交互混合模塊得到動作的特征。
接下來,分別按照特征通道和時間的維度將兩個人的特征取出,并按照元素相加得到兩人交互后的最終特征,特征split和fuse過程如下式:
其中表示按元素相加。
通過利用 “角色演變掃描 ”技術(shù)讓兩個人同時扮演主動和被動角色,網(wǎng)絡(luò)可以根據(jù)文本的語義和動作的上下文動態(tài)調(diào)整兩個人的角色。
Localized Pattern Amplification
因果交互注入和角色演變掃描主要基于雙人互動之間的因果關(guān)系來建模整體運動,但忽視了對局部運動模式的關(guān)注。
為了解決這個問題,論文提出了局部運動模式增強(Localized Pattern Amplification),通過捕捉每個人的短期運動模式,使得生成更加平滑和合理的運動。
具體來說,論文利用一維卷積層和殘差結(jié)構(gòu)來實現(xiàn)局部運動模式增強。給定條件嵌入和兩個單人的運動序列,可以建立下式的結(jié)構(gòu):
其中Convk表示卷積核為k的一維卷積,AdaLN為自適應(yīng)層正則化。
得到全局輸出和局部輸出
后,兩者通過特征通道維度的進行Concat,然后通過線性層對特征進行轉(zhuǎn)換,得到最終輸出特征:
通過這種方式,能夠捕捉每個人的短期動作模式,并將其與條件嵌入結(jié)合,從而生成更平滑和更合理的動作序列。
目標函數(shù)
論文采用了常見的單人動作損失函數(shù),包括足部接觸損失和關(guān)節(jié)速度損失。
此外,還使用了與InterGen相同的正則化損失函數(shù),包括骨長度損失、掩碼關(guān)節(jié)距離圖損失和相對方向損失。
最終,總體損失定義為:
實驗結(jié)果
在InterHuman數(shù)據(jù)集上,TIMotion在三個不同的交互混合結(jié)構(gòu)(Transformer, Mamba, RWKV)上都獲得了較好的表現(xiàn),其中TIMotion和RWKV結(jié)構(gòu)相結(jié)合FID達4.702,Top1 R precision達到0.501,達到了SOTA。
在InterX數(shù)據(jù)集上,TIMotion在R precision,F(xiàn)ID, MM Dist等度量指標上也達到了最優(yōu)的表現(xiàn)。
在計算復(fù)雜度方面,論文將TIMotion與當前最先進的方法InterGen進行了比較。
與InterGen相比,TIMotion所需的參數(shù)和FLOPs更少,但在綜合指標FID和R Precision方面優(yōu)于InterGen。
值得注意的是,使用與InterGen類似的Transformer架構(gòu),TIMotion每個樣本的平均推理時間僅為0.632秒,而InterGen則需要1.991秒。
論文在InterHuman的測試集上進行了運動編輯的實驗,通過給定序列的前10%和后10%幀讓模型預(yù)測額外80%幀的序列來進行評估方法的可編輯性。
Table 6顯示了TIMotion在運動插值編輯任務(wù)中,在所有度量指標上都超越了InterGen。
總結(jié)
論文將雙人運動生成過程抽象為一個通用框架MetaMotion,其中包括兩個階段:時間建模和交互混合。
研究發(fā)現(xiàn),由于目前的方法對時序建模的關(guān)注不足,導(dǎo)致次優(yōu)結(jié)果和模型參數(shù)冗余。
在此基礎(chǔ)上,團隊提出了TIMotion,這是一種高效、出色的雙人運動生成方法。
具體來說,他們首先提出了Causal Interactive Injection,利用時序和因果屬性將兩個獨立的擔(dān)任序列建模為一個因果序列。
此外,還提出了Role-Evolving Mixing來適應(yīng)整個互動過程中的動態(tài)角色,并設(shè)計了Localized Pattern Amplification來捕捉短期運動模式,從而生成更平滑、更合理的運動。
TIMotion在兩個大規(guī)模雙人運動生成的數(shù)據(jù)集InterHuman和InterX上均達到了SOTA的效果,證明了論文所提出方法的有效性。
因此,TIMotion為Human-human motion generation提供了一個有效的解決方案。
論文:
https://arxiv.org/abs/2408.17135
項目主頁:
https://aigc-explorer.github.io/TIMotion-page/