自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))

發(fā)布于 2024-5-11 10:39
瀏覽
0收藏

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2405.03485
代碼&數(shù)據(jù)集鏈接:https://github.com/L-Sun/LGTM


今天和大家一起學(xué)習(xí)下文本生成動(dòng)作方面最新的研究成果:LGTM,一種新穎的用于文本到動(dòng)作生成的局部到全局pipeline。LGTM基于擴(kuò)散的架構(gòu),旨在解決將文本描述準(zhǔn)確轉(zhuǎn)換為計(jì)算機(jī)動(dòng)畫中語義連貫的人體動(dòng)作的挑戰(zhàn)。具體而言,傳統(tǒng)方法通常難以處理語義差異,特別是在將特定動(dòng)作與正確的身體部位對(duì)齊方面存在困難。 


為解決這個(gè)問題,本文提出了一個(gè)兩階段pipeline來克服這個(gè)挑戰(zhàn):首先利用大語言模型(LLMs)將全局動(dòng)作描述分解為部分特定的描述,然后由獨(dú)立的身體部位動(dòng)作編碼器處理,以確保精確的局部語義對(duì)齊。最后,基于注意力的全身優(yōu)化器對(duì)動(dòng)作生成結(jié)果進(jìn)行優(yōu)化,并確保整體一致性。本文的實(shí)驗(yàn)表明,LGTM在生成局部準(zhǔn)確、語義對(duì)齊的人體動(dòng)作方面取得了顯著改進(jìn),標(biāo)志著文本到動(dòng)作應(yīng)用的顯著進(jìn)步。

介紹

在本文中解決了文本到動(dòng)作的問題,即,給定一個(gè)角色動(dòng)作的文本描述,本文旨在自動(dòng)生成合理且逼真的3D人體動(dòng)作。 成功自動(dòng)化此過程對(duì)于各種下游應(yīng)用具有重要潛力,包括為增強(qiáng)和虛擬現(xiàn)實(shí)環(huán)境創(chuàng)建內(nèi)容,推動(dòng)機(jī)器人技術(shù)的進(jìn)步,以及改進(jìn)人機(jī)交互。


作為自然語言處理、機(jī)器學(xué)習(xí)和計(jì)算機(jī)圖形學(xué)交匯處的長(zhǎng)期挑戰(zhàn),文本到動(dòng)作生成近年來受到了廣泛關(guān)注。擴(kuò)散模型的出現(xiàn),正如各種研究所強(qiáng)調(diào)的,推動(dòng)了這一領(lǐng)域的顯著進(jìn)步。盡管取得了這些進(jìn)展,從文本描述生成既在局部語義上準(zhǔn)確又在全局上連貫的動(dòng)作仍然是一個(gè)巨大的障礙。當(dāng)前方法通常難以有效捕捉嵌入在動(dòng)作描述中的微妙的局部語義,并且難以生成與這些語義線索準(zhǔn)確對(duì)齊的動(dòng)作。


特別是,在文本到動(dòng)作合成中,現(xiàn)有方法經(jīng)常遇到諸如局部語義泄露和缺失元素等問題。例如,當(dāng)輸入描述為“一個(gè)男人用他的左腿踢東西”時(shí),這些方法可能錯(cuò)誤地生成與“右踢”相對(duì)應(yīng)的動(dòng)作。類似地,涉及需要多個(gè)身體部位協(xié)調(diào)的復(fù)雜動(dòng)作的prompt經(jīng)常會(huì)導(dǎo)致某些部分的動(dòng)作被省略。本文的觀察揭示了這些方法中的兩個(gè)主要缺點(diǎn)。


首先,大多數(shù)現(xiàn)有技術(shù)都使用單個(gè)全局文本描述符來描述所有局部身體動(dòng)作。這種方法要求網(wǎng)絡(luò)從統(tǒng)一的全局文本來源中學(xué)習(xí)局部動(dòng)作語義與相應(yīng)身體部位之間的關(guān)聯(lián)。這個(gè)過程在文本內(nèi)容在不同身體部位之間相似的情況下尤為困難,導(dǎo)致難以區(qū)分每個(gè)部分的具體動(dòng)作。其次,這些方法中使用的文本編碼器在編碼與動(dòng)作相關(guān)的文本方面的效果有限。這一限制在最近的研究中詳細(xì)說明了不同動(dòng)作文本之間的高特征相似性。編碼文本特征的同質(zhì)性進(jìn)一步加劇了網(wǎng)絡(luò)在區(qū)分和準(zhǔn)確表示局部文本語義中微妙變化方面的困難。


為此,本文提出了一種新穎的基于擴(kuò)散的文本到動(dòng)作生成架構(gòu),稱為LGTM,它擅長(zhǎng)生成既符合文本描述又在局部語義準(zhǔn)確性方面精確的動(dòng)作。LGTM通過一種從局部到全局的方法進(jìn)行操作,結(jié)構(gòu)上分為兩個(gè)主要階段。第一階段實(shí)施了一種有效的策略來解決局部語義準(zhǔn)確性問題。在這里,本文引入了一個(gè)分區(qū)模塊,利用大語言模型(LLMs)將全局動(dòng)作描述分解為針對(duì)每個(gè)身體部位具體的描述。隨后,專用的身體部分動(dòng)作編碼器獨(dú)立處理這些特定于各部位的描述。這種專注的方法通過減少冗余信息和防止語義泄漏有效地避免了局部語義不準(zhǔn)確性,從而保持對(duì)相關(guān)局部語義的清晰關(guān)注。


然而,由于每個(gè)身體部分動(dòng)作編碼器都是獨(dú)立工作的,沒有意識(shí)到其他部分的運(yùn)動(dòng),因此必須同步這些單獨(dú)的動(dòng)作,以避免整體協(xié)調(diào)問題。為了解決這個(gè)問題,LGTM的第二階段引入了基于注意力的全身優(yōu)化器。該組件專門設(shè)計(jì)用于促進(jìn)不同身體部位之間的信息整合,確保整體動(dòng)作不僅在局部上精確,而且在全局上連貫流暢。


為評(píng)估LGTM的有效性,本文進(jìn)一步進(jìn)行了文本驅(qū)動(dòng)的動(dòng)作生成實(shí)驗(yàn),并提供了定量和定性結(jié)果。本文的實(shí)驗(yàn)表明,本文提出的LGTM可以生成更符合輸入文本的忠實(shí)動(dòng)作,無論在局部還是全局上,并且優(yōu)于現(xiàn)有技術(shù)方法。

總結(jié)一下,本文的貢獻(xiàn)如下:

  • 本文提出了LGTM,一種新穎的基于擴(kuò)散的架構(gòu),可以將文本描述轉(zhuǎn)化為準(zhǔn)確和連貫的人體動(dòng)作,相比之前的文本到動(dòng)作方法有了顯著的改進(jìn)。
  • LGTM引入了一個(gè)獨(dú)特的分區(qū)模塊,利用LLMs將復(fù)雜的動(dòng)作描述分解為特定于每個(gè)部位的描述。這顯著提高了動(dòng)作生成中的局部語義準(zhǔn)確性。
  • 本文的實(shí)驗(yàn)證明了獨(dú)立的身體部位運(yùn)動(dòng)編碼器與基于注意力的全身優(yōu)化器的有效集成,確保了生成動(dòng)作的局部精度和全局一致性,為文本到動(dòng)作生成提供了有希望的改進(jìn)。

相關(guān)工作

運(yùn)動(dòng)序列的生成是計(jì)算機(jī)圖形領(lǐng)域長(zhǎng)期以來的挑戰(zhàn),其目標(biāo)是根據(jù)條件控制信號(hào)生成一系列運(yùn)動(dòng)幀。鑒于本文的方法是以基于身體分區(qū)的文本到動(dòng)作合成為中心,本文探索了兩個(gè)主要方面的相關(guān)文獻(xiàn):身體分區(qū)建模和文本到動(dòng)作生成。


基于部分的運(yùn)動(dòng)建模。將人體分割為不同的部分有助于在更細(xì)粒度的水平上控制運(yùn)動(dòng)合成,從而實(shí)現(xiàn)局部調(diào)整。


一些研究探討了將各個(gè)身體部分的運(yùn)動(dòng)組合起來合成新的運(yùn)動(dòng)的概念。[Hecker等人,2008] 提出了一種重新定位算法,將運(yùn)動(dòng)組合到單個(gè)身體部位的水平上,以生成多樣化的角色動(dòng)畫。[Jang等人,2008] 將運(yùn)動(dòng)分為上半身和下半身兩個(gè)部分,通過算法將它們合并,以擴(kuò)充其運(yùn)動(dòng)數(shù)據(jù)庫。[Soga等人,2016] 通過關(guān)注身體分區(qū)來從現(xiàn)有數(shù)據(jù)集中合成舞蹈動(dòng)作。[Jang等人,2022] 在部分水平進(jìn)行風(fēng)格轉(zhuǎn)移,利用圖卷積網(wǎng)絡(luò)將不同身體部位的運(yùn)動(dòng)組合成新的、連貫的序列,保持局部風(fēng)格的同時(shí)將其轉(zhuǎn)移到特定的身體部位,而不影響其他部位或整個(gè)身體的完整性。然而,這些方法依賴于預(yù)先存在的運(yùn)動(dòng)數(shù)據(jù),因此更準(zhǔn)確地描述為合成而不是生成。


為了實(shí)現(xiàn)更詳細(xì)的局部控制,[Starke等人,2020] 提出了一種基于身體分區(qū)的局部相位模型,用于生成籃球運(yùn)動(dòng)員的動(dòng)作,相比于全局相位方法[Starke等人,2019;Zhang等人,2018],實(shí)現(xiàn)了更高的局部保真度。[Starke等人,2021] 引入了一種神經(jīng)動(dòng)畫分層技術(shù),將由控制模塊產(chǎn)生的不同身體部位的軌跡結(jié)合起來,為動(dòng)畫師提供了更細(xì)粒度的控制,實(shí)現(xiàn)了高質(zhì)量的運(yùn)動(dòng)生成。[Lee等人,2022] 開發(fā)了一種用于重新組裝基于物理的部分運(yùn)動(dòng)的算法,允許將具有不同骨骼結(jié)構(gòu)的角色的部分運(yùn)動(dòng)組合在一起。通過在物理模擬的虛擬環(huán)境中操作,他們采用部分時(shí)間彎曲和基于優(yōu)化的組裝,以確保改善空間和時(shí)間上的對(duì)齊。[Bae等人,2023] 利用部分運(yùn)動(dòng)鑒別器增強(qiáng)運(yùn)動(dòng)的多樣性,并利用全局控制策略來保持運(yùn)動(dòng)的物理真實(shí)性。


文本提供了一個(gè)用戶友好的界面,用于指導(dǎo)動(dòng)作生成,因?yàn)樗子谑褂貌⒕哂芯庉嬆芰?。然而,通過文本精確控制生成動(dòng)作的結(jié)果是一個(gè)重要挑戰(zhàn)。在這一小節(jié)中,本文將研究文本到動(dòng)作生成技術(shù),并確定它們的局限性。


某些文本到動(dòng)作的方法基于編碼器-解碼器架構(gòu),重點(diǎn)是在統(tǒng)一的潛在空間內(nèi)對(duì)齊模態(tài)。[Ahuja 和 Morency 2019]通過在編碼動(dòng)作和文本之間交替訓(xùn)練他們的網(wǎng)絡(luò),然后將它們解碼回動(dòng)作,從而隱式地對(duì)齊這兩種模態(tài)。[Ghosh 等 2021;Petrovich 等 2022]同時(shí)對(duì)文本和動(dòng)作進(jìn)行編碼,并將它們解碼為動(dòng)作,利用額外的損失函數(shù)將模態(tài)在潛在空間內(nèi)更加接近。這些方法在從長(zhǎng)文本描述中生成動(dòng)作時(shí)遇到困難。[Athanasiou 等 2022]通過自回歸方式生成短動(dòng)作剪輯來解決長(zhǎng)動(dòng)作生成的問題,但這需要將長(zhǎng)文本描述手動(dòng)分割成較短的段落并指定動(dòng)作的持續(xù)時(shí)間。


為了利用視覺先驗(yàn),[Tevet 等 2022a]使用了一個(gè)凍結(jié)的 CLIP [Radford 等 2021] 文本編碼器來編碼動(dòng)作描述,并將動(dòng)作的潛在空間與 CLIP 的潛在空間對(duì)齊。然而,用于對(duì)齊的圖像來自于隨機(jī)的動(dòng)作幀,當(dāng)幀不具代表性時(shí),網(wǎng)絡(luò)可能會(huì)產(chǎn)生困惑。此外,[Petrovich 等 2023]觀察到,動(dòng)作描述在 CLIP 的潛在空間中往往聚集得很密集,因?yàn)榕c用于訓(xùn)練 CLIP 的更廣泛的文本數(shù)據(jù)集相比,動(dòng)作相關(guān)文本的分布更窄。


最近發(fā)展的神經(jīng)擴(kuò)散模型在圖像生成方面啟發(fā)了利用這些模型實(shí)現(xiàn)更高質(zhì)量的文本到動(dòng)作方法。[Tevet 等 2022b;Zhang 等 2022]利用Transformer對(duì)文本條件下的動(dòng)作進(jìn)行去噪處理。[Chen 等 2023b]引入了基于 U-Net 的 DDIM 生成模型來對(duì)潛在空間中的動(dòng)作進(jìn)行去噪處理,從而加速了生成過程。然而,這些方法缺乏通過masking來控制局部動(dòng)作生成的能力。此外,它們?cè)趯W(xué)習(xí)正確的局部語義映射方面存在困難,因?yàn)樗猩眢w部位共享相同的文本信息,這可能導(dǎo)致語義不匹配的部分運(yùn)動(dòng)。


將動(dòng)作處理為離散空間中的token預(yù)測(cè)是動(dòng)作生成的另一種方法。但是,這些方法的局限性在于codebook的表達(dá)能力可能會(huì)限制生成動(dòng)作的多樣性,從而可能導(dǎo)致文本輸入被映射到不符合預(yù)期的動(dòng)作。


控制局部動(dòng)作語義的挑戰(zhàn)源于:

  • 在所有身體部位之間共享文本信息,
  • 網(wǎng)絡(luò)難以區(qū)分由CLIP編碼的文本潛在代碼。

這些因素導(dǎo)致了在動(dòng)作生成中實(shí)現(xiàn)精確的局部語義控制的困難,從而引發(fā)了語義泄漏等問題。


受先前研究中的技術(shù)進(jìn)展和挑戰(zhàn)的啟發(fā),本文提出了一種新穎的框架,將身體部位分割與獨(dú)立的局部動(dòng)作語義注入以及全局語義聯(lián)合優(yōu)化策略相結(jié)合。該框架旨在增強(qiáng)文本到動(dòng)作合成的逼真度和可控性,滿足對(duì)更加細(xì)致和準(zhǔn)確的動(dòng)作生成的需求。

方法

在本節(jié)中,本文深入探討了 LGTM 的具體細(xì)節(jié),如下圖 2 所示。LGTM 結(jié)構(gòu)化為一個(gè)從局部到全局的生成框架,首先創(chuàng)建局部的、部位級(jí)別的動(dòng)作,然后通過全局融合和優(yōu)化過程生成最終的全身動(dòng)作。在其核心,LGTM 通過將全身文本和動(dòng)作空間細(xì)分為部位特定的子空間來操作。這種細(xì)分由一個(gè)專用的分區(qū)模塊巧妙處理。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

對(duì)于每個(gè)子空間,本文開發(fā)了專門的部位動(dòng)作編碼器。這些編碼器被訓(xùn)練成獨(dú)立學(xué)習(xí)部位級(jí)別動(dòng)作和部位級(jí)別文本之間的一系列映射關(guān)系。這種策略有效地緩解了以前方法中出現(xiàn)的局部語義映射不正確的問題。在進(jìn)行局部編碼之后,LGTM 引入了一個(gè)全身動(dòng)作優(yōu)化器,建立各個(gè)子空間之間的關(guān)聯(lián),確保最終全身動(dòng)作的一致性和連貫性。下面,本文詳細(xì)解釋了 LGTM 中每個(gè)模塊的功能和細(xì)節(jié)。

初步:人體運(yùn)動(dòng)擴(kuò)散模型

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

劃分模塊

劃分模塊旨在為每個(gè)身體部位的部分運(yùn)動(dòng)編碼器注入局部語義。在實(shí)踐中,輸入對(duì) (M, T) 被劃分為六個(gè)部分,包括頭部、左臂、右臂、軀干、左腿和右腿。

運(yùn)動(dòng) M 被分解如下:

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)


對(duì)于動(dòng)作描述 ??,本文利用LLM的知識(shí)推理能力將其分解為六個(gè)部分:,使用精心設(shè)計(jì)的prompt。 prompt包括三個(gè)部分:任務(wù)定義、輸出要求和一些輸出示例。任務(wù)定義指示LLM提取每個(gè)動(dòng)作部分的主要描述。輸出要求告訴LLM本文需要結(jié)構(gòu)化輸出,如JSON格式、身體部位命名等。然后,本文采用了少量樣本的方法來指導(dǎo)LLM生成所需的輸出。有關(guān)本文prompt的更多詳細(xì)信息,請(qǐng)參閱原文補(bǔ)充材料。 分解的描述示例如下表1所示。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

部分動(dòng)作編碼器

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

全身運(yùn)動(dòng)優(yōu)化

由于每個(gè)部分的動(dòng)作和文本都是獨(dú)立編碼為,因此網(wǎng)絡(luò)將忽略不同身體部位之間的相關(guān)性。因此,本文提出全身動(dòng)作優(yōu)化器??通過根據(jù)全身文本信息調(diào)整每個(gè)身體部位的運(yùn)動(dòng)來建立相關(guān)性。


SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

最后,本文將潛在代碼投影到原始特征維度,并得到干凈的動(dòng)作Mo 。全身動(dòng)作優(yōu)化器可以表述為:

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

結(jié)果

在本節(jié)中,展示了由本文的方法生成的動(dòng)作,并與其他文本驅(qū)動(dòng)的動(dòng)作生成方法進(jìn)行了比較分析。此外,本文進(jìn)行了幾項(xiàng)消融研究,以突顯本文框架中各個(gè)組件的貢獻(xiàn)。

實(shí)施細(xì)節(jié)

part-level的動(dòng)作描述是由ChatGPT生成的(gpt3.5-turbo-1106)模型。本文的模型使用AdamW優(yōu)化器進(jìn)行訓(xùn)練,采用快速溫和余弦衰減的學(xué)習(xí)率衰減策略。初始學(xué)習(xí)率為,batch size為64。擴(kuò)散步數(shù)為1K。本文的模型在HumanML3D數(shù)據(jù)集上的訓(xùn)練時(shí)間約為在3個(gè)NVIDIA RTX 4090 GPU上進(jìn)行8小時(shí)。

定性結(jié)果

下圖4顯示了本文方法生成的幾個(gè)示例結(jié)果。本文可以看到,本文的方法能夠生成具有精確局部語義的動(dòng)作,例如身體部位語義對(duì)應(yīng)和動(dòng)作時(shí)間順序,因?yàn)楸疚牡姆椒í?dú)立地將局部語義信息注入到相應(yīng)的部位中,而整體動(dòng)作優(yōu)化器在空間和時(shí)間域中構(gòu)建了正確的身體部位之間的關(guān)系。例如,“一個(gè)人向前傾身然后跳得很高”的結(jié)果顯示了角色確實(shí)按正確的順序傾身然后跳躍。而“一個(gè)人用手鎖住他的臉,然后做一些舞蹈動(dòng)作,但沒有用腿” 的結(jié)果表明角色在跳舞時(shí)保持了正確的手和臉之間的空間關(guān)系。而“一個(gè)人用右腳做空中踢腿”的結(jié)果顯示角色確實(shí)用正確的身體部位進(jìn)行踢腿。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

本文還提供了與兩種基準(zhǔn)方法(包括MDM和 MLD)的視覺比較。下圖5顯示了本文的方法能夠生成更具語義匹配的動(dòng)作。在第一行中,角色在本文的結(jié)果中可以用兩只手拿東西,而在MDM中只能用左手。在第二行中,角色在本文的結(jié)果中只用左腳正確跳躍,而在MDM中雙腳跳躍,而在MLD中不跳躍。在第三行中,MDM的結(jié)果包含奇怪的姿勢(shì),而MLD不包含“拍手”,但本文的結(jié)果更正確。最后一行顯示,對(duì)于更復(fù)雜的文本輸入,本文的方法能夠生成比這兩種基線方法更語義準(zhǔn)確的結(jié)果。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

定量評(píng)價(jià)

評(píng)估指標(biāo)。 為了定量評(píng)估本文的方法,本文使用了[Guo等人,2022a]提出的指標(biāo),包括:

  • (1)Fréchet Inception Distance(FID),評(píng)估生成的動(dòng)作質(zhì)量與真實(shí)動(dòng)作分布之間的差異;
  • (2)多樣性(DIV),計(jì)算生成動(dòng)作的方差;
  • (3)R Precision,計(jì)算生成動(dòng)作與相應(yīng)文本描述之間的前n匹配精度;
  • (4)多模態(tài)距離(MM Dist),計(jì)算配對(duì)的動(dòng)作和文本之間的距離;
  • (5)部分級(jí)別多模態(tài)相似度(PMM Sim),計(jì)算部分級(jí)別配對(duì)的動(dòng)作和文本之間的歸一化余弦相似度。


這些指標(biāo)是在潛在空間中使用T2M的文本編碼器和動(dòng)作編碼器計(jì)算的,就像之前的工作一樣。由于本文的方法提供了對(duì)生成動(dòng)作的詳細(xì)控制,本文還使用部分級(jí)別多模態(tài)相似度(PMM Sim)將本文的方法與基線方法進(jìn)行了比較,通過訓(xùn)練部分級(jí)別文本編碼器和動(dòng)作編碼器進(jìn)行對(duì)比學(xué)習(xí),這與TMR相似,本文認(rèn)為這樣做可以使?jié)撛诳臻g中的動(dòng)作樣本更加分散,使得不同的動(dòng)作更容易被區(qū)分。具體來說,本文在TMR潛在空間中計(jì)算PMM Sim如下:

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

在這里, 和  分別通過TMR編碼器對(duì)部分級(jí)別的動(dòng)作和文本進(jìn)行編碼獲得。雖然本文主要關(guān)注語義可控生成,但本文也評(píng)估了文本到動(dòng)作合成中的常見偽影。本文使用[Yuan等人,2022]介紹的三個(gè)具體指標(biāo)對(duì)生成的動(dòng)作進(jìn)行評(píng)估:滑動(dòng)、穿透和浮動(dòng)。


比較結(jié)果。 全身動(dòng)作的比較結(jié)果顯示在下表2中,部分級(jí)別動(dòng)作的比較結(jié)果顯示在下表3中。下表2中的FID和DIV指標(biāo)表明本文的方法生成了更加真實(shí)和多樣化的動(dòng)作。R Precision 和 MM Dist 表明本文的方法能夠生成更好的全局語義匹配的動(dòng)作。下表3還表明本文的方法實(shí)現(xiàn)了最佳的局部語義匹配,性能非常接近真實(shí)數(shù)據(jù)。本文的局部到全局設(shè)計(jì)獨(dú)立地將局部語義信息注入到身體部位,并與全局語義一起進(jìn)行細(xì)化,這為網(wǎng)絡(luò)提供了更準(zhǔn)確和結(jié)構(gòu)化的語義信息,有助于生成,并因此實(shí)現(xiàn)更高的質(zhì)量。對(duì)于偽影評(píng)估,如下表4所示,本文可以看到每種方法在毫米尺度上表現(xiàn)非常接近真實(shí)數(shù)據(jù)(Real行)。偽影可以歸因于數(shù)據(jù)集固有的質(zhì)量差異。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

消融實(shí)驗(yàn)

本文設(shè)計(jì)了兩個(gè)主要實(shí)驗(yàn)來評(píng)估本文方法的不同組成部分的影響。第一個(gè)實(shí)驗(yàn)研究了不同文本編碼器對(duì)動(dòng)作質(zhì)量的影響。第二個(gè)實(shí)驗(yàn)評(píng)估了全身動(dòng)作優(yōu)化器對(duì)本文方法生成的動(dòng)作質(zhì)量的影響。


文本編碼器的重要性。 本文通過用CLIP替換本文預(yù)訓(xùn)練的文本編碼器進(jìn)行測(cè)試,展示了本文使用的TMR文本編碼器可以捕捉更詳細(xì)的語義。此外,本文還呈現(xiàn)了使用CLIP或TMR文本編碼器獲得的MDM的結(jié)果,以進(jìn)行比較。


下表5和下表6分別評(píng)估了全身和部分級(jí)別的動(dòng)作質(zhì)量??傮w而言,本文觀察到使用TMR文本編碼器通常會(huì)產(chǎn)生比使用CLIP更好的結(jié)果,無論是對(duì)于本文的方法還是MDM,以及無論是對(duì)于局部還是全局質(zhì)量。當(dāng)將本文的方法與使用相同文本編碼器的MDM進(jìn)行比較時(shí),本文的方法通常表現(xiàn)更好,進(jìn)一步證明了本文局部到全局設(shè)計(jì)的優(yōu)越性。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

Conformer的影響。 將Transformer替換為Conformer是為了提高部分動(dòng)作編碼器的動(dòng)作質(zhì)量。為了驗(yàn)證改進(jìn),本文比較了兩種配置的全局質(zhì)量指標(biāo)。從下表7和下表8中,本文觀察到使用Conformer的LGTM可以獲得比使用Transformer更好的質(zhì)量和語義匹配性能。這種改進(jìn)可以歸因于Conformer的卷積模塊,它比自注意力更好地捕捉了局部特征。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

全身動(dòng)作優(yōu)化器的重要性。 本文的全身動(dòng)作優(yōu)化器的目標(biāo)是建立不同身體部位運(yùn)動(dòng)之間的相關(guān)性,并改善全身運(yùn)動(dòng)的協(xié)調(diào)性。為了驗(yàn)證其效果,本文將其與“w/o opt”設(shè)置進(jìn)行比較,其中本文去除了本文全身優(yōu)化器的關(guān)鍵組件,即注意力編碼器。從下表9和下表10中可以看出,沒有優(yōu)化器,局部動(dòng)作質(zhì)量下降,全身動(dòng)作質(zhì)量也明顯較差;參見下圖6中的一個(gè)示例結(jié)果。沒有全身動(dòng)作優(yōu)化器,角色的兩只腳在運(yùn)動(dòng)過程中無法很好地協(xié)調(diào)步伐交替,因?yàn)槿狈π畔⒔粨Q。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

結(jié)論

本文提出了LGTM用于文本到動(dòng)作的生成,這顯著提高了從文本描述中衍生的3D人體動(dòng)作的準(zhǔn)確性和連貫性。通過將大語言模型與局部到全局的生成框架結(jié)合起來,本文的方法有效地解決了語義映射和動(dòng)作連貫性的關(guān)鍵挑戰(zhàn)。


限制和未來工作。 由于本文使用ChatGPT進(jìn)行動(dòng)作描述分解,因此局部語義映射取決于ChatGPT的推理能力。不正確的分解或映射可能導(dǎo)致不令人滿意的動(dòng)作生成結(jié)果。例如,在生成“高爾夫揮桿”動(dòng)作時(shí),這需要高水平和全身協(xié)調(diào),LGTM會(huì)遇到困難,因?yàn)镃hatGPT識(shí)別到右手揮動(dòng)高爾夫球桿,但未能將這種推理分解為每個(gè)身體部位的一系列低級(jí)動(dòng)作。

結(jié)果是網(wǎng)絡(luò)生成了一個(gè)不可信的動(dòng)作,如下圖7所示。此外,在數(shù)據(jù)集中的含糊不清的文本可能會(huì)在訓(xùn)練過程中使網(wǎng)絡(luò)混淆。例如,短語“一個(gè)人執(zhí)行動(dòng)作A和動(dòng)作B”可能暗示這些動(dòng)作同時(shí)發(fā)生或順序發(fā)生,導(dǎo)致輸出可能與用戶期望不一致。通過提供更詳細(xì)的時(shí)間描述,可以緩解這個(gè)問題。此外,由于數(shù)據(jù)集中樣本長(zhǎng)度有限,本文當(dāng)前的框架無法始終生成高質(zhì)量的長(zhǎng)期動(dòng)作。對(duì)于未來的工作,一個(gè)有前途的方向是將本文的局部到全局的思想與那些基于VQ-VAE的方法(如TM2T和MotionGPT)結(jié)合起來,通過構(gòu)建部分級(jí)別的動(dòng)作片段作為動(dòng)作token,進(jìn)行更詳細(xì)的動(dòng)作生成,以獲得不同部分級(jí)別的動(dòng)作組合。

SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成!LGTM:文本驅(qū)動(dòng)!(深大&快手&字節(jié))-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Haowen Sun等


原文鏈接:??https://mp.weixin.qq.com/s/Svzim92SBAbTfrPLqrbg8Q??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦