CVPR 2024 | 長(zhǎng)時(shí)舞蹈生成:數(shù)秒鐘可生成極長(zhǎng)的3D舞蹈
以下視頻來(lái)源于
THUSIGSICLAB
論文題目:
Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives
論文鏈接:
??https://arxiv.org/abs/2403.10518??
主頁(yè)鏈接:
??https://li-ronghui.github.io/lodge???
代碼鏈接:??https://github.com/li-ronghui/LODGE???
一、 研究動(dòng)機(jī)
近年來(lái),隨著生成式人工智能的快速發(fā)展,現(xiàn)有方法如FineDance[1] ,EDGE[2]已經(jīng)展示出了數(shù)秒鐘高質(zhì)量舞蹈的能力。然而,實(shí)際應(yīng)用中的舞蹈表演和社交舞通常持續(xù)3至5分鐘,舞蹈劇可以持續(xù)15分鐘以上。因此,現(xiàn)有的舞蹈生成算法難以滿足實(shí)際需求,而如何生成高質(zhì)量的長(zhǎng)序列舞蹈動(dòng)作成為了正待解決的問題。然而,生成長(zhǎng)序列的舞蹈仍面臨著不少挑戰(zhàn):
- 長(zhǎng)序列數(shù)據(jù)顯著增大了計(jì)算開銷,如何開發(fā)計(jì)算友好的方法,提高訓(xùn)練和推理階段的效率?
- 現(xiàn)有的方法主要采用自回歸模型,迭代地生成長(zhǎng)序列舞蹈。然而這些方法往往面臨著誤差累積問題,且無(wú)法學(xué)習(xí)到全局的編舞規(guī)律。
- 由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練只關(guān)注與整體loss的收斂,因此網(wǎng)絡(luò)更傾向于生成保守的動(dòng)作,這導(dǎo)致了最終的舞蹈缺少富有表現(xiàn)力的動(dòng)作,展現(xiàn)出了平淡和中庸的效果。
我們認(rèn)為現(xiàn)有的方法僅僅將舞蹈生成視為序列到序列的生成問題,他們努力提高細(xì)粒度局部細(xì)節(jié)的舞蹈質(zhì)量,而忽略了音樂和舞蹈之間的全局編舞規(guī)律。參考[3][4],舞蹈通常是以從粗到細(xì)的方式編排的。提供完整的音樂,舞蹈設(shè)計(jì)師首先分析節(jié)奏、流派、情緒基調(diào)等音樂屬性,創(chuàng)造出“characteristic dance phrases”,即一些短暫的動(dòng)作片段,具有強(qiáng)大的表現(xiàn)力和更豐富的語(yǔ)義信息。在這個(gè)階段,舞蹈設(shè)計(jì)師可以集中精力設(shè)計(jì)具有有特點(diǎn)的舞蹈短語(yǔ),例如“倒立”和“太空步”。這些具有特色的舞蹈樂句按照音樂的結(jié)構(gòu)化信息進(jìn)行排列,整體的舞蹈結(jié)構(gòu)就奠定了。隨后,通過將舞蹈短語(yǔ)與過渡動(dòng)作連接起來(lái),創(chuàng)作出整個(gè)舞蹈。
有了以上的認(rèn)識(shí)之后,我們認(rèn)為“dance phrases”包含豐富的獨(dú)特動(dòng)作,可以傳遞全局的舞蹈模式。因此,與dance phrases類似,我們提出了適合網(wǎng)絡(luò)學(xué)習(xí)的 characteristic dance primitives。這些dance primitives是具有高運(yùn)動(dòng)能量的富有表現(xiàn)力的8幀關(guān)鍵動(dòng)作,具有以下主要優(yōu)點(diǎn):(1)它們是稀疏的,從而減少了計(jì)算需求。(2)它們具有豐富的語(yǔ)義信息,并且可以傳遞編舞模式。(3)它們具有富有表現(xiàn)力的運(yùn)動(dòng)特征,可以指導(dǎo)運(yùn)動(dòng)擴(kuò)散模型產(chǎn)生更多的動(dòng)態(tài)運(yùn)動(dòng)并避免單調(diào)。
接下來(lái),我們?cè)O(shè)計(jì)了一個(gè)具有兩個(gè)運(yùn)動(dòng)擴(kuò)散模型的從粗到細(xì)的舞蹈生成框架,并采用 characteristic dance primitives 作為它們的中間表示。第一階段是粗粒度的全局?jǐn)U散模型,它以長(zhǎng)音樂作為輸入并產(chǎn)生dance primitives。隨后,我們采用并行局部擴(kuò)散模型來(lái)獨(dú)立生成短舞蹈片段。基于一些已經(jīng)生成的dance primitives,我們可以利用擴(kuò)散引導(dǎo)來(lái)嚴(yán)格限制這些片段的開頭和結(jié)尾之間的一致性。因此,這些舞蹈片段可以串聯(lián)成一段連續(xù)的長(zhǎng)舞蹈。同時(shí),dance primitives的引導(dǎo)下,每個(gè)舞蹈片段的質(zhì)量、表現(xiàn)力和多樣性都得到增強(qiáng)。
綜上所述,我們的主要貢獻(xiàn)如下:
- 我們提出了一個(gè)可以并行生成長(zhǎng)舞蹈的擴(kuò)散模型。我們的方法能夠?qū)W習(xí)整體的編舞模式,同時(shí)保證局部動(dòng)作的質(zhì)量。并行生成策略可以在數(shù)秒鐘生成極長(zhǎng)的3D舞蹈。
- 我們提出了characteristic dance primitives作為兩個(gè)擴(kuò)散模型之間的中間表示,提高了生成舞蹈的張力。
- 我們提出了一個(gè)腳部?jī)?yōu)化模塊,并采用足部與地面的接觸損失來(lái)緩解腳步和地面接觸的問題諸如腳滑、腳部漂浮和腳與地面穿模等。
二、方法
為了同時(shí)考慮全局編舞規(guī)律和局部舞蹈質(zhì)量,我們?cè)O(shè)計(jì)了一個(gè)由粗到細(xì)的兩階段的擴(kuò)散網(wǎng)絡(luò),分別是Global Diffusion Model和Local Diffusion Model。兩個(gè)模型可以獨(dú)立地訓(xùn)練。Global Diffusion Model在更大的時(shí)間尺度上學(xué)習(xí)全局編舞規(guī)律,為了讓Global Diffusion生成characteristic dance primitives,我們從對(duì)應(yīng)的舞蹈序列種提取一些運(yùn)動(dòng)速度的極值點(diǎn),并將這些極值點(diǎn)附近的8幀有表現(xiàn)力的關(guān)鍵動(dòng)作片段做為Global Diffusion訓(xùn)練的Ground Truth。而Local Diffusion Model在一個(gè)較小的時(shí)間尺度上學(xué)習(xí)如何生成高質(zhì)量的短時(shí)舞蹈片段。
圖1. Lodge訓(xùn)練過程。
圖2. Lodge推理過程?!癟E”為Transformer Encoder,“LD”為L(zhǎng)ocal Diffusion。
圖3. Hard/Soft Diffusion Guidance
更多的技術(shù)細(xì)節(jié)請(qǐng)參考我們的論文。
三、實(shí)驗(yàn)
我們?cè)贔ineDance[1]和AIST++[5]兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。由于FineDance平均每段舞蹈的時(shí)長(zhǎng)是152.3秒,遠(yuǎn)高于AIST++的13.3秒,因此我們主要用FineDance數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。
表1. 在FineDacne數(shù)據(jù)集上與其他方法對(duì)比。
值得一提的是,采用DDIM采樣策略可以獲得不錯(cuò)的性能,并且生成1024幀舞蹈的推理時(shí)間降低到了4.57s。而得益于我們的并行生成架構(gòu),繼續(xù)增大需要生成的舞蹈的序列長(zhǎng)度,推理時(shí)間也不會(huì)顯著增大。
表2. 超參數(shù)“s”的消融實(shí)驗(yàn),測(cè)試于FineDance數(shù)據(jù)集。
我們的soft-cue key motion對(duì)結(jié)果的影響程度可以使用超參數(shù)“s”進(jìn)行調(diào)整,其中“s”值越大表示效果越強(qiáng)。表2 展示了設(shè)置各種“s”值所產(chǎn)生的結(jié)果。隨著“s”的增加,和節(jié)拍對(duì)齊分?jǐn)?shù)BAS也相應(yīng)增強(qiáng)。當(dāng)“s”設(shè)置為 1 時(shí),可獲得最佳的性能。
表3. Foot Refine Block的消融實(shí)驗(yàn),測(cè)試于FineDance數(shù)據(jù)集。
如表3所示,加入Foot Refine Block后,運(yùn)動(dòng)質(zhì)量FID_k有了很大的改善,特別是Foot Skating Ratio從5.94%下降到5.01%,這證明我們提出的Foot Refine Block可以有效改善腳部與地面的接觸質(zhì)量,降低腳部腳滑現(xiàn)象出現(xiàn)的頻率。
四、總結(jié)
在這項(xiàng)工作中,我們引入了 Lodge,一種兩級(jí)從粗到細(xì)的擴(kuò)散網(wǎng)絡(luò),并提出characteristic dance primitives作為兩個(gè)擴(kuò)散模型的中間級(jí)表示。Lodge 已通過用戶研究和標(biāo)準(zhǔn)指標(biāo)進(jìn)行了廣泛的評(píng)估,取得了最先進(jìn)的結(jié)果。我們生成的樣本表明,Lodge 可以并行生成符合編舞規(guī)則的舞蹈,同時(shí)保留局部細(xì)節(jié)和物理真實(shí)感。廣泛的消融實(shí)驗(yàn)驗(yàn)證了我們不同模塊、粗到細(xì)框架、舞蹈基元和足部細(xì)化網(wǎng)絡(luò)的有效性。然而,我們的方法目前無(wú)法生成帶有手勢(shì)或面部表情的舞蹈動(dòng)作,這對(duì)于表演也至關(guān)重要。我們將很高興在未來(lái)看到長(zhǎng)序列全身舞蹈生成的新工作。
參考文獻(xiàn)
[1] Li, Ronghui, et al. "FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance Generation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[2] Tseng, Jonathan, Rodrigo Castellon, and Karen Liu. "Edge: Editable dance generation from music." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[3] Blom, Lynne Anne, and L. Tarin Chaplin. The intimate act of choreography. University of Pittsburgh Pre, 1982.
[4] Chen, Kang, et al. "Choreomaster: choreography-oriented music-driven dance synthesis." ACM Transactions on Graphics (TOG) 40.4 (2021): 1-13.
[5] Li, Ruilong, et al. "Ai choreographer: Music conditioned 3d dance generation with aist++." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[6] Huang, Ruozi, et al. "Dance revolution: Long-term dance generation with music via curriculum learning." arXiv preprint arXiv:2006.06119 (2020).
[7] Siyao, Li, et al. "Bailando: 3d dance generation by actor-critic gpt with choreographic memory." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.Illustration From IconScout By 22
本文轉(zhuǎn)載自??將門創(chuàng)投??,作者:李镕輝
