谷歌開(kāi)源 3D 舞蹈生成模型 FACT
谷歌開(kāi)源了其基于 AIST++ 的 3D 舞蹈生成模型 FACT。該模型不僅可以學(xué)習(xí)音樂(lè)-運(yùn)動(dòng)對(duì)應(yīng)關(guān)系,還可以生成以音樂(lè)為基礎(chǔ)的 3D 運(yùn)動(dòng)序列。
此前,谷歌層發(fā)布了大規(guī)模的多模態(tài) 3D 舞蹈動(dòng)作數(shù)據(jù)集 AIST++,它包含了 1408 個(gè)序列中 5.2 小時(shí)的 3D 舞蹈動(dòng)作,涵蓋了 10 種舞蹈流派,每個(gè)序列都包括已知相機(jī)姿勢(shì)的多視角視頻。而 FACT 模型則可以使用使用這些數(shù)據(jù)從音樂(lè)生成 3D 舞蹈,甚至可以幫助增強(qiáng)一個(gè)人的編舞能力。
根據(jù)谷歌描述,該模型首先使用單獨(dú)的運(yùn)動(dòng)和音頻轉(zhuǎn)換器對(duì)種子運(yùn)動(dòng)和音頻輸入進(jìn)行編碼,然后將嵌入連接起來(lái)并發(fā)送到跨模態(tài)轉(zhuǎn)換器,該轉(zhuǎn)換器學(xué)習(xí)兩種模態(tài)之間的對(duì)應(yīng)關(guān)系并生成 N 個(gè)未來(lái)的運(yùn)動(dòng)序列,然后使用這些序列以自我監(jiān)督的方式訓(xùn)練模型。在測(cè)試時(shí),將此模型應(yīng)用于自回歸框架,其中預(yù)測(cè)的運(yùn)動(dòng)作為下一代步驟的輸入,從而使 FACT 模型能夠逐幀生成長(zhǎng)距離舞蹈動(dòng)作。
此外,谷歌還解釋了 FACT 涉及的三個(gè)關(guān)鍵設(shè)計(jì)選擇,這些選擇對(duì)于從音樂(lè)中產(chǎn)生逼真的 3D 舞蹈動(dòng)作至關(guān)重要,包括所有轉(zhuǎn)換器都使用全注意掩碼、訓(xùn)練模型會(huì)預(yù)測(cè)當(dāng)前輸入之外的 N 個(gè)未來(lái)而不僅僅是下一個(gè)動(dòng)作以及采用了一個(gè)深度的12層跨模式轉(zhuǎn)換模塊。最終,F(xiàn)ACT 表現(xiàn)出了較好的運(yùn)動(dòng)質(zhì)量、生成多樣性、以及節(jié)拍對(duì)齊分?jǐn)?shù)。
目前,用于訓(xùn)練的數(shù)據(jù) AIST++、FACT 模型代碼以及一個(gè)經(jīng)過(guò)訓(xùn)練的模型均已發(fā)布。
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:谷歌開(kāi)源 3D 舞蹈生成模型 FACT
本文地址:https://www.oschina.net/news/160132/google-publish-fact