AI跳舞哪家強(qiáng)?谷歌3D舞者聞歌起舞,挑戰(zhàn)DanceNet
這次,Transformer 參與了舞蹈生成任務(wù)。
在藝術(shù)領(lǐng)域,AI 有著各式各樣的應(yīng)用,如 AI 生成音樂、AI 繪畫。
跳舞,也是 AI 努力學(xué)習(xí)的一種能力。
此前,以音樂的風(fēng)格、節(jié)奏和旋律作為控制信號(hào)來生成 3D 舞蹈動(dòng)作的 DaceNet 曾紅極一時(shí)。
如今,DanceNet 迎來了新的挑戰(zhàn)者——來自谷歌的最新研究 AI Choreographer:給定一段 2 秒的指導(dǎo)動(dòng)作,AI 模型可以按照音樂節(jié)奏生成一長段自然的舞蹈動(dòng)作。
生成的舞蹈效果是這樣的(遺憾的是動(dòng)圖沒有聲音):
而和 DanceNet 這些同類研究相比,谷歌新方法的效果更為明顯。左邊兩種方法生成的舞蹈動(dòng)作像「抽風(fēng)」,該新方法則更加流暢自然:
值得注意的是,這還是一個(gè)基于 Transformer 的模型。
論文地址:https://arxiv.org/pdf/2101.08779v1.pdf
項(xiàng)目地址:https://google.github.io/aichoreographer/
下面讓我們看下論文細(xì)節(jié):
通過編排與音樂節(jié)拍一致的動(dòng)作模式來跳舞是人類的一項(xiàng)基本能力。舞蹈是所有文化中的通用語言,如今,許多人在多媒體平臺(tái)上通過舞蹈來表現(xiàn)自己。在 YouTube 上最受歡迎的視頻是以舞蹈為主的音樂視頻,例如 Baby Shark Dance、江南 Style,在互聯(lián)網(wǎng)信息傳播中,舞蹈成為強(qiáng)大的傳播工具。
然而,舞蹈是一種藝術(shù)形式,即使是人類,也需要專業(yè)培訓(xùn)才能使舞蹈演員掌握豐富的舞蹈動(dòng)作曲目,創(chuàng)造出富有表現(xiàn)力的舞蹈編排。從計(jì)算方面來講更具有挑戰(zhàn)性,因?yàn)樵撊蝿?wù)需要有能力生成一個(gè)連續(xù)的高運(yùn)動(dòng)學(xué)復(fù)雜度動(dòng)作,捕捉與伴奏音樂的非線性關(guān)系。
在這項(xiàng)研究中,來自南加州大學(xué)、谷歌研究院、加州大學(xué)伯克利分校的研究者提出了一個(gè)基于 transformer 的跨模態(tài)學(xué)習(xí)架構(gòu)和一個(gè)新的 3D 舞蹈動(dòng)作數(shù)據(jù)集 AIST++,該數(shù)據(jù)集用來訓(xùn)練一個(gè)生成 3D 舞蹈動(dòng)作的模型。
具體來說,給定一段音樂和一個(gè)短的(2 秒)種子動(dòng)作(seed motion),本文模型能夠生成一個(gè)長序列的逼真 3D 舞蹈動(dòng)作。該模型有效地學(xué)習(xí)了音樂動(dòng)作的相關(guān)性,并且可以生成不同輸入音樂的舞蹈序列。研究者將舞蹈表示為一個(gè)由關(guān)節(jié)旋轉(zhuǎn)和全局平移組成的 3D 動(dòng)作序列,這使得輸出可以很容易地遷移至動(dòng)作重定向等應(yīng)用,具體流程如下圖 1 所示:
在學(xué)習(xí)框架方面,該研究提出了一種新的基于 transformer 的跨模態(tài)架構(gòu)來生成基于音樂的 3D 動(dòng)作。該架構(gòu)建立在已被證明對(duì)長序列生成特別有效的基于注意力的網(wǎng)絡(luò) [15, 62, 3, 71]上,并從視覺和語言的跨模態(tài)文獻(xiàn) [71] 中獲得靈感,設(shè)計(jì)了一個(gè)使用三個(gè) transformer 的框架,分別用于音頻序列表示、動(dòng)作表示和跨模態(tài)音頻 - 動(dòng)作表示。其中動(dòng)作和音頻 transformer 對(duì)輸入序列進(jìn)行編碼,而跨模態(tài) transformer 學(xué)習(xí)這兩種模態(tài)之間的相關(guān)性,并生成未來的動(dòng)作序列。
該研究精心設(shè)計(jì)的新型跨模態(tài) transformer 具有自回歸特性,但需要全注意力(full-attention)和 future-N 監(jiān)督,這對(duì)于防止 3D 運(yùn)動(dòng)在多次迭代后凍結(jié)或漂移非常關(guān)鍵,正如先前關(guān)于 3D 運(yùn)動(dòng)生成所述[4,3]。由此生成模型為不同的音樂生成不同的舞蹈序列,同時(shí)生成長時(shí)間的逼真動(dòng)作,在進(jìn)行推理時(shí)不受漂移凍結(jié)的影響。
AIST++ 數(shù)據(jù)集
為了訓(xùn)練模型,該研究還創(chuàng)建了一個(gè)新的數(shù)據(jù)集:AIST++。該數(shù)據(jù)集在 AIST(多視角舞蹈視頻庫) [78]基礎(chǔ)上進(jìn)行構(gòu)建。研究者利用多視角信息從數(shù)據(jù)中恢復(fù)可靠的 3D 動(dòng)作。注意,雖然這個(gè)數(shù)據(jù)集具有多視角照片,但相機(jī)并未校準(zhǔn),這使得 3D 重建非常具有挑戰(zhàn)性。
AIST++ 數(shù)據(jù)集包含高達(dá) 110 萬幀伴有音樂的 3D 舞蹈動(dòng)作,據(jù)了解,這是此類數(shù)據(jù)集中最大的一個(gè)。AIST++ 還跨越了 10 種音樂類型、30 個(gè)主題和 9 個(gè)視頻序列,并具有恢復(fù)的相機(jī)內(nèi)在特性,這對(duì)于其他人體和動(dòng)作研究具有很大的潛力。
數(shù)據(jù)集地址:https://google.github.io/aistplusplus_dataset/
該研究創(chuàng)建的 AIST++ 是一個(gè)大規(guī)模 3D 舞蹈動(dòng)作數(shù)據(jù)集,包含大量伴隨音樂的 3D 舞蹈動(dòng)作。其中每一幀都具備以下額外標(biāo)注:
- 9 種視角,包括攝像機(jī)的內(nèi)外參數(shù);
- 17 種 COCO 格式的人類關(guān)節(jié)位置,包含 2D 和 3D 形式;
- 24 個(gè) SMPL 姿勢(shì)參數(shù),以及全局?jǐn)U展和平移。
下表 1 對(duì)比了 AIST++ 和其他 3D 動(dòng)作與舞蹈數(shù)據(jù)集,AIST++ 對(duì)于現(xiàn)有的 3D 動(dòng)作數(shù)據(jù)集是一種補(bǔ)充。
此外,AIST++ 數(shù)據(jù)集包含 10 個(gè)舞種:Old School(Break、Pop、Lock 和 Waack)和 New School(Middle Hip-hop、LA-style Hip-hop、House、Krump、Street Jazz 和 Ballet Jazz),參見下圖 3:
基于音樂的 3D 舞蹈生成
問題描述:給定一個(gè) 2 秒的動(dòng)作種子示例 X = (x_1, . . . , x_T) 和音樂序列 Y = (y_1, . . . , y_T'),生成時(shí)間步 T + 1 到 T' 期間的未來動(dòng)作序列 X'= (x_T+1, . . . , x_T'),T' >> T。
跨模態(tài)動(dòng)作生成 Transformer
該研究提出一種基于 Transformer 的網(wǎng)絡(luò)架構(gòu),它可以學(xué)習(xí)音樂 - 動(dòng)作關(guān)聯(lián),生成不凝滯的逼真動(dòng)作序列。架構(gòu)圖參見下圖 2:
該模型具備三個(gè) transformer:
- 動(dòng)作 transformer f_mot(X):將動(dòng)作特征 X 轉(zhuǎn)換為動(dòng)作嵌入 h^x_1:T;
- 音頻 transformer f_audio(Y):將音頻特征 Y 轉(zhuǎn)換為音頻嵌入 h^y_1:T';
- 跨模態(tài) transformer f_cross(h^xy_1:T +T'):學(xué)習(xí)動(dòng)作和音頻兩個(gè)模態(tài)之間的對(duì)應(yīng),并生成未來動(dòng)作 X'。
為了更好地學(xué)習(xí)兩個(gè)模態(tài)之間的關(guān)聯(lián),該研究使用了一個(gè)深度為 12 層的跨模態(tài) transformer。研究者發(fā)現(xiàn),跨模態(tài) transformer 的深度越大,模型對(duì)兩種模態(tài)的關(guān)注越多(參見下圖 6)。
實(shí)驗(yàn)
定量評(píng)估
研究者報(bào)告了該方法與兩種基線方法在 AIST++ 測(cè)試集上的定量評(píng)估結(jié)果,見下表 2:
動(dòng)作質(zhì)量:從上表中可以看出,該方法生成的動(dòng)作序列關(guān)節(jié)和速度分布更接近真值動(dòng)作。
動(dòng)作多樣性:表 2 展示了,相比基線方法,該研究提出的方法能夠生成更多樣的舞蹈動(dòng)作??刂谱兞垦芯拷Y(jié)果表明,網(wǎng)絡(luò)設(shè)計(jì),尤其跨模態(tài) transformer,是帶來這一差異的主要原因。研究者將該方法生成的多樣化舞蹈動(dòng)作進(jìn)行了可視化,參見下圖 7:
動(dòng)作 - 音樂關(guān)聯(lián):從表 2 中還可以看出,該方法生成的動(dòng)作與輸入音樂的關(guān)聯(lián)性更強(qiáng)。下圖 5 中的示例展示了生成動(dòng)作的運(yùn)動(dòng)節(jié)拍與音樂節(jié)拍能夠?qū)崿F(xiàn)很好地匹配。
但是,在與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比時(shí),這三種方法都有很大的改進(jìn)空間。這表明,音樂動(dòng)作關(guān)聯(lián)仍然是一個(gè)極具挑戰(zhàn)性的問題。
控制變量研究
跨模態(tài) Transformer:該論文利用三種不同設(shè)置研究跨模態(tài) Transformer 的功能:1)14 層動(dòng)作 transformer;2)13 層動(dòng)作 / 音頻 transformer 和 1 層跨模態(tài) Transformer;3)2 層動(dòng)作 / 音頻 transformer 和 12 層跨模態(tài) Transformer。
下表 3 表明跨模態(tài) Transformer 對(duì)于生成與輸入音樂關(guān)聯(lián)性強(qiáng)的動(dòng)作至關(guān)重要。
如圖 6 所示,更深的跨模態(tài) Transformer 能夠更加關(guān)注輸入音樂,從而帶來更好的音樂 - 動(dòng)作關(guān)聯(lián)度。
因果注意力或完全注意力 Transformer:研究者還探索了完全注意力機(jī)制和 future-N 監(jiān)督機(jī)制的效果。從下表 4 中可以看出,在使用因果注意力機(jī)制執(zhí)行 20 秒長程生成時(shí),生成動(dòng)作和真值動(dòng)作的分布差異很大。對(duì)于 future-1 監(jiān)督設(shè)置下的完全注意力機(jī)制而言,長程生成期間的結(jié)果會(huì)出現(xiàn)快速漂移,而在 future-10 或 future-20 監(jiān)督設(shè)置下,模型可以生成高質(zhì)量的長程動(dòng)作。