自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

新聞
Rapper 要醞釀一整天的歌詞,AI 或許幾分鐘就能寫(xiě)出來(lái)。

  [[410341]]

給你一段 Rap,你能看出這是 AI 寫(xiě)的嗎?

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

仔細(xì)品味,也能發(fā)現(xiàn)這段詞中的美中不足之處,但這作詞水平可以說(shuō)是不錯(cuò)的。

同樣的第一句,可以迅速生成完全不同的段落:

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

人類(lèi)Rapper的雙押,還是更厲害一點(diǎn):

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下
AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

只需要給定一句輸入,AI 就能生成整首歌詞。從押韻、流暢度、節(jié)奏方面,基本不遜于人類(lèi) Rapper。

這項(xiàng)研究來(lái)自港科大、清華、復(fù)旦等機(jī)構(gòu),在這篇論文中,研究者提出了一個(gè)基于 Transformer 的 Rap 生成系統(tǒng)「DeepRapper」,該系統(tǒng)可以同時(shí)模擬 Rap 的韻律和節(jié)奏。

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

論文鏈接:https://arxiv.org/pdf/2107.01875.pdf

由于沒(méi)有現(xiàn)成可用的節(jié)奏對(duì)齊的 Rap 數(shù)據(jù)集,為了構(gòu)建這個(gè)系統(tǒng),研究者設(shè)計(jì)了一個(gè)數(shù)據(jù)挖掘 pipeline,并收集了一個(gè)大規(guī)模的 Rap 數(shù)據(jù)集進(jìn)行韻律建模。

一開(kāi)始,研究者先從網(wǎng)上抓取了許多包含歌詞和音頻的說(shuō)唱歌曲,并對(duì)每一首抓取的說(shuō)唱歌曲進(jìn)行一系列數(shù)據(jù)預(yù)處理步驟。為了更好地建模,研究者以自回歸的方式從右到左生成每一句 Rap,這樣就可以很容易地識(shí)別出一個(gè)句子的最后幾個(gè)單詞 (即反向句子的第一個(gè)單詞) 來(lái)押韻。

此外,為了進(jìn)一步提高 Rap 的押韻質(zhì)量,研究者在語(yǔ)言模型中加入了一些押韻表征,并在推理過(guò)程中通過(guò)押韻約束來(lái)提高生成的 Rap 中的 N-gram 韻律。

研究者使用一個(gè)特殊的標(biāo)記 [ BEAT ] 來(lái)表示有節(jié)奏的節(jié)拍,并將其插入到相應(yīng)的詞之前的歌詞中。通過(guò)這種方式,可以在訓(xùn)練和生成方面按照歌詞的順序來(lái)模擬節(jié)拍。

受到預(yù)訓(xùn)練語(yǔ)言模型的成功啟發(fā),研究者將預(yù)訓(xùn)練納入系統(tǒng)。為了獲得大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù),研究者還使用了數(shù)據(jù)挖掘 pipeline 收集了另外兩個(gè)數(shù)據(jù)集:

1)節(jié)拍對(duì)齊的非說(shuō)唱歌曲,它可以比說(shuō)唱數(shù)據(jù)集更大,因?yàn)榉钦f(shuō)唱歌曲比說(shuō)唱歌曲更通用; 2)純歌詞,同樣比非說(shuō)唱歌曲數(shù)據(jù)集更大。

在預(yù)訓(xùn)練階段,研究者基于上述兩個(gè)數(shù)據(jù)集對(duì) DeepRapper 模型進(jìn)行了預(yù)訓(xùn)練,然后調(diào)整模型在說(shuō)唱歌曲與調(diào)整節(jié)拍上的性能,微調(diào)模型即用于最終的說(shuō)唱產(chǎn)生。客觀評(píng)估和主觀評(píng)估的實(shí)驗(yàn)結(jié)果都證實(shí)了 DeepRapper 在生成押韻和節(jié)奏的說(shuō)唱歌詞方面的優(yōu)勢(shì)。

Rap 數(shù)據(jù)集

以前用于 rap 生成的作品(Potash 等人,2015 年;Liang 等人,2018 年;Nikolov 等人,2020 年)通常使用只有歌詞的說(shuō)唱數(shù)據(jù)集,而不考慮節(jié)奏節(jié)拍信息。為了在 rap 生成中建模節(jié)奏,說(shuō)唱數(shù)據(jù)集應(yīng)該包含具有對(duì)齊節(jié)奏節(jié)拍的歌詞。然而,節(jié)拍對(duì)齊很難實(shí)現(xiàn),因?yàn)樗鼈兊淖⑨屝枰獙?zhuān)業(yè)音樂(lè)家來(lái)識(shí)別說(shuō)唱歌曲中的重讀音節(jié)。

因此,為了解決這個(gè)問(wèn)題,研究者設(shè)計(jì)了一個(gè)數(shù)據(jù)挖掘 pipeline 來(lái)自動(dòng)提取 beatlyric 對(duì)齊。

數(shù)據(jù)挖掘 pipeline

下圖 1 展示了數(shù)據(jù)挖掘 pipeline 的整體框架,包含 5 個(gè)步驟:數(shù)據(jù)抓取、人聲(vocal)與伴奏分離、人聲與歌詞對(duì)齊、節(jié)拍檢測(cè)以及歌詞與節(jié)拍對(duì)齊。

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

挖掘數(shù)據(jù)集

基于上圖數(shù)據(jù)挖掘 pipeline,研究者得到了一個(gè)具有對(duì)齊節(jié)拍的說(shuō)唱歌詞(rap lyric)數(shù)據(jù)集,并命名為 D-RAP。該數(shù)據(jù)集滿足了構(gòu)建具有韻律和節(jié)奏的 rap 生成系統(tǒng)的要求。他們以 4:1 的比例將 D-RAP 數(shù)據(jù)集劃分為訓(xùn)練和驗(yàn)證集。

與一般歌曲相比,說(shuō)唱風(fēng)格的歌曲數(shù)量往往較少,因此研究者挖掘了另外兩個(gè)數(shù)據(jù)集,以使用相同的挖掘 pipeline 對(duì) DeepRapper 模型進(jìn)行預(yù)訓(xùn)練,它們分別是具有對(duì)齊節(jié)拍的非說(shuō)唱歌曲數(shù)據(jù)集 D-SONG 和沒(méi)有對(duì)齊節(jié)拍的純歌詞數(shù)據(jù)集 D-LYRIC。

研究者在下表 1 中對(duì)這三個(gè)數(shù)據(jù)集包含的歌曲數(shù)量和歌詞句子數(shù)量進(jìn)行了統(tǒng)計(jì)。

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

下圖 2 展示了 D-RAP 數(shù)據(jù)集中具有對(duì)齊節(jié)拍的說(shuō)唱歌曲示例。

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

Rap 生成模型

如下圖 3 所示,研究者展示了 rap 生成模型的整體架構(gòu)以及韻律和節(jié)奏建模的細(xì)節(jié)。

具體地,研究者使用 Transformer 構(gòu)建了一個(gè)用于 rap 生成的自回歸語(yǔ)言模型,并引入了以下一些新的對(duì)齊:

1)為了更好地建模韻律,該模型從左到右生成歌詞句子,這是因?yàn)檠喉嵶滞ǔN挥诰渥咏Y(jié)尾;

2)如前所述,節(jié)奏對(duì)于 rap 效果至關(guān)重要,因而插入了一個(gè)特殊的 token [BEAT]來(lái)進(jìn)行顯式節(jié)拍建模;

3)與僅有詞嵌入和位置嵌入的原始 Transformer 不同,研究者添加了多個(gè)額外嵌入以更好地建模韻律和節(jié)奏。

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

實(shí)驗(yàn)評(píng)估

下表 2 展示了 DeepRapper 的客觀與主觀評(píng)估結(jié)果,并與兩個(gè) baseline 進(jìn)行了比較。Baseline 模型是一個(gè)標(biāo)準(zhǔn)的自回歸語(yǔ)言模型,與 DeepRapper 的模型配置相同,但沒(méi)有本文提出的韻律模型(+PT 的意思是采用了預(yù)訓(xùn)練)??陀^評(píng)估結(jié)果的維度包括 perplexity、韻律準(zhǔn)確性和韻密度;主觀評(píng)估維度包括主題、流暢度、押韻質(zhì)量和押韻多樣性。

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

為了突出 DeepRapper 在建模 N-gram 韻律中的優(yōu)勢(shì),研究者使用 Combo-N 來(lái)度量 DeepRapper 中每個(gè)設(shè)計(jì)建模 N-gram 韻律的能力。結(jié)果如下表 4 所示:

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

為了更好地度量節(jié)拍質(zhì)量,研究者分別使用 DeepRapper 和具有節(jié)拍頻率控制的 DeepRapper 隨機(jī)生成了大約 5000 個(gè)樣本。他們提出了一階分布(First Order Distribution, FOD)和二階分布(Second Order Distribution, SOD),并度量了生成樣本與 DRAP 數(shù)據(jù)集之間分布的距離。

研究者將當(dāng)前 [BEAT] 的間隔定義為當(dāng)前 [BEAT] 與下個(gè) [BEAT] 之間的歌詞數(shù)量。因此,F(xiàn)OD 被定義為當(dāng)前 [BEAT]間隔的分布,SOD 被定義為當(dāng)前 [BEAT]與下個(gè) [BEAT]之間間隔差的分布。間隔的數(shù)值區(qū)間為[0, 1],具體結(jié)果如下表 5 所示:

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

下圖 6 中,研究者展示了生成的 rap 歌曲示例,可以看出 DeepRapper 的生成效果還不錯(cuò)。

AI都會(huì)寫(xiě)靈魂Rap了?Transformer跨界說(shuō)唱,節(jié)奏流暢度都不在話下

 

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2023-07-11 10:19:47

AI視頻

2020-02-19 14:55:20

開(kāi)發(fā)技能代碼

2021-05-07 09:18:04

CSS 文字動(dòng)畫(huà)技巧

2010-04-01 15:01:26

配置無(wú)線路由器

2024-03-13 10:41:29

AI程序員

2023-09-03 12:50:59

AI技術(shù)

2022-08-18 09:12:17

存儲(chǔ)數(shù)據(jù)

2010-08-10 09:35:26

實(shí)施VDI

2022-05-24 07:40:40

CSS逐幀動(dòng)畫(huà)圖片輪播

2021-04-21 14:15:08

機(jī)器人AI人工智能

2025-03-17 08:30:00

谷歌模型AI

2022-08-26 00:00:00

元宇宙高薪系統(tǒng)

2019-11-07 09:49:38

監(jiān)控優(yōu)化技巧

2023-10-12 14:40:29

模型數(shù)據(jù)

2019-07-25 17:00:44

Python正則表達(dá)式字符串

2023-02-10 17:20:29

2020-05-21 16:07:00

Python 鍵盤(pán)編程語(yǔ)言

2012-03-05 13:01:31

宏碁筆記本

2023-02-07 23:42:55

機(jī)器人技術(shù)識(shí)別

2024-04-15 12:52:00

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)