自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI作曲缺數(shù)據(jù),浙大GTSinger數(shù)據(jù)集上線:適配所有歌聲任務(wù)、帶有真實(shí)樂譜

人工智能 新聞
本文提出了 GTSinger,一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集,帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù),涵蓋了目前所有歌聲任務(wù)的需求,并在多個(gè)任務(wù)上提供了基準(zhǔn)測試。

本文的作者主要來自于浙江大學(xué)。第一作者是浙江大學(xué)計(jì)算機(jī)學(xué)院的博士生張彧,導(dǎo)師為趙洲教授,主要研究方向是音樂合成,音頻生成和自然語言處理,并在 NeurIPS、AAAI、ACL、EMNLP 等會議發(fā)表相關(guān)論文。共一作者是來自浙江大學(xué)計(jì)算機(jī)學(xué)院的本科生潘昶皓。

傳統(tǒng)的歌聲任務(wù),如歌聲合成,大多是在利用輸入的歌詞和樂譜生成高質(zhì)量的歌聲。隨著深度學(xué)習(xí)的發(fā)展,人們希望實(shí)現(xiàn)可控和能個(gè)性化定制的歌聲生成。

因此,技巧可控的歌聲合成、技巧識別、歌聲風(fēng)格遷移以及語音到歌聲的轉(zhuǎn)換等任務(wù)應(yīng)運(yùn)而生。這些任務(wù)逐步發(fā)展并在短視頻配音和專業(yè)音樂創(chuàng)作等現(xiàn)實(shí)場景得到應(yīng)用。

然而,由于缺乏高質(zhì)量和多任務(wù)的開源歌聲數(shù)據(jù)集,這些新興的歌聲任務(wù)的發(fā)展受到了很大阻礙。

為此,來自浙江大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集 GTSinger,帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù),涵蓋了目前所有歌聲任務(wù)的需求,并在多個(gè)歌聲任務(wù)上提供基準(zhǔn)測試。

圖片

  • 論文地址:https://arxiv.org/abs/2409.13832
  • 項(xiàng)目主頁:https://gtsinger.github.io/
  • 開源數(shù)據(jù):https://huggingface.co/datasets/GTSinger/GTSinger
  • 開源代碼:https://github.com/GTSinger/GTSinger

目前,該論文已被 NeurIPS 2024 Datasets and Benchmarks Track 接收為 Spotlight,并已開源完整數(shù)據(jù)集和相關(guān)代碼。

由于錄制歌曲和人工標(biāo)注成本高昂,高質(zhì)量和多任務(wù)的歌聲數(shù)據(jù)集的收集難度很大,這是阻礙 AI 音樂生成任務(wù)的的主要瓶頸。

而現(xiàn)有開源歌聲數(shù)據(jù)集的局限性主要包括:

1. 歌聲錄制和人工標(biāo)注的質(zhì)量較低,可能導(dǎo)致模型學(xué)習(xí)到的歌聲跑調(diào)或帶有噪音。

2. 語言和歌手的多樣性有限,限制了模型對多樣的音色和風(fēng)格的學(xué)習(xí)。

3. 缺乏對多種歌唱技巧(如假聲)的對照組和標(biāo)注,阻礙了模型對技巧的建模和控制。

4. 不配備真實(shí)樂譜,因此無法將模型直接應(yīng)用在實(shí)際音樂創(chuàng)作中。

5. 任務(wù)適用性較差,缺乏很多新興的歌聲任務(wù)需要的標(biāo)注和配對朗讀數(shù)據(jù)。

圖片

圖 1:現(xiàn)有開源歌唱數(shù)據(jù)集的信息表。Speech 表示配對朗讀數(shù)據(jù)。Align 和 RMS 分別表示人工音素對齊和真實(shí)樂譜。Style 表示全局風(fēng)格標(biāo)簽。

為了解決這些挑戰(zhàn),浙大的研究者們提出了 GTSinger,一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集,包含技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù),涵蓋了目前所有的歌聲任務(wù)的需求。

比起現(xiàn)有開源歌聲數(shù)據(jù)集,GTSinger 主要有以下優(yōu)勢:

1. 專業(yè)歌手在專業(yè)錄音棚中錄制了 80.59 小時(shí)的歌聲,使得 GTSinger 成為目前最大的錄制歌聲數(shù)據(jù)集;

2. 20 位專業(yè)歌手總共使用了九種世界常用的語言(漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意大利語),為 GTSinger 帶來豐富的風(fēng)格多樣性;

3. GTSinger 為六種常用歌唱技巧(混聲、假聲、氣聲、咽音、顫音和滑音)提供了對照組和音素級的技巧標(biāo)注;

4. 不同于 MIDI 等精細(xì)樂譜,GTSinger 提供了可以用于實(shí)際音樂創(chuàng)作的真實(shí)樂譜;

5. 人工音素對齊、全局風(fēng)格標(biāo)簽(唱法、情感、音高范圍和速度)以及 16.16 小時(shí)的配對朗讀數(shù)據(jù),讓 GTSinger 可以適配各種歌聲任務(wù)。

圖片

圖 2:GTSinger 中每首歌曲的構(gòu)成。包括技巧組歌聲、控制組歌聲、配對朗讀的音頻和標(biāo)注。

收集流程

GTSinger 的收集主要包括三個(gè)流程:音頻錄制,人工標(biāo)注,后續(xù)處理。

圖片

圖 3:GTSinger 的數(shù)據(jù)處理流程。在每一步中都存在人工檢查。

在音頻錄制階段,音樂專家首先從語言自然度、歌聲演唱水平、歌聲技巧熟練度等維度嚴(yán)格篩選歌手;接著,專家根據(jù)各語言的代表性,技巧的適用度,歌手的音域等因素挑選不同風(fēng)格和不同情感的歌曲。

之后,歌手在專業(yè)錄音棚中錄制高質(zhì)量的歌聲。在技巧組中,歌手被要求密集使用特定技巧,而對照組則是排除特定技巧的自然演唱。

圖片

圖 4:語言、歌手、技巧和時(shí)長的信息表。技巧的時(shí)長包括控制組和技巧組中的時(shí)長。

人工標(biāo)注流程主要包括對齊,技巧和風(fēng)格標(biāo)注,以及真實(shí)樂譜編寫。

在對齊階段,音樂專家首先使用 MFA 完成粗標(biāo)注,再利用 Praat 來進(jìn)行對音素邊界,錯(cuò)字漏字,無聲區(qū)域(呼吸或靜默)的校對和標(biāo)注。

對齊完成后,另一組專家根據(jù)聽感對混聲、假聲、氣聲、咽音、顫音和滑音六種技巧進(jìn)行音素級標(biāo)注。此外,專家們還為每首歌標(biāo)記了全局風(fēng)格標(biāo)簽,包括唱法(流行或美聲)、情感(快樂或悲傷)、節(jié)奏(慢、中、快)和音高范圍(低、中、高)。

接著,為了編寫真實(shí)樂譜,研究者首先使用 RMVPE 來提取每首歌的 F0,隨后使用 ROSVOT 推導(dǎo)出 MIDI 形式的精細(xì)樂譜。接著,音樂專家根據(jù)錄制歌聲,并參考原始伴奏進(jìn)行以下步驟:

1. 確定實(shí)際的節(jié)奏、譜號和調(diào)性;

2. 調(diào)整樂譜以匹配真實(shí)音符的音高;

3. 根據(jù)真實(shí)樂譜的規(guī)則修改音符時(shí)長;

4. 標(biāo)注音符類型,如休止符、歌詞或連音符。

圖片

圖 5:F0、精細(xì)樂譜與真實(shí)樂譜之間的對比。精細(xì)樂譜會破壞音符時(shí)長的規(guī)律性,導(dǎo)致音符碎片化,不適合用于實(shí)際作曲。

在后續(xù)處理中,多個(gè)擅長特定語言的音樂專家對標(biāo)注進(jìn)行了審核。最后,歌聲音頻被按語義和無聲區(qū)域等因素分割為更小的片段,其中超過 95% 的句子時(shí)長在 5 到 20 秒之間。

圖片

圖 6:切句時(shí)長、技巧、每分鐘節(jié)拍數(shù)和音符音高的統(tǒng)計(jì)。

基準(zhǔn)測試

為了評估數(shù)據(jù)集質(zhì)量和任務(wù)適用性,GTSinger 在四個(gè)歌聲任務(wù)上進(jìn)行了全面評估:技巧可控的歌聲合成、技巧識別、歌聲風(fēng)格遷移以及語音到歌聲的轉(zhuǎn)換。

圖片

圖 7:技巧可控的歌聲合成的平行和非平行實(shí)驗(yàn)結(jié)果。平行實(shí)驗(yàn)使用真實(shí)技巧序列作為目標(biāo)。在非平行實(shí)驗(yàn)中,六種技巧會隨機(jī)且適當(dāng)?shù)胤峙浣o每個(gè)目標(biāo)音素。

圖片

圖 8:技巧檢測的總體和跨語言實(shí)驗(yàn)結(jié)果。語言被分類為亞洲語種和歐洲語種,跨語言實(shí)驗(yàn)中模型在其中一類語種訓(xùn)練并在另外一類測試。

圖片

圖 9:風(fēng)格遷移的平行和跨語言實(shí)驗(yàn)結(jié)果。

圖片

圖 10:語音到歌聲轉(zhuǎn)換的實(shí)驗(yàn)結(jié)果。

根據(jù)這些實(shí)驗(yàn)結(jié)果,可以看出 GTSinger 不僅能在廣泛的生成任務(wù)上應(yīng)用,也適用于檢測任務(wù)。

總結(jié)展望

本文提出了 GTSinger,一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集,帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù),涵蓋了目前所有歌聲任務(wù)的需求,并在多個(gè)任務(wù)上提供了基準(zhǔn)測試。

未來工作可以進(jìn)一步擴(kuò)展數(shù)據(jù)的多樣性,如涵蓋阿拉伯語等常用語言以及氣泡音等技巧。同時(shí)研發(fā)基于字級別的模型可能會減少人工標(biāo)注引入的一些細(xì)微錯(cuò)誤的影響。最后,制作有伴奏的錄制歌聲數(shù)據(jù)集會對音樂領(lǐng)域有更大的幫助。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-03-30 14:30:34

人工智能機(jī)器學(xué)習(xí)模型

2024-09-12 09:16:11

2023-06-16 15:19:23

AI訓(xùn)練數(shù)據(jù)

2021-04-12 17:47:25

Facebook開源AI

2020-10-26 16:00:10

AI

2021-05-12 10:33:42

阿里人工智能天池平臺

2017-02-22 21:17:31

AI作曲家

2024-09-14 13:50:00

AI訓(xùn)練

2016-11-30 18:19:22

REM

2012-09-03 10:32:42

大數(shù)據(jù)分析Hadoop

2023-02-22 09:37:14

AI模型

2014-01-02 09:56:33

2023-08-13 14:48:14

OpenAIAI模型

2024-12-06 09:47:13

2012-07-17 10:54:21

大數(shù)據(jù)

2016-12-23 14:29:41

大數(shù)據(jù)大數(shù)據(jù)思維大數(shù)據(jù)產(chǎn)業(yè)

2023-09-05 10:40:20

Meta人工智能

2020-09-21 15:04:45

人工智能大數(shù)據(jù)技術(shù)

2021-04-25 21:24:02

數(shù)字化技術(shù)人工智能

2023-12-01 16:23:52

大數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號