AI作曲缺數(shù)據(jù),浙大GTSinger數(shù)據(jù)集上線:適配所有歌聲任務(wù)、帶有真實(shí)樂譜
本文的作者主要來自于浙江大學(xué)。第一作者是浙江大學(xué)計(jì)算機(jī)學(xué)院的博士生張彧,導(dǎo)師為趙洲教授,主要研究方向是音樂合成,音頻生成和自然語言處理,并在 NeurIPS、AAAI、ACL、EMNLP 等會議發(fā)表相關(guān)論文。共一作者是來自浙江大學(xué)計(jì)算機(jī)學(xué)院的本科生潘昶皓。
傳統(tǒng)的歌聲任務(wù),如歌聲合成,大多是在利用輸入的歌詞和樂譜生成高質(zhì)量的歌聲。隨著深度學(xué)習(xí)的發(fā)展,人們希望實(shí)現(xiàn)可控和能個(gè)性化定制的歌聲生成。
因此,技巧可控的歌聲合成、技巧識別、歌聲風(fēng)格遷移以及語音到歌聲的轉(zhuǎn)換等任務(wù)應(yīng)運(yùn)而生。這些任務(wù)逐步發(fā)展并在短視頻配音和專業(yè)音樂創(chuàng)作等現(xiàn)實(shí)場景得到應(yīng)用。
然而,由于缺乏高質(zhì)量和多任務(wù)的開源歌聲數(shù)據(jù)集,這些新興的歌聲任務(wù)的發(fā)展受到了很大阻礙。
為此,來自浙江大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集 GTSinger,帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù),涵蓋了目前所有歌聲任務(wù)的需求,并在多個(gè)歌聲任務(wù)上提供基準(zhǔn)測試。
- 論文地址:https://arxiv.org/abs/2409.13832
- 項(xiàng)目主頁:https://gtsinger.github.io/
- 開源數(shù)據(jù):https://huggingface.co/datasets/GTSinger/GTSinger
- 開源代碼:https://github.com/GTSinger/GTSinger
目前,該論文已被 NeurIPS 2024 Datasets and Benchmarks Track 接收為 Spotlight,并已開源完整數(shù)據(jù)集和相關(guān)代碼。
由于錄制歌曲和人工標(biāo)注成本高昂,高質(zhì)量和多任務(wù)的歌聲數(shù)據(jù)集的收集難度很大,這是阻礙 AI 音樂生成任務(wù)的的主要瓶頸。
而現(xiàn)有開源歌聲數(shù)據(jù)集的局限性主要包括:
1. 歌聲錄制和人工標(biāo)注的質(zhì)量較低,可能導(dǎo)致模型學(xué)習(xí)到的歌聲跑調(diào)或帶有噪音。
2. 語言和歌手的多樣性有限,限制了模型對多樣的音色和風(fēng)格的學(xué)習(xí)。
3. 缺乏對多種歌唱技巧(如假聲)的對照組和標(biāo)注,阻礙了模型對技巧的建模和控制。
4. 不配備真實(shí)樂譜,因此無法將模型直接應(yīng)用在實(shí)際音樂創(chuàng)作中。
5. 任務(wù)適用性較差,缺乏很多新興的歌聲任務(wù)需要的標(biāo)注和配對朗讀數(shù)據(jù)。
圖 1:現(xiàn)有開源歌唱數(shù)據(jù)集的信息表。Speech 表示配對朗讀數(shù)據(jù)。Align 和 RMS 分別表示人工音素對齊和真實(shí)樂譜。Style 表示全局風(fēng)格標(biāo)簽。
為了解決這些挑戰(zhàn),浙大的研究者們提出了 GTSinger,一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集,包含技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù),涵蓋了目前所有的歌聲任務(wù)的需求。
比起現(xiàn)有開源歌聲數(shù)據(jù)集,GTSinger 主要有以下優(yōu)勢:
1. 專業(yè)歌手在專業(yè)錄音棚中錄制了 80.59 小時(shí)的歌聲,使得 GTSinger 成為目前最大的錄制歌聲數(shù)據(jù)集;
2. 20 位專業(yè)歌手總共使用了九種世界常用的語言(漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意大利語),為 GTSinger 帶來豐富的風(fēng)格多樣性;
3. GTSinger 為六種常用歌唱技巧(混聲、假聲、氣聲、咽音、顫音和滑音)提供了對照組和音素級的技巧標(biāo)注;
4. 不同于 MIDI 等精細(xì)樂譜,GTSinger 提供了可以用于實(shí)際音樂創(chuàng)作的真實(shí)樂譜;
5. 人工音素對齊、全局風(fēng)格標(biāo)簽(唱法、情感、音高范圍和速度)以及 16.16 小時(shí)的配對朗讀數(shù)據(jù),讓 GTSinger 可以適配各種歌聲任務(wù)。
圖 2:GTSinger 中每首歌曲的構(gòu)成。包括技巧組歌聲、控制組歌聲、配對朗讀的音頻和標(biāo)注。
收集流程
GTSinger 的收集主要包括三個(gè)流程:音頻錄制,人工標(biāo)注,后續(xù)處理。
圖 3:GTSinger 的數(shù)據(jù)處理流程。在每一步中都存在人工檢查。
在音頻錄制階段,音樂專家首先從語言自然度、歌聲演唱水平、歌聲技巧熟練度等維度嚴(yán)格篩選歌手;接著,專家根據(jù)各語言的代表性,技巧的適用度,歌手的音域等因素挑選不同風(fēng)格和不同情感的歌曲。
之后,歌手在專業(yè)錄音棚中錄制高質(zhì)量的歌聲。在技巧組中,歌手被要求密集使用特定技巧,而對照組則是排除特定技巧的自然演唱。
圖 4:語言、歌手、技巧和時(shí)長的信息表。技巧的時(shí)長包括控制組和技巧組中的時(shí)長。
人工標(biāo)注流程主要包括對齊,技巧和風(fēng)格標(biāo)注,以及真實(shí)樂譜編寫。
在對齊階段,音樂專家首先使用 MFA 完成粗標(biāo)注,再利用 Praat 來進(jìn)行對音素邊界,錯(cuò)字漏字,無聲區(qū)域(呼吸或靜默)的校對和標(biāo)注。
對齊完成后,另一組專家根據(jù)聽感對混聲、假聲、氣聲、咽音、顫音和滑音六種技巧進(jìn)行音素級標(biāo)注。此外,專家們還為每首歌標(biāo)記了全局風(fēng)格標(biāo)簽,包括唱法(流行或美聲)、情感(快樂或悲傷)、節(jié)奏(慢、中、快)和音高范圍(低、中、高)。
接著,為了編寫真實(shí)樂譜,研究者首先使用 RMVPE 來提取每首歌的 F0,隨后使用 ROSVOT 推導(dǎo)出 MIDI 形式的精細(xì)樂譜。接著,音樂專家根據(jù)錄制歌聲,并參考原始伴奏進(jìn)行以下步驟:
1. 確定實(shí)際的節(jié)奏、譜號和調(diào)性;
2. 調(diào)整樂譜以匹配真實(shí)音符的音高;
3. 根據(jù)真實(shí)樂譜的規(guī)則修改音符時(shí)長;
4. 標(biāo)注音符類型,如休止符、歌詞或連音符。
圖 5:F0、精細(xì)樂譜與真實(shí)樂譜之間的對比。精細(xì)樂譜會破壞音符時(shí)長的規(guī)律性,導(dǎo)致音符碎片化,不適合用于實(shí)際作曲。
在后續(xù)處理中,多個(gè)擅長特定語言的音樂專家對標(biāo)注進(jìn)行了審核。最后,歌聲音頻被按語義和無聲區(qū)域等因素分割為更小的片段,其中超過 95% 的句子時(shí)長在 5 到 20 秒之間。
圖 6:切句時(shí)長、技巧、每分鐘節(jié)拍數(shù)和音符音高的統(tǒng)計(jì)。
基準(zhǔn)測試
為了評估數(shù)據(jù)集質(zhì)量和任務(wù)適用性,GTSinger 在四個(gè)歌聲任務(wù)上進(jìn)行了全面評估:技巧可控的歌聲合成、技巧識別、歌聲風(fēng)格遷移以及語音到歌聲的轉(zhuǎn)換。
圖 7:技巧可控的歌聲合成的平行和非平行實(shí)驗(yàn)結(jié)果。平行實(shí)驗(yàn)使用真實(shí)技巧序列作為目標(biāo)。在非平行實(shí)驗(yàn)中,六種技巧會隨機(jī)且適當(dāng)?shù)胤峙浣o每個(gè)目標(biāo)音素。
圖 8:技巧檢測的總體和跨語言實(shí)驗(yàn)結(jié)果。語言被分類為亞洲語種和歐洲語種,跨語言實(shí)驗(yàn)中模型在其中一類語種訓(xùn)練并在另外一類測試。
圖 9:風(fēng)格遷移的平行和跨語言實(shí)驗(yàn)結(jié)果。
圖 10:語音到歌聲轉(zhuǎn)換的實(shí)驗(yàn)結(jié)果。
根據(jù)這些實(shí)驗(yàn)結(jié)果,可以看出 GTSinger 不僅能在廣泛的生成任務(wù)上應(yīng)用,也適用于檢測任務(wù)。
總結(jié)展望
本文提出了 GTSinger,一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集,帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù),涵蓋了目前所有歌聲任務(wù)的需求,并在多個(gè)任務(wù)上提供了基準(zhǔn)測試。
未來工作可以進(jìn)一步擴(kuò)展數(shù)據(jù)的多樣性,如涵蓋阿拉伯語等常用語言以及氣泡音等技巧。同時(shí)研發(fā)基于字級別的模型可能會減少人工標(biāo)注引入的一些細(xì)微錯(cuò)誤的影響。最后,制作有伴奏的錄制歌聲數(shù)據(jù)集會對音樂領(lǐng)域有更大的幫助。