自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="800gw"><input id="800gw"></input></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI作曲缺數(shù)據(jù)，浙大GTSinger數(shù)據(jù)集上線：適配所有歌聲任務(wù)、帶有真實(shí)樂譜

作者：機(jī)器之心 2024-10-14 09:30:00

人工智能新聞

本文提出了 GTSinger，一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集，帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù)，涵蓋了目前所有歌聲任務(wù)的需求，并在多個(gè)任務(wù)上提供了基準(zhǔn)測試。

本文的作者主要來自于浙江大學(xué)。第一作者是浙江大學(xué)計(jì)算機(jī)學(xué)院的博士生張彧，導(dǎo)師為趙洲教授，主要研究方向是音樂合成，音頻生成和自然語言處理，并在 NeurIPS、AAAI、ACL、EMNLP 等會議發(fā)表相關(guān)論文。共一作者是來自浙江大學(xué)計(jì)算機(jī)學(xué)院的本科生潘昶皓。

傳統(tǒng)的歌聲任務(wù)，如歌聲合成，大多是在利用輸入的歌詞和樂譜生成高質(zhì)量的歌聲。隨著深度學(xué)習(xí)的發(fā)展，人們希望實(shí)現(xiàn)可控和能個(gè)性化定制的歌聲生成。

因此，技巧可控的歌聲合成、技巧識別、歌聲風(fēng)格遷移以及語音到歌聲的轉(zhuǎn)換等任務(wù)應(yīng)運(yùn)而生。這些任務(wù)逐步發(fā)展并在短視頻配音和專業(yè)音樂創(chuàng)作等現(xiàn)實(shí)場景得到應(yīng)用。

然而，由于缺乏高質(zhì)量和多任務(wù)的開源歌聲數(shù)據(jù)集，這些新興的歌聲任務(wù)的發(fā)展受到了很大阻礙。

為此，來自浙江大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集 GTSinger，帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù)，涵蓋了目前所有歌聲任務(wù)的需求，并在多個(gè)歌聲任務(wù)上提供基準(zhǔn)測試。

論文地址：https://arxiv.org/abs/2409.13832
項(xiàng)目主頁：https://gtsinger.github.io/
開源數(shù)據(jù)：https://huggingface.co/datasets/GTSinger/GTSinger
開源代碼：https://github.com/GTSinger/GTSinger

目前，該論文已被 NeurIPS 2024 Datasets and Benchmarks Track 接收為 Spotlight，并已開源完整數(shù)據(jù)集和相關(guān)代碼。

由于錄制歌曲和人工標(biāo)注成本高昂，高質(zhì)量和多任務(wù)的歌聲數(shù)據(jù)集的收集難度很大，這是阻礙 AI 音樂生成任務(wù)的的主要瓶頸。

而現(xiàn)有開源歌聲數(shù)據(jù)集的局限性主要包括：

1. 歌聲錄制和人工標(biāo)注的質(zhì)量較低，可能導(dǎo)致模型學(xué)習(xí)到的歌聲跑調(diào)或帶有噪音。

2. 語言和歌手的多樣性有限，限制了模型對多樣的音色和風(fēng)格的學(xué)習(xí)。

3. 缺乏對多種歌唱技巧（如假聲）的對照組和標(biāo)注，阻礙了模型對技巧的建模和控制。

4. 不配備真實(shí)樂譜，因此無法將模型直接應(yīng)用在實(shí)際音樂創(chuàng)作中。

5. 任務(wù)適用性較差，缺乏很多新興的歌聲任務(wù)需要的標(biāo)注和配對朗讀數(shù)據(jù)。

圖 1：現(xiàn)有開源歌唱數(shù)據(jù)集的信息表。Speech 表示配對朗讀數(shù)據(jù)。Align 和 RMS 分別表示人工音素對齊和真實(shí)樂譜。Style 表示全局風(fēng)格標(biāo)簽。

為了解決這些挑戰(zhàn)，浙大的研究者們提出了 GTSinger，一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集，包含技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù)，涵蓋了目前所有的歌聲任務(wù)的需求。

比起現(xiàn)有開源歌聲數(shù)據(jù)集，GTSinger 主要有以下優(yōu)勢：

1. 專業(yè)歌手在專業(yè)錄音棚中錄制了 80.59 小時(shí)的歌聲，使得 GTSinger 成為目前最大的錄制歌聲數(shù)據(jù)集；

2. 20 位專業(yè)歌手總共使用了九種世界常用的語言（漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意大利語），為 GTSinger 帶來豐富的風(fēng)格多樣性；

3. GTSinger 為六種常用歌唱技巧（混聲、假聲、氣聲、咽音、顫音和滑音）提供了對照組和音素級的技巧標(biāo)注；

4. 不同于 MIDI 等精細(xì)樂譜，GTSinger 提供了可以用于實(shí)際音樂創(chuàng)作的真實(shí)樂譜；

5. 人工音素對齊、全局風(fēng)格標(biāo)簽（唱法、情感、音高范圍和速度）以及 16.16 小時(shí)的配對朗讀數(shù)據(jù)，讓 GTSinger 可以適配各種歌聲任務(wù)。

圖 2：GTSinger 中每首歌曲的構(gòu)成。包括技巧組歌聲、控制組歌聲、配對朗讀的音頻和標(biāo)注。

收集流程

GTSinger 的收集主要包括三個(gè)流程：音頻錄制，人工標(biāo)注，后續(xù)處理。

圖 3：GTSinger 的數(shù)據(jù)處理流程。在每一步中都存在人工檢查。

在音頻錄制階段，音樂專家首先從語言自然度、歌聲演唱水平、歌聲技巧熟練度等維度嚴(yán)格篩選歌手；接著，專家根據(jù)各語言的代表性，技巧的適用度，歌手的音域等因素挑選不同風(fēng)格和不同情感的歌曲。

之后，歌手在專業(yè)錄音棚中錄制高質(zhì)量的歌聲。在技巧組中，歌手被要求密集使用特定技巧，而對照組則是排除特定技巧的自然演唱。

圖 4：語言、歌手、技巧和時(shí)長的信息表。技巧的時(shí)長包括控制組和技巧組中的時(shí)長。

人工標(biāo)注流程主要包括對齊，技巧和風(fēng)格標(biāo)注，以及真實(shí)樂譜編寫。

在對齊階段，音樂專家首先使用 MFA 完成粗標(biāo)注，再利用 Praat 來進(jìn)行對音素邊界，錯(cuò)字漏字，無聲區(qū)域（呼吸或靜默）的校對和標(biāo)注。

對齊完成后，另一組專家根據(jù)聽感對混聲、假聲、氣聲、咽音、顫音和滑音六種技巧進(jìn)行音素級標(biāo)注。此外，專家們還為每首歌標(biāo)記了全局風(fēng)格標(biāo)簽，包括唱法（流行或美聲）、情感（快樂或悲傷）、節(jié)奏（慢、中、快）和音高范圍（低、中、高）。

接著，為了編寫真實(shí)樂譜，研究者首先使用 RMVPE 來提取每首歌的 F0，隨后使用 ROSVOT 推導(dǎo)出 MIDI 形式的精細(xì)樂譜。接著，音樂專家根據(jù)錄制歌聲，并參考原始伴奏進(jìn)行以下步驟：

1. 確定實(shí)際的節(jié)奏、譜號和調(diào)性；

2. 調(diào)整樂譜以匹配真實(shí)音符的音高；

3. 根據(jù)真實(shí)樂譜的規(guī)則修改音符時(shí)長；

4. 標(biāo)注音符類型，如休止符、歌詞或連音符。

圖 5：F0、精細(xì)樂譜與真實(shí)樂譜之間的對比。精細(xì)樂譜會破壞音符時(shí)長的規(guī)律性，導(dǎo)致音符碎片化，不適合用于實(shí)際作曲。

在后續(xù)處理中，多個(gè)擅長特定語言的音樂專家對標(biāo)注進(jìn)行了審核。最后，歌聲音頻被按語義和無聲區(qū)域等因素分割為更小的片段，其中超過 95% 的句子時(shí)長在 5 到 20 秒之間。

圖 6：切句時(shí)長、技巧、每分鐘節(jié)拍數(shù)和音符音高的統(tǒng)計(jì)。

基準(zhǔn)測試

為了評估數(shù)據(jù)集質(zhì)量和任務(wù)適用性，GTSinger 在四個(gè)歌聲任務(wù)上進(jìn)行了全面評估：技巧可控的歌聲合成、技巧識別、歌聲風(fēng)格遷移以及語音到歌聲的轉(zhuǎn)換。

圖 7：技巧可控的歌聲合成的平行和非平行實(shí)驗(yàn)結(jié)果。平行實(shí)驗(yàn)使用真實(shí)技巧序列作為目標(biāo)。在非平行實(shí)驗(yàn)中，六種技巧會隨機(jī)且適當(dāng)?shù)胤峙浣o每個(gè)目標(biāo)音素。

圖 8：技巧檢測的總體和跨語言實(shí)驗(yàn)結(jié)果。語言被分類為亞洲語種和歐洲語種，跨語言實(shí)驗(yàn)中模型在其中一類語種訓(xùn)練并在另外一類測試。

圖 9：風(fēng)格遷移的平行和跨語言實(shí)驗(yàn)結(jié)果。

圖 10：語音到歌聲轉(zhuǎn)換的實(shí)驗(yàn)結(jié)果。

根據(jù)這些實(shí)驗(yàn)結(jié)果，可以看出 GTSinger 不僅能在廣泛的生成任務(wù)上應(yīng)用，也適用于檢測任務(wù)。

總結(jié)展望

本文提出了 GTSinger，一個(gè)全球化、多技巧的大型開源高質(zhì)量歌聲數(shù)據(jù)集，帶有技巧對照組、真實(shí)樂譜、配對朗讀數(shù)據(jù)，涵蓋了目前所有歌聲任務(wù)的需求，并在多個(gè)任務(wù)上提供了基準(zhǔn)測試。

未來工作可以進(jìn)一步擴(kuò)展數(shù)據(jù)的多樣性，如涵蓋阿拉伯語等常用語言以及氣泡音等技巧。同時(shí)研發(fā)基于字級別的模型可能會減少人工標(biāo)注引入的一些細(xì)微錯(cuò)誤的影響。最后，制作有伴奏的錄制歌聲數(shù)據(jù)集會對音樂領(lǐng)域有更大的幫助。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 數(shù)據(jù)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="y1e3a"></sub>