自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!

發(fā)布于 2024-4-3 09:44
瀏覽
0收藏

本項目測試參考歌聲,歌詞“風吹來的砂冥冥在哭泣,難道早就預言了分離”:

3_gt

夕小瑤科技說

12秒

提示詞“I want to listen to a song with a man voice.”生成的歌聲:

轉(zhuǎn)換男聲

夕小瑤科技說

12秒

提示詞“I'm in the mood for a song performed by a madam artist.”生成的歌聲:

轉(zhuǎn)換女聲

夕小瑤科技說

12秒

引言:自然語言指令在歌聲合成中的新突破

在數(shù)字音頻技術(shù)的發(fā)展歷程中,歌聲合成(Singing Voice Synthesis, SVS)一直是一個充滿挑戰(zhàn)的領(lǐng)域。隨著深度學習的興起,SVS系統(tǒng)已經(jīng)能夠生成高保真度的歌聲,為音樂創(chuàng)作和娛樂產(chǎn)業(yè)的發(fā)展提供了新的動力。然而,盡管現(xiàn)有的SVS方法在音頻質(zhì)量和自然度上取得了顯著進步,它們通常缺乏對合成歌聲風格屬性的明確控制能力。這些風格屬性包括說話者音色、聲音范圍和能量等。為了解決這一問題,研究者們開始探索使用自然語言指令作為風格提示,以期實現(xiàn)對合成歌聲的精確控制。

自然語言指令的使用不僅可以實現(xiàn)對特定屬性的精確控制,還可以簡化用戶交互,為非計算機專業(yè)用戶如音樂家和視頻創(chuàng)作者帶來便利。然而,將自然語言風格提示應用于SVS面臨著多個挑戰(zhàn),包括旋律與聲音范圍的解耦、文本表示的選擇以及數(shù)據(jù)稀缺性等問題。本文將介紹一種新的SVS方法——Prompt-Singer,它是首個能夠利用自然語言提示來控制歌手性別、聲音范圍和音量的SVS方法。

論文標題:
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt

論文鏈接:
???https://arxiv.org/pdf/2403.11780.pdf??

項目鏈接:
???http://prompt-singer.github.io??

Prompt-Singer模型簡介:自然語言驅(qū)動的歌聲合成方法

1. 模型的設(shè)計理念與目標

Prompt-Singer模型的設(shè)計理念是通過自然語言指令作為風格提示來控制合成歌聲的風格屬性,這不僅可以對特定屬性進行精確控制,還可以簡化用戶交互,為非專業(yè)用戶如音樂家和視頻創(chuàng)作者帶來便利。該模型采用基于解碼器的Transformer架構(gòu),具有多尺度層次結(jié)構(gòu),并設(shè)計了一個旋律解耦的音高表示方法,使得在保持旋律準確性的同時,能夠?qū)崿F(xiàn)文本條件下的聲音范圍控制。

2. 解決既有SVS方法的局限性

現(xiàn)有的SVS方法雖然在音頻質(zhì)量和自然性方面取得了顯著進展,但它們?nèi)狈γ鞔_控制合成歌聲風格屬性的能力。Prompt-Singer模型通過自然語言提示來控制合成歌聲的風格屬性,如歌手音色、聲音范圍和能量,解決了現(xiàn)有方法的局限性。例如,現(xiàn)有的SVS數(shù)據(jù)中的音高注釋與特定歌手在特定聲音范圍內(nèi)的表現(xiàn)相綁定,這種耦合性質(zhì)使得生成與提示相符且旋律準確的歌聲變得具有挑戰(zhàn)性。Prompt-Singer通過設(shè)計解耦的音高表示和引入語音數(shù)據(jù)來緩解數(shù)據(jù)稀缺問題,從而提高了模型對風格屬性的控制能力和音頻質(zhì)量。

Prompt的設(shè)計與獲取

Prompt(自然語言提示)是Prompt-Singer模型的核心要素,由于沒有現(xiàn)成的數(shù)據(jù)集可用,因此研究者們利用了正常的SVS數(shù)據(jù)集,并設(shè)計了一種方法來為每個數(shù)據(jù)項生成提示句子。這個過程主要包括屬性分類、關(guān)鍵詞與模板生成、提示詞組裝三個階段。

1. 屬性分類根據(jù)音頻特征將音頻樣本分配到預定義的性別、音量和音域類別中(下圖)。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

2. 關(guān)鍵詞與模板生成利用大語言模型為每個類別生成相關(guān)關(guān)鍵詞,并創(chuàng)建可插入關(guān)鍵詞的提示句子模板(下圖)。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

3. 提示句子組裝在訓練時,結(jié)合樣本的屬性標簽和預生成的關(guān)鍵詞與模板,動態(tài)構(gòu)建用于模型輸入的自然語言提示(下圖)。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

自然語言提示合成歌聲的挑戰(zhàn)與解決方案

1. 旋律與聲域的解耦難題

在現(xiàn)實生活中,不同的歌手可能會以不同的聲域演唱同一首歌曲。例如,一位年長的男士和一個小女孩可能會在不同的聲域內(nèi)唱相同的歌。然而,SVS數(shù)據(jù)中的音高注釋通常與特定歌手的特定聲域綁定。這種耦合性質(zhì)使得生成與提示相符的、具有一致聲域和音色的歌聲以及與給定音高音符對齊的準確旋律變得具有挑戰(zhàn)性。為了解決這一問題,Prompt-Singer模型采用了一種解耦的音高表示方法,通過引入聲域因子和獨立于歌手的旋律序列,實現(xiàn)了在保持旋律準確性的同時對聲域進行控制。

2. 文本表示的選擇與優(yōu)化

盡管一些研究嘗試將文本表示與音樂、語音和一般音頻概念聯(lián)系起來,但目前還沒有專門為歌唱風格描述定制的文本表示,優(yōu)化提示表示的選擇對于任務(wù)來說仍是未知的。Prompt-Singer模型探索了不同類型的文本編碼器,包括BERT、FLAN-T5和CLAP,并對編碼器進行了微調(diào),以尋找最佳的文本表示。

3. 數(shù)據(jù)稀缺性的應對策略

由于需要細粒度的注釋,現(xiàn)有的SVS數(shù)據(jù)集規(guī)模較小,通常只包含幾小時或幾十小時的歌唱數(shù)據(jù)。這不僅限制了數(shù)據(jù)的多樣性,而且增加了學習自然語言描述與數(shù)據(jù)分布之間關(guān)聯(lián)的難度。為了緩解數(shù)據(jù)稀缺性,Prompt-Singer模型引入了語音數(shù)據(jù),通過使用與SVS數(shù)據(jù)相同格式的TTS數(shù)據(jù),增加了訓練數(shù)據(jù)的數(shù)量和多樣性。

本項目測試參考歌聲,歌詞“快樂時你不用分心想起我,難過時請一定記得聯(lián)絡(luò)我”:

0_gt

夕小瑤科技說

12秒

提示詞“Would you give me a song sung by a male vocalist?”生成的歌聲:

0_male

夕小瑤科技說

12秒

提示詞“I'm looking for a song with a woman singer.”生成的歌聲:

0_female

夕小瑤科技說

12秒

Prompt-Singer模型架構(gòu)詳解

1. 多尺度Transformer的作用與結(jié)構(gòu)

Prompt-Singer模型的整體架構(gòu)如下圖所示。它主要由兩個子模塊組成:1)多尺度Transformer,它根據(jù)自然語言提示、帶有時長的歌詞和音高信息的輸入生成離散的聲學單元;2)單元聲碼器(Unit Vocoder),它將生成的聲學單元映射到音頻波形上。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

多尺度Transformer的層次結(jié)構(gòu),由全局和局部Transformer組成(下圖),它們都是基于解碼器的Transformer。全局Transformer負責建模不同幀之間的關(guān)聯(lián),而局部Transformer則在幀內(nèi)自回歸預測不同碼本的聲學單元。這種多尺度結(jié)構(gòu)有助于模型處理長序列,并在不同模態(tài)之間建立內(nèi)在關(guān)系。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

2. 聲音表示與文本表示的處理

在聲音表示方面,Prompt-Singer模型使用SoundStream生成的離散聲學單元作為Transformer的預測目標。文本輸入包括兩部分:歌詞和自然語言提示。歌詞通過查找表嵌入并輸入到Transformer中,而自然語言提示則使用凍結(jié)參數(shù)的文本編碼器提取語義表示,并通過線性層映射其維度以適應Transformer。

3. 解耦音高表示的創(chuàng)新設(shè)計

Prompt-Singer模型基于等溫定律理論,將F0分解為兩個組成部分:平均F0值(表示聲域)和調(diào)整后的F0序列(表示旋律信息)。這種簡單而有效的表示方法創(chuàng)建了信息瓶頸,迫使模型從調(diào)整后的F0序列和平均F0因子中提取旋律和聲域信息。

4. 利用語音數(shù)據(jù)緩解數(shù)據(jù)稀缺

為了緩解數(shù)據(jù)稀缺性,模型結(jié)合了TTS數(shù)據(jù)進行訓練,以增加訓練數(shù)據(jù)的數(shù)量和多樣性。此外,模型還探索了在低資源情況下用語音數(shù)據(jù)替代歌唱數(shù)據(jù)的可行性,并在不同量級的低資源SVS數(shù)據(jù)與大量TTS數(shù)據(jù)的組合下評估了模型性能。

實驗設(shè)置與評價指標:歌聲合成模型的多數(shù)據(jù)集融合與性能評估

1. 數(shù)據(jù)集的選擇與組合

為了控制合成歌聲的風格屬性,我們選擇了M4Singer、Opencpop、Opensinger和PopCS四個SVS數(shù)據(jù)集,共計127小時的多歌手歌唱數(shù)據(jù)。同時,我們還利用了AISHELL-3、Biaobei、THCHS-30和DidiSpeech等四個普通話TTS語料庫,總計約179小時的語音數(shù)據(jù)(下表)。這些數(shù)據(jù)集的選擇旨在增加訓練數(shù)據(jù)的數(shù)量和多樣性,從而提高模型的泛化能力和風格控制的準確性。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

2. 模型配置與訓練細節(jié)

我們采用了基于解碼器的多尺度Transformer架構(gòu),并設(shè)計了一種音高解耦表示法,這使得模型在保持旋律準確性的同時,能夠通過文本條件控制聲音范圍。如下表所示,全局Transformer有20層,參數(shù)量為320M;局部Transformer有6層,參數(shù)量為100M。我們使用SoundStream模型生成的離散聲學單元作為Transformer的預測目標,并通過一個基于GAN的單元聲碼器將生成的聲學單元映射到高保真的音頻波形。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

3. 客觀與主觀評價指標的應用

我們采用了客觀和主觀的評價指標來評估模型的控制能力和歌聲質(zhì)量。客觀指標包括每個屬性的準確性百分比,其中性別分類器用于性別屬性的評估,振幅RMS和平均F0用于評估音量和音域。我們還計算了R-FFE(調(diào)整音域后的F0幀誤差)來衡量旋律準確性。對于主觀指標,我們通過亞馬遜Mechanical Turk進行人群外包評估,評估者需要根據(jù)1-5的Likert量表對歌聲質(zhì)量和與提示的相關(guān)性進行評分,并報告平均意見得分(MOS)和相關(guān)性(RMOS)(下面兩圖分別是MOS和RMOS的評分界面)。通過這些綜合評價,我們可以全面了解模型的性能表現(xiàn)。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

實驗結(jié)果與分析:文本編碼與語音數(shù)據(jù)在歌聲合成模型中的作用與表現(xiàn)

1. 不同文本表示對控制能力的影響

實驗結(jié)果表明,經(jīng)過微調(diào)的文本編碼器在控制準確性上有顯著提高,尤其是FLAN-T5 large和BERT-large模型(下表)。這表明將文本表示與更簡單的分布對齊有助于模型學習提示和歌唱風格之間的相關(guān)性。此外,不同類型的文本編碼器在不同屬性的控制能力上表現(xiàn)不同,這可能與模型的預訓練方法和數(shù)據(jù)有關(guān)。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

2. 語音數(shù)據(jù)在低資源情景下的作用

如下表所示,在低資源情景下,引入語音數(shù)據(jù)可以顯著提高控制準確性和生成質(zhì)量,但對旋律準確性有輕微的負面影響。隨著SVS數(shù)據(jù)量的減少,歌聲質(zhì)量和旋律準確性急劇下降,而音量和音域的準確性變化相對平緩。這表明,盡管語音數(shù)據(jù)有助于提高控制準確性和音頻質(zhì)量,但仍然需要足夠量的歌唱數(shù)據(jù)來確保合成質(zhì)量和旋律準確性。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

3. 模型在多屬性提示下的表現(xiàn)

如下表所示,我們的模型在單屬性和多屬性提示下都表現(xiàn)出了良好的性能。隨著屬性數(shù)量的增加,準確性和與提示的相關(guān)性有輕微下降,這表明多屬性條件下聲學風格的條件分布更復雜,模型化難度增加。盡管如此,我們的模型在處理單個和多個屬性的提示時仍然展現(xiàn)出了良好的性能。

今日arXiv最熱NLP大模型論文:浙大發(fā)布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區(qū)

討論與總結(jié):合成歌聲的創(chuàng)新與挑戰(zhàn)

1. 模型的優(yōu)勢與局限性

Prompt-Singer模型通過自然語言提示來控制合成歌聲的風格,這種方法在控制特定屬性方面具有明顯的優(yōu)勢,同時簡化了用戶交互,方便非專業(yè)用戶使用。模型采用基于解碼器的Transformer架構(gòu),并設(shè)計了一種旋律與音域解耦的音高表示,使得在保持旋律準確性的同時,能夠通過文本條件控制音域。

模型的局限性在于:面臨解耦旋律與音域、選擇文本表示、數(shù)據(jù)稀缺等挑戰(zhàn);因使用大語言模型和自回歸生成導致高計算成本和推理延遲;提示文本的生成流程簡單且僵化,可能產(chǎn)生語法錯誤和表達偏差。

2. 對未來研究方向的展望

未來的研究可以在多個方向上進行拓展。首先,可以引入更多的風格屬性,如情感、節(jié)奏和更詳細的歌手信息,以進一步提高合成歌聲的多樣性和個性化。其次,可以探索更高效的模型架構(gòu)和生成范式,以減少計算開銷并提高推理效率。此外,改進提示文本的生成流程,提高其準確性和表達力,也是未來研究的一個重要方向。


本文轉(zhuǎn)載自夕小瑤科技說,作者:Tscom

原文鏈接:??https://mp.weixin.qq.com/s/kkSJsNTyiGQAvnE2OaCwxQ??

收藏
回復
舉報
回復
相關(guān)推薦