自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于線性網(wǎng)絡的語音合成說話人自適應

原創(chuàng)
人工智能 語音識別
一種基于低秩分解(low-rank plus diagonal,LRPD)的模型壓縮算法被應用于線性網(wǎng)絡。實驗發(fā)現(xiàn),當數(shù)據(jù)量較少的時候,通過LRPD來移除一些冗余的參數(shù),從而能夠使得系統(tǒng)合成的聲音更加穩(wěn)定。

【51CTO.com原創(chuàng)稿件】 說話人自適應算法利用說話人少量語料來建立說話人自適應語音合成系統(tǒng),該系統(tǒng)能夠合成令人滿意的語音。在本文中,我們提出了基于線性網(wǎng)絡的語音合成說話人自適應算法。該算法對每個說話人學習特定的線性網(wǎng)絡,從而獲得屬于目標說話人的聲學模型。通過該算法,使用200句目標說話人的自適應語料訓練的說話人自適應系統(tǒng)能夠獲得和使用1000句訓練的說話人相關(guān)系統(tǒng)相近的合成效果。

研究背景

對于一個目標說話人,如果他(她)擁有充足的訓練數(shù)據(jù),那么我們便可以建立一個說話人相關(guān)的聲學模型,基于該聲學模型的系統(tǒng)稱之為說話人相關(guān)的語音合成系統(tǒng)。利用該系統(tǒng),我們能夠合成和目標說話人聲音很像的語音。但是,大多數(shù)時候,目標說話人沒有充足的數(shù)據(jù),這使得合成出來的語音效果不太理想。利用說話人自適應算法,能夠基于比較有限的數(shù)據(jù)來獲得較好的語音合成系統(tǒng),該類算法節(jié)省了大量的錄音、轉(zhuǎn)錄和檢查工作,使得建立新的聲音的代價變得很小。

本文中,我們提出了基于線性網(wǎng)絡(Linear Network, LN)的語音合成說話人自適應算法。該算法通過在源說話人聲學模型的層間插入線性網(wǎng)絡,然后利用目標說話人的數(shù)據(jù)來更新該線性網(wǎng)絡和神經(jīng)網(wǎng)絡的輸出層,從而能夠獲得屬于目標說話人的聲學模型。另外,一種基于低秩分解(low-rank plus diagonal,LRPD)的模型壓縮算法被應用于線性網(wǎng)絡。實驗發(fā)現(xiàn),當數(shù)據(jù)量較少的時候,通過LRPD來移除一些冗余的參數(shù),從而能夠使得系統(tǒng)合成的聲音更加穩(wěn)定。

算法描述

本文中,源說話人聲學模型是一個基于多任務(multi-task)DNN-BLSTM的聲學模型,見Fig. 1左側(cè)。聲學模型的輸入為語音學特征,輸出為聲學特征。聲學特征包括梅爾倒譜系數(shù)等。實驗證明,在聲學模型的底層使用深層神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)可以獲得更好的底層特征,并且收斂速度上相比于不使用DNN更快。在輸出層上,不同的聲學特征使用各自的輸出層,它們僅共享聲學模型的隱層。

基于線性網(wǎng)絡的自適應算法首先被提出于語音識別領(lǐng)域,它的系統(tǒng)結(jié)構(gòu)見Fig. 1右側(cè)。根據(jù)線性網(wǎng)絡插入的位置不同,它可以被分為線性輸入網(wǎng)絡(Linear Input Network,LIN)、線性隱層網(wǎng)絡(Linear Hidden Network,LHN)和線性輸出網(wǎng)絡(Linear Output Network,LON)。

實驗

本文提出的算法,在中文數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集包含3個說話人,每個說話人有5000句話,時長約5h。數(shù)據(jù)集中語音的采樣率為16k,特征提取中的窗長和窗移分別為25ms和5ms。分別用A-male、B- female和C-female來命名這三個說話人。本實驗中,源說話人聲學模型訓練過程所使用的句子數(shù)為5000。為了對比不同句子數(shù)目下的合成效果,目標說話人的自適應數(shù)據(jù)集對應的句子數(shù)從50到1000不等。在自適應數(shù)據(jù)集之外,我們?nèi)?00句話作為開發(fā)集,取20句話作為測試集(用于主觀打分)。為了分析性別對自適應效果的影響,進行了三對源說話人-目標說話人之間的實驗:女生-女生、男生-女生和女生-男生。另外,使用客觀度量和主觀測聽兩種方式來衡量模型的性能。客觀度量主要包括:Mel-Cepstral Distortion (MCD)、root mean squared error (RMSE) of F0、unvoiced/voiced (U/V) prediction errors和開發(fā)集的MSE。主觀測聽主要是對系統(tǒng)合成的聲音樣本進行自然度和相似度上的打分——mean opinion score (MOS) 。

 

以女生-女生(C-female – B-female)為例,F(xiàn)ig. 3顯示了不同自適應句子數(shù)目和客觀度量之間的關(guān)系曲線圖。其中,SD表示說話人相關(guān)系統(tǒng),OL表示只更新源說話人聲學模型輸出層的說話人自適應系統(tǒng),OL+Full-LN和OL+LRPD-LN分別表示基于Full-LN和LRPD-LN的說話人自適應系統(tǒng)。根據(jù)Fig. 3,隨著訓練/自適應句子數(shù)的增加,所有系統(tǒng)間的客觀度量趨于相近。對比SD和另外三個自適應系統(tǒng),自適應系統(tǒng)的性能在相同句子數(shù)目下要更優(yōu)。另外,OL+LRPD-LN和OL+Full-LN相比于OL均出現(xiàn)性能上的跳變(提升),說明只更新輸出層而不對其他層進行更新不能夠得到較好的自適應效果。同時,當自適應句子數(shù)較少的時候,OL+Full-LN在客觀性能上要差于OL+LRPD-LN,這是因為OL+Full-LN引入太多的參數(shù)量,出現(xiàn)過擬合問題。反之,在句子數(shù)多的時候OL+Full-LN在客觀性能上要優(yōu)于OL+LRPD-LN,此時OL+LRPD-LN由于參數(shù)量少,出現(xiàn)欠擬合問題。

Fig. 4上對比了不同系統(tǒng)間的自然度和相似度。隨著句子數(shù)的減少,SD系統(tǒng)的性能出現(xiàn)急劇下降,OL+LRPD-LN相比于SD和OL+Full-LN要更加穩(wěn)定。與客觀度量一致,在相同句子數(shù)下,OL+Full-LN和OL+LRPD-LN在性能上要優(yōu)于SD。并且,OL+Full-LN和OL+LRPD-LN在200句話的性能和SD在1000句話時的性能相近。與客觀度量不同,OL+LRPD-LN在500句以下的時候性能上就優(yōu)于OL+Full-LN。這是因為過擬合導致合成出來的聲音不穩(wěn)定(雖然客觀度量更優(yōu))聲音的可懂度下降導致的。由此,我們依然可以得到相同的結(jié)論:當自適應句子數(shù)較少的時候,過擬合使得OL+Full-LN的性能變差。

結(jié)論

本文中,基于線性網(wǎng)絡的說話人自適應算法被應用于語音合成領(lǐng)域,基于LRPD的模型壓縮算法能夠提高聲音的穩(wěn)定性。通過三對不同的源說話人-目標說話人的實驗,我們發(fā)現(xiàn),當自適應句子數(shù)目非常少的時候,LRPD能夠提升聲音的穩(wěn)定性。另外,通過提出的算法,使用200句目標說話人的訓練語料訓練的說話人自適應系統(tǒng)能夠獲得和使用1000句訓練的說話人相關(guān)系統(tǒng)相近的效果。

【本月排行***0】

  1. 張真:AIOps六大技術(shù)難點與宜信運維的重大變革
  2. 新炬網(wǎng)絡程永新:插上AI翅膀 運維平臺煥發(fā)出嶄新生命力
  3. 從SIEM&AI到SIEM@AI AI構(gòu)建下一代企業(yè)安全大腦
  4. 基于線性網(wǎng)絡的語音合成說話人自適應
  5. 轉(zhuǎn)轉(zhuǎn)公司架構(gòu)算法部孫玄:AI下的微服務架構(gòu)

【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2017-10-09 11:21:46

神經(jīng)網(wǎng)絡OpenAI非線性

2020-09-09 09:51:41

神經(jīng)網(wǎng)絡DA技術(shù)感知器

2022-05-13 12:46:06

開源深度學習技術(shù)

2025-03-12 00:00:22

2024-03-14 14:16:13

2017-06-06 10:30:12

前端Web寬度自適應

2018-03-25 20:51:07

語音合成深度前饋序列記憶網(wǎng)絡

2019-08-07 18:45:40

語音助手TTS前端

2025-01-21 08:00:00

自適應框架框架開發(fā)

2022-10-24 17:57:06

CSS容器查詢

2012-05-09 10:58:25

JavaMEJava

2010-08-30 09:52:03

DIV高度自適應

2014-09-05 10:10:32

Android自適應布局設(shè)計

2016-02-17 10:39:18

語音識別語音合成語音交互

2024-09-10 09:53:30

2009-08-21 15:28:23

C#英文

2023-07-31 08:24:34

MySQL索引計數(shù)

2010-08-30 10:26:20

DIV自適應高度

2014-04-15 13:09:08

Android配色colour

2015-06-08 10:49:04

點贊
收藏

51CTO技術(shù)棧公眾號