自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用于語(yǔ)音合成的深度前饋序列記憶網(wǎng)絡(luò)

原創(chuàng)
人工智能 深度學(xué)習(xí)
我們提出了一種基于深度前饋序列記憶網(wǎng)絡(luò)的語(yǔ)音合成系統(tǒng)。該系統(tǒng)在達(dá)到與基于雙向長(zhǎng)短時(shí)記憶單元的語(yǔ)音合成系統(tǒng)一致的主觀聽(tīng)感的同時(shí),模型大小只有后者的四分之一,且合成速度是后者的四倍,非常適合于對(duì)內(nèi)存占用和計(jì)算效率非常敏感的端上產(chǎn)品環(huán)境。

摘要

我們提出了一種基于深度前饋序列記憶網(wǎng)絡(luò)的語(yǔ)音合成系統(tǒng)。該系統(tǒng)在達(dá)到與基于雙向長(zhǎng)短時(shí)記憶單元的語(yǔ)音合成系統(tǒng)一致的主觀聽(tīng)感的同時(shí),模型大小只有后者的四分之一,且合成速度是后者的四倍,非常適合于對(duì)內(nèi)存占用和計(jì)算效率非常敏感的端上產(chǎn)品環(huán)境。

研究背景

語(yǔ)音合成系統(tǒng)主要分為兩類,拼接合成系統(tǒng)和參數(shù)合成系統(tǒng)。其中參數(shù)合成系統(tǒng)在引入了神經(jīng)網(wǎng)絡(luò)作為模型之后,合成質(zhì)量和自然度都獲得了長(zhǎng)足的進(jìn)步。另一方面,物聯(lián)網(wǎng)設(shè)備(例如智能音箱和智能電視)的大量普及也對(duì)在設(shè)備上部署的參數(shù)合成系統(tǒng)提出了計(jì)算資源的限制和實(shí)時(shí)率的要求。本工作引入的深度前饋序列記憶網(wǎng)絡(luò)可以在保持合成質(zhì)量的同時(shí),有效降低計(jì)算量,提高合成速度。

我們使用基于雙向長(zhǎng)短時(shí)記憶單元(BLSTM)的統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)作為基線系統(tǒng)。與其他現(xiàn)代統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)相似,我們提出的基于深度前饋序列記憶網(wǎng)絡(luò)(DFSMN)的統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)也是由3個(gè)主要部分組成,聲音合成器(vocoder),前端模塊和后端模塊,如上圖所示。我們使用開(kāi)源工具WORLD作為我們的聲音合成器,用來(lái)在模型訓(xùn)練時(shí)從原始語(yǔ)音波形中提取頻譜信息、基頻的對(duì)數(shù)、頻帶周期特征(BAP)和清濁音標(biāo)記,也用來(lái)在語(yǔ)音合成時(shí)完成從聲學(xué)參數(shù)到實(shí)際聲音的轉(zhuǎn)換。前端模塊用來(lái)對(duì)輸入的文本進(jìn)行正則化和詞法分析,我們把這些語(yǔ)言學(xué)特征編碼后作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入。后端模塊用來(lái)建立從輸入的語(yǔ)言學(xué)特征到聲學(xué)參數(shù)的映射,在我們的系統(tǒng)中,我們使用DFSMN作為后端模塊。

深度前饋序列記憶網(wǎng)絡(luò)

緊湊前饋序列記憶網(wǎng)絡(luò)(cFSMN)作為標(biāo)準(zhǔn)的前饋序列記憶網(wǎng)絡(luò)(FSMN)的改進(jìn)版本,在網(wǎng)絡(luò)結(jié)構(gòu)中引入了低秩矩陣分解,這種改進(jìn)簡(jiǎn)化了FSMN,減少了模型的參數(shù)量,并加速了模型的訓(xùn)練和預(yù)測(cè)過(guò)程。

上圖給出了cFSMN的結(jié)構(gòu)的圖示。對(duì)于神經(jīng)網(wǎng)絡(luò)的每一個(gè)cFSMN層,計(jì)算過(guò)程可表示成以下步驟①經(jīng)過(guò)一個(gè)線性映射,把上一層的輸出映射到一個(gè)低維向量②記憶模塊執(zhí)行計(jì)算,計(jì)算當(dāng)前幀之前和之后的若干幀和當(dāng)前幀的低維向量的逐維加權(quán)和③把該加權(quán)和再經(jīng)過(guò)一個(gè)仿射變換和一個(gè)非線性函數(shù),得到當(dāng)前層的輸出。三個(gè)步驟可依次表示成如下公式。

與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs,包括BLSTM)類似,通過(guò)調(diào)整記憶模塊的階數(shù),cFSMN有能力捕捉序列的長(zhǎng)程信息。另一方面,cFSMN可以直接通過(guò)反向傳播算法(BP)進(jìn)行訓(xùn)練,與必須使用沿時(shí)間反向傳播算法(BPTT)進(jìn)行訓(xùn)練的RNNs相比,訓(xùn)練cFSMN速度更快,且較不容易受到梯度消失的影響。

對(duì)cFSMN進(jìn)一步改進(jìn),我們得到了深度前饋序列記憶網(wǎng)絡(luò)(DFSMN)。DFSMN利用了在各類深度神經(jīng)網(wǎng)絡(luò)中被廣泛使用的跳躍連接(skip-connections)技術(shù),使得執(zhí)行反向傳播算法的時(shí)候,梯度可以繞過(guò)非線性變換,即使堆疊了更多DFSMN層,網(wǎng)絡(luò)也能快速且正確地收斂。對(duì)于DFSMN模型,增加深度的好處有兩個(gè)方面。一方面,更深的網(wǎng)絡(luò)一般來(lái)說(shuō)具有更強(qiáng)的表征能力,另一方面,增加深度可以間接地增大DFSMN模型預(yù)測(cè)當(dāng)前幀的輸出時(shí)可以利用的上下文長(zhǎng)度,這在直觀上非常有利于捕捉序列的長(zhǎng)程信息。具體來(lái)說(shuō),我們把跳躍連接添加到了相鄰兩層的記憶模塊之間,如下面公式所示。由于DFSMN各層的記憶模塊的維數(shù)相同,跳躍連接可由恒等變換實(shí)現(xiàn)。

我們可以認(rèn)為DFSMN是一種非常靈活的模型。當(dāng)輸入序列很短,或者對(duì)預(yù)測(cè)延時(shí)要求較高的時(shí)候,可以使用較小的記憶模塊階數(shù),在這種情況下只有當(dāng)前幀附近幀的信息被用來(lái)預(yù)測(cè)當(dāng)前幀的輸出。而如果輸入序列很長(zhǎng),或者在預(yù)測(cè)延時(shí)不是那么重要的場(chǎng)景中,可以使用較大的記憶模塊階數(shù),那么序列的長(zhǎng)程信息就能被有效利用和建模,從而有利于提高模型的性能。

除了階數(shù)之外,我們?yōu)镈FSMN的記憶模塊增加了另一個(gè)超參數(shù),步長(zhǎng)(stride),用來(lái)表示記憶模塊提取過(guò)去或未來(lái)幀的信息時(shí),跳過(guò)多少相鄰的幀。這是有依據(jù)的,因?yàn)榕c語(yǔ)音識(shí)別任務(wù)相比,語(yǔ)音合成任務(wù)相鄰幀之間的重合部分甚至更多。

上文已經(jīng)提到,除了直接增加各層的記憶模塊的階數(shù)之外,增加模型的深度也能間接增加預(yù)測(cè)當(dāng)前幀的輸出時(shí)模型可以利用的上下文的長(zhǎng)度,上圖給出了一個(gè)例子。

實(shí)驗(yàn)

在實(shí)驗(yàn)階段,我們使用的是一個(gè)由男性朗讀的中文小說(shuō)數(shù)據(jù)集。我們把數(shù)據(jù)集劃分成兩部分,其中訓(xùn)練集包括38600句朗讀(大約為83小時(shí)),驗(yàn)證集包括1400句朗讀(大約為3小時(shí))。所有的語(yǔ)音數(shù)據(jù)采樣率都為16k赫茲,每幀幀長(zhǎng)為25毫秒,幀移為5毫秒。我們使用WORLD聲音合成器逐幀提取聲學(xué)參數(shù),包括60維梅爾倒譜系數(shù),3維基頻的對(duì)數(shù),11維BAP特征以及1維清濁音標(biāo)記。我們使用上述四組特征作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的四個(gè)目標(biāo),進(jìn)行多目標(biāo)訓(xùn)練。前端模塊提取出的語(yǔ)言學(xué)特征,共計(jì)754維,作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入。

我們對(duì)比的基線系統(tǒng)是基于一個(gè)強(qiáng)大的BLSTM模型,該模型由底層的1個(gè)全連接層和上層的3個(gè)BLSTM層組成,其中全連接層包含2048個(gè)單元,BLSTM層包含2048個(gè)記憶單元。該模型通過(guò)沿時(shí)間反向傳播算法(BPTT)訓(xùn)練,而我們的DFSMN模型通過(guò)標(biāo)準(zhǔn)的反向傳播算法(BP)訓(xùn)練。包括基線系統(tǒng)在內(nèi),我們的模型均通過(guò)逐塊模型更新過(guò)濾算法(BMUF)在2塊GPU上訓(xùn)練。我們使用多目標(biāo)幀級(jí)別均方誤差(MSE)作為訓(xùn)練目標(biāo)。

所有的DFSMN模型均由底層的若干DFSMN層和上的2個(gè)全連接層組成,每個(gè)DFSMN層包含2048個(gè)結(jié)點(diǎn)和512個(gè)投影結(jié)點(diǎn),而每個(gè)全連接層包含2048個(gè)結(jié)點(diǎn)。在上圖中,第三列表示該模型由幾層DFSMN層和幾層全連接層組成,第四列表示該模型DFSMN層的記憶模塊的階數(shù)和步長(zhǎng)。由于這是FSMN這一類模型***應(yīng)用在語(yǔ)音合成任務(wù)中,因此我們的實(shí)驗(yàn)從一個(gè)深度淺且階數(shù)小的模型,即模型A開(kāi)始(注意只有模型A的步長(zhǎng)為1,因?yàn)槲覀儼l(fā)現(xiàn)步長(zhǎng)為2始終稍好于步長(zhǎng)為1的相應(yīng)模型)。從系統(tǒng)A到系統(tǒng)D,我們?cè)诠潭―FSMN層數(shù)為3的同時(shí)逐漸增加階數(shù)。從系統(tǒng)D到系統(tǒng)F,我們?cè)诠潭A數(shù)和步長(zhǎng)為10,10,2,2的同時(shí)逐漸增加層數(shù)。從系統(tǒng)F到系統(tǒng)I,我們固定DFSMN層數(shù)為10并再次逐漸增加階數(shù)。在上述一系列實(shí)驗(yàn)中,隨著DFSMN模型深度和階數(shù)的增加,客觀指標(biāo)逐漸降低(越低越好),這一趨勢(shì)非常明顯,且系統(tǒng)H的客觀指標(biāo)超過(guò)了BLSTM基線。

另一方面,我們也做了平均主觀得分(MOS)測(cè)試(越高越好),測(cè)試結(jié)果如上圖所示。主觀測(cè)試是通過(guò)付費(fèi)眾包平臺(tái),由40個(gè)母語(yǔ)為中文的測(cè)試人員完成的。在主觀測(cè)試中,每個(gè)系統(tǒng)生成了20句集外合成語(yǔ)音,每句合成語(yǔ)音由10個(gè)不同的測(cè)試人員獨(dú)立評(píng)價(jià)。在平均主觀得分的測(cè)試結(jié)果表明,從系統(tǒng)A到系統(tǒng)E,主觀聽(tīng)感自然度逐漸提高,且系統(tǒng)E達(dá)到了與BLSTM基線系統(tǒng)一致的水平。但是,盡管后續(xù)系統(tǒng)客觀指標(biāo)持續(xù)提高,主觀指標(biāo)只是在系統(tǒng)E得分的上下波動(dòng),沒(méi)有進(jìn)一步提高。

結(jié)論

根據(jù)上述主客觀測(cè)試,我們得到的結(jié)論是,歷史和未來(lái)信息各捕捉120幀(600毫秒)是語(yǔ)音合成聲學(xué)模型建模所需要的上下文長(zhǎng)度的上限,更多的上下文信息對(duì)合成結(jié)果沒(méi)有直接幫助。與BLSTM基線系統(tǒng)相比,我們提出的DFSMN系統(tǒng)可以在獲得與基線系統(tǒng)一致的主觀聽(tīng)感的同時(shí),模型大小只有基線系統(tǒng)的1/4,預(yù)測(cè)速度則是基線系統(tǒng)的4倍,這使得該系統(tǒng)非常適合于對(duì)內(nèi)存占用和計(jì)算效率要求很高的端上產(chǎn)品環(huán)境,例如在各類物聯(lián)網(wǎng)設(shè)備上部署。

原文鏈接:https://arxiv.org/abs/1802.09194

團(tuán)隊(duì):阿里巴巴語(yǔ)音交互智能團(tuán)隊(duì)

作者:畢夢(mèng)霄/Mengxiao Bi,盧恒/Heng Lu,張仕良/Shiliang Zhang,雷鳴/Ming Lei,鄢志杰/Zhijie Yan
會(huì)議:ICASSP-2018

責(zé)任編輯:王雪燕 來(lái)源: 51CTO
相關(guān)推薦

2018-03-16 13:27:55

神經(jīng)網(wǎng)絡(luò)大詞匯量語(yǔ)音識(shí)別

2019-11-06 17:00:51

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2017-09-05 08:14:09

深度學(xué)習(xí)語(yǔ)音合成

2017-04-04 20:49:27

深度神經(jīng)人工智能語(yǔ)音合成

2018-04-23 16:27:27

線性網(wǎng)絡(luò)語(yǔ)音合成自適應(yīng)

2016-02-17 10:39:18

語(yǔ)音識(shí)別語(yǔ)音合成語(yǔ)音交互

2017-08-30 09:20:47

深度學(xué)習(xí)語(yǔ)音合成Siri

2009-08-21 15:28:23

C#英文

2017-09-08 15:36:15

DNN神經(jīng)網(wǎng)絡(luò)算法

2022-12-05 07:17:14

人工智能語(yǔ)音合成

2025-01-07 09:40:00

2016-01-27 13:34:07

開(kāi)源語(yǔ)音識(shí)別CNTK

2017-09-06 10:51:22

Facebook

2020-09-03 11:22:35

音頻騰訊云AI

2023-06-13 09:53:59

智能汽車

2021-01-22 22:15:30

AI

2024-01-11 09:00:00

2017-03-07 13:55:30

自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2021-05-11 14:40:36

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2022-10-19 12:47:05

深度學(xué)習(xí)語(yǔ)音合成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)