自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

人工智能 深度學(xué)習(xí)
深度學(xué)習(xí)在2006年開(kāi)始嶄露頭腳后,近幾年取得了飛速的發(fā)展,無(wú)論是學(xué)術(shù)研究還是企業(yè)應(yīng)用均呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì);伴隨著這項(xiàng)技術(shù)的不斷成熟,深度學(xué)習(xí)在智能語(yǔ)音領(lǐng)域率先發(fā)力,取得一系列成功的應(yīng)用。

深度學(xué)習(xí)在2006年開(kāi)始嶄露頭腳后,近幾年取得了飛速的發(fā)展,無(wú)論是學(xué)術(shù)研究還是企業(yè)應(yīng)用均呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì);伴隨著這項(xiàng)技術(shù)的不斷成熟,深度學(xué)習(xí)在智能語(yǔ)音領(lǐng)域率先發(fā)力,取得一系列成功的應(yīng)用。

例如,一. 音色的定制化,需要跟蹤錄大量的音庫(kù),重新訓(xùn)練一個(gè)模型;二. 個(gè)性化表示方法的定制化,可以錄一些數(shù)據(jù),通過(guò)深度學(xué)習(xí)訓(xùn)練模型,自適應(yīng)的方法來(lái)實(shí)現(xiàn)。

深度學(xué)習(xí)在統(tǒng)計(jì)參數(shù)語(yǔ)音合成中的應(yīng)用

語(yǔ)音合成主要采用波形拼接合成和統(tǒng)計(jì)參數(shù)合成兩種方式。波形拼接語(yǔ)音合成需要有足夠的高質(zhì)量發(fā)音人錄音才能夠合成高質(zhì)量的語(yǔ)音,它是商業(yè)產(chǎn)品中最常用的語(yǔ)音合成技術(shù)。統(tǒng)計(jì)參數(shù)語(yǔ)音合成雖然整體合成質(zhì)量略低,但是在小規(guī)模語(yǔ)料、低占用資源的情況下,優(yōu)勢(shì)更為明顯。此外,混合語(yǔ)音合成聯(lián)合了波形拼接合成和統(tǒng)計(jì)參數(shù)合成的優(yōu)勢(shì),選音方法類似于傳統(tǒng)的波形拼接方法,它利用參數(shù)合成方法來(lái)指導(dǎo)選音;接下來(lái)重點(diǎn)介紹目前廣泛使用的語(yǔ)音合成方法:

(1) 傳統(tǒng)的基于DNN/LSTM的合成

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

傳統(tǒng)的基于HMM統(tǒng)計(jì)參數(shù)的語(yǔ)音合成是在訓(xùn)練過(guò)程中建立文本參數(shù)與聲學(xué)參數(shù)之間的映射模型,通過(guò)高斯混合模型描述每個(gè)建模單元。在建模過(guò)程中有三個(gè)環(huán)節(jié)會(huì)導(dǎo)致語(yǔ)音音質(zhì)下降,第一是決策樹(shù)的聚類,第二是聲碼器,第三是參數(shù)生成算法。針對(duì)決策樹(shù)聚類問(wèn)題,可以通過(guò)深層神經(jīng)網(wǎng)絡(luò)建立文本特征和聲學(xué)特征之間的映射關(guān)系,替代傳統(tǒng)的淺層模型,提高模型精度;比較典型的深層神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)包括深層置信神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò);后者具有更強(qiáng)的序列學(xué)習(xí)能力,采用BLSTM-RNN建模時(shí),還可以跳過(guò)參數(shù)生成算法直接預(yù)測(cè)語(yǔ)音參數(shù),最后通過(guò)聲碼器就可以合成語(yǔ)音;總的來(lái)說(shuō),利用深層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性建模能力,在一定程度上提升了語(yǔ)音合成系統(tǒng)的性能,但是并沒(méi)有跳出原有的語(yǔ)音合成系統(tǒng)框架。

(2) 基于WaveNet的合成

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

在已有的研究中,很少有人會(huì)直接在時(shí)域上對(duì)已有音頻建模。從直覺(jué)上分析,構(gòu)建一個(gè)自回歸模型,能夠預(yù)測(cè)每一個(gè)samples是如何被前面所有的samples所影響的,是一個(gè)相當(dāng)艱巨的任務(wù)。谷歌提出的基于WaveNets的語(yǔ)音合成方法,跳出了傳統(tǒng)語(yǔ)音合成框架,繞開(kāi)聲碼器模塊,直接對(duì)采樣點(diǎn)進(jìn)行預(yù)測(cè),面對(duì)這個(gè)充滿挑戰(zhàn)的問(wèn)題,取得了突破。

WaveNet語(yǔ)音合成系統(tǒng)的輸入包括文本特征以及先前時(shí)段的音頻采樣點(diǎn)。其中文本特征的有效表述起到非常重要的作用。如果在沒(méi)有文本序列的情況下來(lái)訓(xùn)練網(wǎng)絡(luò),仍然可以生成語(yǔ)音,但是無(wú)法聽(tīng)懂輸出音頻的內(nèi)容。WaveNet語(yǔ)音合成系統(tǒng)存在的問(wèn)題是模型每次輸出單個(gè)采樣點(diǎn),計(jì)算效率難以滿足實(shí)用要求。可以引入一些自適應(yīng)的方法對(duì)已有模型進(jìn)行優(yōu)化,使其能夠適用于不同發(fā)音人。也可以在模型的輸入端提供更多的信息,例如情感或口音,這樣使得生成的語(yǔ)音可以更多樣化,更具表現(xiàn)力。

(3) 基于DeepVoice的合成

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

百度提出了Deep Voice語(yǔ)音合成系統(tǒng),它將里面的很多模塊用深度神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn),通過(guò)類似于WaveNet的合成器來(lái)合成,效果也是比較理想的。已有的語(yǔ)音合成系統(tǒng)會(huì)在某些環(huán)節(jié)上采用深度學(xué)習(xí),但在Deep Voice之前,沒(méi)有團(tuán)隊(duì)采用全深度學(xué)習(xí)的框架。傳統(tǒng)語(yǔ)音合成需要進(jìn)行大量的特征處理和特征構(gòu)建,但百度通過(guò)使用深度學(xué)習(xí)避免了這些問(wèn)題。這使得 Deep Voice 的應(yīng)用范圍更加廣泛,使用起來(lái)也更加方便。如果需要應(yīng)用于新的數(shù)據(jù)集,傳統(tǒng)的語(yǔ)音合成系統(tǒng)完成重新訓(xùn)練需數(shù)天到數(shù)周的時(shí)間進(jìn)行調(diào)節(jié),而對(duì)Deep Voice進(jìn)行手動(dòng)操作和訓(xùn)練模型所需的時(shí)間只要幾個(gè)小時(shí)就足夠。相比于WaveNet語(yǔ)音合成系統(tǒng) ,現(xiàn)在這個(gè)系統(tǒng)的有效速度提升了400倍。

(4) 兩個(gè)端對(duì)端的語(yǔ)音合成

第一個(gè)是Char2Wav,這個(gè)模型是直接對(duì)輸入的文本進(jìn)行編碼,采用encoder-decoder模型。對(duì)輸入特征進(jìn)行編碼,然后生成的中間編碼信息放到解碼器里進(jìn)行最后的合成,合成采用SimpleRNN的合成器來(lái)合成語(yǔ)音,效果也是比較理想的,而且是典型的End-To-End的語(yǔ)音合成模型。

為了合成讓人類聽(tīng)懂的語(yǔ)音,機(jī)器做了哪些“深度學(xué)習(xí)”?

再一個(gè)是谷歌提出的端對(duì)端的語(yǔ)音合成系統(tǒng),它跟Char2Wav比較類似,輸入的也是Embeddings,合成的效果也比較理性。

作者,馬驥:極限元智能科技聯(lián)合創(chuàng)始人,中科院-極限元“智能交互聯(lián)合實(shí)驗(yàn)室”副主任,曾先后就職于中科院軟件研究所、華為技術(shù)有限公司,獲得多項(xiàng)關(guān)于語(yǔ)音及音頻領(lǐng)域的專利,資深軟件開(kāi)發(fā)工程師和網(wǎng)絡(luò)安全解決方案專家,擅長(zhǎng)從用戶角度分析需求,提供有效的技術(shù)解決方案,具有豐富的商業(yè)交流和項(xiàng)目管理經(jīng)驗(yàn)。

作者:馬驥,極限元智能科技聯(lián)合創(chuàng)始人,中科院-極限元“智能交互聯(lián)合實(shí)驗(yàn)室”副主任。

責(zé)任編輯:未麗燕 來(lái)源: 極限元
相關(guān)推薦

2014-12-10 21:50:44

AdMaster

2023-02-24 14:15:10

機(jī)器人谷歌

2018-02-06 15:42:01

AI

2016-03-14 11:40:51

深度學(xué)習(xí)大數(shù)據(jù)高性能計(jì)算

2021-01-25 14:32:44

機(jī)器學(xué)習(xí)AI人工智能

2023-10-18 16:02:24

機(jī)器學(xué)習(xí)深度學(xué)習(xí)ChatGPT

2015-08-12 15:31:18

人工智能深度學(xué)習(xí)Fackbook

2022-08-11 08:00:00

機(jī)器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2017-08-30 09:20:47

深度學(xué)習(xí)語(yǔ)音合成Siri

2014-11-25 11:25:56

浪潮

2020-12-08 09:30:25

CPU內(nèi)存I

2018-03-25 20:51:07

語(yǔ)音合成深度前饋序列記憶網(wǎng)絡(luò)

2017-09-15 18:13:57

機(jī)器學(xué)習(xí)深度學(xué)習(xí)語(yǔ)音識(shí)別

2017-03-17 08:30:08

機(jī)器學(xué)習(xí)深度學(xué)習(xí)人工智能

2017-03-20 16:42:00

語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)人工智能

2019-07-16 11:10:32

CIOHermes轉(zhuǎn)型

2017-04-24 08:35:09

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)合成梯度

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉(cāng)庫(kù)

2018-07-09 16:34:15

人工智能語(yǔ)音合成深度學(xué)習(xí)

2021-06-23 10:27:48

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)