自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何用緊湊型語(yǔ)音表征打造高性能語(yǔ)音合成系統(tǒng)

人工智能 深度學(xué)習(xí)
語(yǔ)音合成(Text-to-Speech, 簡(jiǎn)稱 TTS)是把文本轉(zhuǎn)化為語(yǔ)音的一種技術(shù),被廣泛應(yīng)用于視頻配音、音視頻內(nèi)容創(chuàng)作、智能人機(jī)交互等產(chǎn)品中。本文提出采用矢量量化變分自編碼器(VQ-VAE)從目標(biāo)數(shù)據(jù)中挖掘出一種更好的緊湊型表示。

小紅書(shū)多媒體智能算法團(tuán)隊(duì)和香港中文大學(xué)首次聯(lián)合提出了基于多階段多碼本緊湊型語(yǔ)音表征的高性能語(yǔ)音合成方案 MSMC-TTS?;谑噶苛炕兎肿跃幋a器(VQ-VAE)的特征分析器采用若干碼本對(duì)聲學(xué)特征進(jìn)行階段式編碼,形成一組具有不同時(shí)間分辨率的隱序列集合。這些隱序列可以由多階段預(yù)測(cè)器從文本中預(yù)測(cè)獲得,并且通過(guò)神經(jīng)聲碼器轉(zhuǎn)換成目標(biāo)音頻。該方案,對(duì)比基于Mel-Spectrogram的Fastspeech 基線系統(tǒng),音質(zhì)和自然度有明顯的改善。該工作現(xiàn)已總結(jié)成論文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”,并被語(yǔ)音領(lǐng)域會(huì)議 INTERSPEECH 2022 接收。

一、背景介紹

語(yǔ)音合成(Text-to-Speech, 簡(jiǎn)稱 TTS)是把文本轉(zhuǎn)化為語(yǔ)音的一種技術(shù),被廣泛應(yīng)用于視頻配音、音視頻內(nèi)容創(chuàng)作、智能人機(jī)交互等產(chǎn)品中。主流語(yǔ)音合成系統(tǒng)后端的聲學(xué)建模技術(shù)通常包括特征提取器,聲學(xué)模型和聲碼器三部分。TTS 通常會(huì)對(duì)基于信號(hào)處理獲得的聲學(xué)特征(例如梅爾譜 Mel Spectrogram)進(jìn)行聲學(xué)建模,但受限于模型的擬合能力,預(yù)測(cè)得到的聲學(xué)特征和真實(shí)數(shù)據(jù)在分布上存在一定差異,這導(dǎo)致在真實(shí)數(shù)據(jù)上訓(xùn)練的聲碼器難以從預(yù)測(cè)特征中生成高質(zhì)量音頻。


圖片

TTS 系統(tǒng)框架圖


針對(duì)這一難題,學(xué)界使用了更為復(fù)雜的模型結(jié)構(gòu)和更為新穎的生成式算法以減小預(yù)測(cè)誤差和縮小分布差異。而本工作另辟蹊徑,以緊湊型語(yǔ)音表征為出發(fā)點(diǎn)來(lái)考慮問(wèn)題。對(duì)語(yǔ)音合成來(lái)說(shuō),1)聲學(xué)特征良好的緊湊性能夠保證更為準(zhǔn)確的模型預(yù)測(cè)結(jié)果和更魯棒的波形生成;2)聲學(xué)特征良好的完備性能夠保證更好地重構(gòu)語(yǔ)音信號(hào)?;谶@兩點(diǎn)考慮,本文提出采用矢量量化變分自編碼器(VQ-VAE)從目標(biāo)數(shù)據(jù)中挖掘出一種更好的緊湊型表示。

二、表征學(xué)習(xí) MSMC VQ-VAE

VQ-VAE 包括編碼器與解碼器。編碼器將輸入聲學(xué)特征序列加工為隱序列并用相應(yīng)碼本進(jìn)行量化。而解碼器把經(jīng)過(guò)量化的序列恢復(fù)為原始聲學(xué)特征序列。這種量化序列作為離散化表征具有較好的緊湊性(特征參數(shù)量較少)。其中量化程度越高,即碼本容量越小,特征緊湊程度就越高。但這也造成了信息壓縮,使特征完備度變差。為了確保足夠的完備性,一般都會(huì)使用更多的碼字。但隨著碼本容量的增加,碼本更新所需的數(shù)據(jù)量以及訓(xùn)練次數(shù)將呈指數(shù)級(jí)遞增,這使得 VQ-VAE 難以通過(guò)增大碼本來(lái)有效增強(qiáng)表征完備性。針對(duì)此問(wèn)題,本文提出多頭矢量量化(MHVQ)方法。


圖片

VQ-VAE 模型結(jié)構(gòu)圖


MHVQ 將單個(gè)碼本按特征維度方向均分為若干個(gè)子碼本。量化時(shí)還將每個(gè)輸入向量相等地切割成若干個(gè)子向量,并分別用相應(yīng)子碼本量化,最終拼接成輸出向量。這樣我們就能更加有效地提高碼本利用率及表征容量,而無(wú)需增加碼本參數(shù)量。例如,要使壓縮率減少1倍,碼字本來(lái)要增加到原碼本數(shù)的平方。采用 MHVQ 后,只要把碼本切分成兩部分就可以實(shí)現(xiàn)相同的壓縮率。因此,本方法能夠更加有效地調(diào)節(jié)量化表征的完備性。


圖片

MHVQ 示例圖


另外在對(duì)語(yǔ)音序列進(jìn)行量化時(shí),語(yǔ)音特征中蘊(yùn)含的各類信息都有不同程度地丟失。這些信息在時(shí)間粒度上是不一樣的,如粗粒度的音色,發(fā)音風(fēng)格等,以及細(xì)粒度的音調(diào),發(fā)音細(xì)節(jié)等。在任何時(shí)間尺度上過(guò)度壓縮信息都可能使語(yǔ)音質(zhì)量遭到一定程度的破壞。為了緩解這一問(wèn)題,本工作提出了一種多時(shí)間尺度的語(yǔ)音建模方法。如圖所示,聲學(xué)特征序列通過(guò)若干個(gè)編碼器將聲學(xué)特征序列階段式編碼至不同時(shí)間尺度,然后再通過(guò)解碼器端逐層量化,解碼得到若干個(gè)具有不同時(shí)間分辨率的量化序列。這類序列集合構(gòu)成的表征, 即為本工作提出的多階段多碼本表征。


圖片

多階段建模示例圖


三、聲學(xué)建模 MSMC-TTS

針對(duì)多階段多碼本表征 MSMCR ,本論文提出了相應(yīng)的 TTS 系統(tǒng),即 MSMC-TTS 系統(tǒng)。系統(tǒng)包括分析、合成和預(yù)測(cè)3個(gè)部分。在系統(tǒng)訓(xùn)練中,該系統(tǒng)先對(duì)分析模塊進(jìn)行訓(xùn)練。訓(xùn)練集中的音頻經(jīng)過(guò)信號(hào)處理后轉(zhuǎn)化為高完備性聲學(xué)特征(如本次工作中用到的 Mel-Spectrogram 特征)。利用這些聲學(xué)特征對(duì)基于 MSMC-VQ-VAE 的特征分析器進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束時(shí)將其轉(zhuǎn)化為相應(yīng)的MSMCR,再對(duì)聲學(xué)模型及神經(jīng)聲碼器進(jìn)行訓(xùn)練。解碼過(guò)程中,該系統(tǒng)利用聲學(xué)模型從文本中預(yù)測(cè) MSMCR,然后利用神經(jīng)聲碼器產(chǎn)生目標(biāo)音頻。


圖片

MSMC-TTS 系統(tǒng)框架圖


本工作還提出一種多階段預(yù)測(cè)器來(lái)適配 MSMCR 建模。該模型是以 FastSpeech 為基礎(chǔ)實(shí)現(xiàn)的,但在解碼器端有所不同。該模型首先對(duì)文本進(jìn)行編碼,并根據(jù)預(yù)測(cè)時(shí)長(zhǎng)信息對(duì)文本上采樣。然后再將序列降采樣至 MSMCR 對(duì)應(yīng)的各個(gè)時(shí)間分辨率。這些序列將由不同解碼器由低分辨率向高分辨率逐級(jí)解碼量化。同時(shí)將低分辨率量化序列發(fā)送給下一階段的解碼器以協(xié)助預(yù)測(cè)。最后將預(yù)測(cè)所得 MSMCR 送入神經(jīng)聲碼器中產(chǎn)生目標(biāo)音頻。


圖片

多階段預(yù)測(cè)器結(jié)構(gòu)圖


對(duì)多階段預(yù)測(cè)器進(jìn)行訓(xùn)練與推斷時(shí),本工作選擇直接在連續(xù)空間預(yù)測(cè)目標(biāo)表征。這種方法能較好地顧及向量間及碼字間在線性連續(xù)空間上的距離關(guān)系。訓(xùn)練準(zhǔn)則除了采用常用于 TTS 建模的 MSE 損失函數(shù)外,還使用了 “triplet loss” 以迫使預(yù)測(cè)向量遠(yuǎn)離非目標(biāo)碼字并靠近目標(biāo)碼字。通過(guò)將兩種損失函數(shù)項(xiàng)組合,該模型能夠更好地預(yù)測(cè)目標(biāo)碼字。

四、實(shí)驗(yàn)效果

本工作在公開(kāi)的英文單說(shuō)話人數(shù)據(jù)集 Nancy (Blizzard Challenge 2011) 上進(jìn)行實(shí)驗(yàn)。我們組織了主觀意見(jiàn)得分測(cè)試 (MOS)對(duì) MSMC-TTS 合成效果進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果顯示:原始錄音為 4.50 分的情況下, MSMC-TTS 的得分為 4.41分,基線系統(tǒng) Mel-FS(Mel-Spectrogram based FastSpeech)為 3.62 分。我們對(duì)基線系統(tǒng)的聲碼器進(jìn)行調(diào)優(yōu),使之與Mel-FS輸出特征相適配,結(jié)果為 3.69 分。該對(duì)比結(jié)果證明了文中所提方法對(duì) TTS 系統(tǒng)的顯著改進(jìn)作用。

圖片

另外我們還進(jìn)一步討論了建模復(fù)雜度對(duì)于 TTS 的性能影響。由 M1 至 M3 模型參數(shù)量呈倍數(shù)下降,  Mel-FS 合成效果降至 1.86 分。反觀 MSMC-TTS, 參數(shù)量減少并未對(duì)合成質(zhì)量造成顯著的影響。當(dāng)聲學(xué)模型參數(shù)量為 3.12 MB 時(shí), MOS 仍可保持 4.47 分。這既證明了以緊湊型特征為基礎(chǔ)的 MSMC-TTS 建模復(fù)雜度需求較低,同時(shí)也展示了該方法應(yīng)用于輕量級(jí) TTS 系統(tǒng)的潛力。

圖片


最后我們?cè)诓煌? MSMCR 基礎(chǔ)上進(jìn)行了 MSMC-TTS 比較,以探討 MHVQ 與多階段建模對(duì) TTS 的影響。其中 V1 系統(tǒng)采用單階段單碼本的表征, V2 系統(tǒng)基于 V1 采用 4-head 矢量量化, V3 系統(tǒng)則基于 V2 采用兩階段建模。首先,V1 系統(tǒng)使用的表征擁有最高的特征壓縮比,但在分析合成實(shí)驗(yàn)中表現(xiàn)出最低的完備性,同時(shí)在 TTS 實(shí)驗(yàn)中表現(xiàn)出最差的合成質(zhì)量。經(jīng)過(guò) MHVQ 增強(qiáng)完備性, V2 系統(tǒng)在 TTS 效果上也得到了明顯提升。V3 所使用的的多階段表征雖然沒(méi)有展現(xiàn)進(jìn)一步完備性的提升,但是在 TTS 上展現(xiàn)出了最佳的效果,無(wú)論是韻律自然度還是音頻質(zhì)量均有明顯改善。這進(jìn)一步表明多階段建模、多尺度信息保留在MSMC-TTS 中具有重要意義。

圖片

五、總結(jié)

該工作從研究緊湊型語(yǔ)音表征角度出發(fā),提出一套新的高性能 TTS(MSMC-TTS)建模方法。該系統(tǒng)從音頻中提取多階段多碼本表征,以代替?zhèn)鹘y(tǒng)聲學(xué)特征。輸入文本可被多階段預(yù)測(cè)器轉(zhuǎn)換為這種由多個(gè)時(shí)間分辨率不同的序列組成的語(yǔ)音表征,并通過(guò)神經(jīng)聲碼器轉(zhuǎn)換到目標(biāo)語(yǔ)音信號(hào)。實(shí)驗(yàn)結(jié)果表明,相較于主流的基于 Mel-Spectrogram 的 FastSpeech 系統(tǒng),該系統(tǒng)展示出了更優(yōu)秀的合成質(zhì)量,以及對(duì)建模復(fù)雜度更低的要求。

六、作者信息

郭浩瀚:小紅書(shū)多媒體智能算法團(tuán)隊(duì)實(shí)習(xí)生。本碩畢業(yè)于西北工業(yè)大學(xué),期間在 ASLP 實(shí)驗(yàn)室學(xué)習(xí),師從謝磊教授?,F(xiàn)博士就讀于香港中文大學(xué) HCCL 實(shí)驗(yàn)室,師從蒙美玲教授。迄今為止,作為一作,先后在 ICASSP、INTERSPEECH、SLT 國(guó)際語(yǔ)音會(huì)議上發(fā)表論文六篇。

解奉龍:小紅書(shū)多媒體智能算法團(tuán)隊(duì)語(yǔ)音技術(shù)負(fù)責(zé)人。曾在ICASSP、INTERSPEECH、SPEECHCOM等語(yǔ)音領(lǐng)域會(huì)議及期刊發(fā)表論文十余篇, 長(zhǎng)期擔(dān)任ICASSP、INTERSPEECH等主要語(yǔ)音會(huì)議的審稿人,主要研究方向?yàn)檎Z(yǔ)音信號(hào)處理與建模。

責(zé)任編輯:龐桂玉 來(lái)源: 小紅書(shū)技術(shù)REDtech
相關(guān)推薦

2022-07-20 09:38:31

Python語(yǔ)音合成代碼

2016-02-17 10:39:18

語(yǔ)音識(shí)別語(yǔ)音合成語(yǔ)音交互

2009-08-21 15:28:23

C#英文

2017-09-06 10:51:22

Facebook

2022-12-05 07:17:14

人工智能語(yǔ)音合成

2021-08-19 10:11:10

微軟Windows 10Windows 11

2023-07-27 16:51:05

微軟語(yǔ)音模型人工智能

2020-09-03 11:22:35

音頻騰訊云AI

2015-08-19 09:38:29

云集群高性能計(jì)算云計(jì)算

2021-11-11 16:14:15

NVIDIA

2013-10-14 13:41:36

PoE交換機(jī)交換機(jī)

2023-07-05 16:07:02

JavaScriptWeb 應(yīng)用程序

2015-09-23 09:40:17

高性能Java應(yīng)用

2025-04-10 08:23:11

2011-07-01 09:36:30

高性能Web

2022-09-15 09:59:55

火山語(yǔ)音語(yǔ)音建模

2024-11-11 08:50:24

2019-04-25 07:55:00

技術(shù)研發(fā)語(yǔ)音
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)