自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="vzt6h"></ruby>

^{<sub id="vzt6h"><i id="vzt6h"></i></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何用緊湊型語(yǔ)音表征打造高性能語(yǔ)音合成系統(tǒng)

作者：郭浩瀚解奉龍 2022-10-19 12:47:05

人工智能深度學(xué)習(xí)

語(yǔ)音合成（Text-to-Speech, 簡(jiǎn)稱 TTS）是把文本轉(zhuǎn)化為語(yǔ)音的一種技術(shù)，被廣泛應(yīng)用于視頻配音、音視頻內(nèi)容創(chuàng)作、智能人機(jī)交互等產(chǎn)品中。本文提出采用矢量量化變分自編碼器（VQ-VAE）從目標(biāo)數(shù)據(jù)中挖掘出一種更好的緊湊型表示。

小紅書(shū)多媒體智能算法團(tuán)隊(duì)和香港中文大學(xué)首次聯(lián)合提出了基于多階段多碼本緊湊型語(yǔ)音表征的高性能語(yǔ)音合成方案 MSMC-TTS?；谑噶苛炕兎肿跃幋a器（VQ-VAE）的特征分析器采用若干碼本對(duì)聲學(xué)特征進(jìn)行階段式編碼，形成一組具有不同時(shí)間分辨率的隱序列集合。這些隱序列可以由多階段預(yù)測(cè)器從文本中預(yù)測(cè)獲得，并且通過(guò)神經(jīng)聲碼器轉(zhuǎn)換成目標(biāo)音頻。該方案，對(duì)比基于Mel-Spectrogram的Fastspeech 基線系統(tǒng)，音質(zhì)和自然度有明顯的改善。該工作現(xiàn)已總結(jié)成論文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”，并被語(yǔ)音領(lǐng)域會(huì)議 INTERSPEECH 2022 接收。

一、背景介紹

語(yǔ)音合成（Text-to-Speech, 簡(jiǎn)稱 TTS）是把文本轉(zhuǎn)化為語(yǔ)音的一種技術(shù)，被廣泛應(yīng)用于視頻配音、音視頻內(nèi)容創(chuàng)作、智能人機(jī)交互等產(chǎn)品中。主流語(yǔ)音合成系統(tǒng)后端的聲學(xué)建模技術(shù)通常包括特征提取器，聲學(xué)模型和聲碼器三部分。TTS 通常會(huì)對(duì)基于信號(hào)處理獲得的聲學(xué)特征（例如梅爾譜 Mel Spectrogram）進(jìn)行聲學(xué)建模，但受限于模型的擬合能力，預(yù)測(cè)得到的聲學(xué)特征和真實(shí)數(shù)據(jù)在分布上存在一定差異，這導(dǎo)致在真實(shí)數(shù)據(jù)上訓(xùn)練的聲碼器難以從預(yù)測(cè)特征中生成高質(zhì)量音頻。

TTS 系統(tǒng)框架圖

針對(duì)這一難題，學(xué)界使用了更為復(fù)雜的模型結(jié)構(gòu)和更為新穎的生成式算法以減小預(yù)測(cè)誤差和縮小分布差異。而本工作另辟蹊徑，以緊湊型語(yǔ)音表征為出發(fā)點(diǎn)來(lái)考慮問(wèn)題。對(duì)語(yǔ)音合成來(lái)說(shuō)，1）聲學(xué)特征良好的緊湊性能夠保證更為準(zhǔn)確的模型預(yù)測(cè)結(jié)果和更魯棒的波形生成；2）聲學(xué)特征良好的完備性能夠保證更好地重構(gòu)語(yǔ)音信號(hào)?；谶@兩點(diǎn)考慮，本文提出采用矢量量化變分自編碼器（VQ-VAE）從目標(biāo)數(shù)據(jù)中挖掘出一種更好的緊湊型表示。

二、表征學(xué)習(xí) MSMC VQ-VAE

VQ-VAE 包括編碼器與解碼器。編碼器將輸入聲學(xué)特征序列加工為隱序列并用相應(yīng)碼本進(jìn)行量化。而解碼器把經(jīng)過(guò)量化的序列恢復(fù)為原始聲學(xué)特征序列。這種量化序列作為離散化表征具有較好的緊湊性（特征參數(shù)量較少）。其中量化程度越高，即碼本容量越小，特征緊湊程度就越高。但這也造成了信息壓縮，使特征完備度變差。為了確保足夠的完備性，一般都會(huì)使用更多的碼字。但隨著碼本容量的增加，碼本更新所需的數(shù)據(jù)量以及訓(xùn)練次數(shù)將呈指數(shù)級(jí)遞增，這使得 VQ-VAE 難以通過(guò)增大碼本來(lái)有效增強(qiáng)表征完備性。針對(duì)此問(wèn)題，本文提出多頭矢量量化（MHVQ）方法。

VQ-VAE 模型結(jié)構(gòu)圖

MHVQ 將單個(gè)碼本按特征維度方向均分為若干個(gè)子碼本。量化時(shí)還將每個(gè)輸入向量相等地切割成若干個(gè)子向量，并分別用相應(yīng)子碼本量化，最終拼接成輸出向量。這樣我們就能更加有效地提高碼本利用率及表征容量，而無(wú)需增加碼本參數(shù)量。例如，要使壓縮率減少1倍，碼字本來(lái)要增加到原碼本數(shù)的平方。采用 MHVQ 后，只要把碼本切分成兩部分就可以實(shí)現(xiàn)相同的壓縮率。因此，本方法能夠更加有效地調(diào)節(jié)量化表征的完備性。

MHVQ 示例圖

另外在對(duì)語(yǔ)音序列進(jìn)行量化時(shí)，語(yǔ)音特征中蘊(yùn)含的各類信息都有不同程度地丟失。這些信息在時(shí)間粒度上是不一樣的，如粗粒度的音色，發(fā)音風(fēng)格等，以及細(xì)粒度的音調(diào)，發(fā)音細(xì)節(jié)等。在任何時(shí)間尺度上過(guò)度壓縮信息都可能使語(yǔ)音質(zhì)量遭到一定程度的破壞。為了緩解這一問(wèn)題，本工作提出了一種多時(shí)間尺度的語(yǔ)音建模方法。如圖所示，聲學(xué)特征序列通過(guò)若干個(gè)編碼器將聲學(xué)特征序列階段式編碼至不同時(shí)間尺度，然后再通過(guò)解碼器端逐層量化，解碼得到若干個(gè)具有不同時(shí)間分辨率的量化序列。這類序列集合構(gòu)成的表征，即為本工作提出的多階段多碼本表征。

多階段建模示例圖

三、聲學(xué)建模 MSMC-TTS

針對(duì)多階段多碼本表征 MSMCR ，本論文提出了相應(yīng)的 TTS 系統(tǒng)，即 MSMC-TTS 系統(tǒng)。系統(tǒng)包括分析、合成和預(yù)測(cè)3個(gè)部分。在系統(tǒng)訓(xùn)練中，該系統(tǒng)先對(duì)分析模塊進(jìn)行訓(xùn)練。訓(xùn)練集中的音頻經(jīng)過(guò)信號(hào)處理后轉(zhuǎn)化為高完備性聲學(xué)特征（如本次工作中用到的 Mel-Spectrogram 特征）。利用這些聲學(xué)特征對(duì)基于 MSMC-VQ-VAE 的特征分析器進(jìn)行訓(xùn)練，訓(xùn)練結(jié)束時(shí)將其轉(zhuǎn)化為相應(yīng)的MSMCR，再對(duì)聲學(xué)模型及神經(jīng)聲碼器進(jìn)行訓(xùn)練。解碼過(guò)程中，該系統(tǒng)利用聲學(xué)模型從文本中預(yù)測(cè) MSMCR，然后利用神經(jīng)聲碼器產(chǎn)生目標(biāo)音頻。

MSMC-TTS 系統(tǒng)框架圖

本工作還提出一種多階段預(yù)測(cè)器來(lái)適配 MSMCR 建模。該模型是以 FastSpeech 為基礎(chǔ)實(shí)現(xiàn)的，但在解碼器端有所不同。該模型首先對(duì)文本進(jìn)行編碼，并根據(jù)預(yù)測(cè)時(shí)長(zhǎng)信息對(duì)文本上采樣。然后再將序列降采樣至 MSMCR 對(duì)應(yīng)的各個(gè)時(shí)間分辨率。這些序列將由不同解碼器由低分辨率向高分辨率逐級(jí)解碼量化。同時(shí)將低分辨率量化序列發(fā)送給下一階段的解碼器以協(xié)助預(yù)測(cè)。最后將預(yù)測(cè)所得 MSMCR 送入神經(jīng)聲碼器中產(chǎn)生目標(biāo)音頻。

多階段預(yù)測(cè)器結(jié)構(gòu)圖

對(duì)多階段預(yù)測(cè)器進(jìn)行訓(xùn)練與推斷時(shí)，本工作選擇直接在連續(xù)空間預(yù)測(cè)目標(biāo)表征。這種方法能較好地顧及向量間及碼字間在線性連續(xù)空間上的距離關(guān)系。訓(xùn)練準(zhǔn)則除了采用常用于 TTS 建模的 MSE 損失函數(shù)外，還使用了 “triplet loss” 以迫使預(yù)測(cè)向量遠(yuǎn)離非目標(biāo)碼字并靠近目標(biāo)碼字。通過(guò)將兩種損失函數(shù)項(xiàng)組合，該模型能夠更好地預(yù)測(cè)目標(biāo)碼字。

四、實(shí)驗(yàn)效果

本工作在公開(kāi)的英文單說(shuō)話人數(shù)據(jù)集 Nancy (Blizzard Challenge 2011) 上進(jìn)行實(shí)驗(yàn)。我們組織了主觀意見(jiàn)得分測(cè)試（MOS）對(duì) MSMC-TTS 合成效果進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果顯示：原始錄音為 4.50 分的情況下, MSMC-TTS 的得分為 4.41分，基線系統(tǒng) Mel-FS（Mel-Spectrogram based FastSpeech）為 3.62 分。我們對(duì)基線系統(tǒng)的聲碼器進(jìn)行調(diào)優(yōu)，使之與Mel-FS輸出特征相適配，結(jié)果為 3.69 分。該對(duì)比結(jié)果證明了文中所提方法對(duì) TTS 系統(tǒng)的顯著改進(jìn)作用。

另外我們還進(jìn)一步討論了建模復(fù)雜度對(duì)于 TTS 的性能影響。由 M1 至 M3 模型參數(shù)量呈倍數(shù)下降, Mel-FS 合成效果降至 1.86 分。反觀 MSMC-TTS, 參數(shù)量減少并未對(duì)合成質(zhì)量造成顯著的影響。當(dāng)聲學(xué)模型參數(shù)量為 3.12 MB 時(shí), MOS 仍可保持 4.47 分。這既證明了以緊湊型特征為基礎(chǔ)的 MSMC-TTS 建模復(fù)雜度需求較低，同時(shí)也展示了該方法應(yīng)用于輕量級(jí) TTS 系統(tǒng)的潛力。

最后我們?cè)诓煌? MSMCR 基礎(chǔ)上進(jìn)行了 MSMC-TTS 比較，以探討 MHVQ 與多階段建模對(duì) TTS 的影響。其中 V1 系統(tǒng)采用單階段單碼本的表征, V2 系統(tǒng)基于 V1 采用 4-head 矢量量化, V3 系統(tǒng)則基于 V2 采用兩階段建模。首先，V1 系統(tǒng)使用的表征擁有最高的特征壓縮比，但在分析合成實(shí)驗(yàn)中表現(xiàn)出最低的完備性，同時(shí)在 TTS 實(shí)驗(yàn)中表現(xiàn)出最差的合成質(zhì)量。經(jīng)過(guò) MHVQ 增強(qiáng)完備性, V2 系統(tǒng)在 TTS 效果上也得到了明顯提升。V3 所使用的的多階段表征雖然沒(méi)有展現(xiàn)進(jìn)一步完備性的提升，但是在 TTS 上展現(xiàn)出了最佳的效果，無(wú)論是韻律自然度還是音頻質(zhì)量均有明顯改善。這進(jìn)一步表明多階段建模、多尺度信息保留在MSMC-TTS 中具有重要意義。

五、總結(jié)

該工作從研究緊湊型語(yǔ)音表征角度出發(fā)，提出一套新的高性能 TTS（MSMC-TTS）建模方法。該系統(tǒng)從音頻中提取多階段多碼本表征，以代替?zhèn)鹘y(tǒng)聲學(xué)特征。輸入文本可被多階段預(yù)測(cè)器轉(zhuǎn)換為這種由多個(gè)時(shí)間分辨率不同的序列組成的語(yǔ)音表征，并通過(guò)神經(jīng)聲碼器轉(zhuǎn)換到目標(biāo)語(yǔ)音信號(hào)。實(shí)驗(yàn)結(jié)果表明，相較于主流的基于 Mel-Spectrogram 的 FastSpeech 系統(tǒng)，該系統(tǒng)展示出了更優(yōu)秀的合成質(zhì)量，以及對(duì)建模復(fù)雜度更低的要求。

六、作者信息

郭浩瀚：小紅書(shū)多媒體智能算法團(tuán)隊(duì)實(shí)習(xí)生。本碩畢業(yè)于西北工業(yè)大學(xué)，期間在 ASLP 實(shí)驗(yàn)室學(xué)習(xí)，師從謝磊教授?，F(xiàn)博士就讀于香港中文大學(xué) HCCL 實(shí)驗(yàn)室，師從蒙美玲教授。迄今為止，作為一作，先后在 ICASSP、INTERSPEECH、SLT 國(guó)際語(yǔ)音會(huì)議上發(fā)表論文六篇。

解奉龍：小紅書(shū)多媒體智能算法團(tuán)隊(duì)語(yǔ)音技術(shù)負(fù)責(zé)人。曾在ICASSP、INTERSPEECH、SPEECHCOM等語(yǔ)音領(lǐng)域會(huì)議及期刊發(fā)表論文十余篇，長(zhǎng)期擔(dān)任ICASSP、INTERSPEECH等主要語(yǔ)音會(huì)議的審稿人，主要研究方向?yàn)檎Z(yǔ)音信號(hào)處理與建模。

責(zé)任編輯：龐桂玉來(lái)源：小紅書(shū)技術(shù)REDtech

深度學(xué)習(xí)語(yǔ)音合成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)