國產(chǎn)最強(qiáng)語音大模型誕生,MaskGCT宣布開源,聲音效果媲美人類
近期,港中大(深圳)聯(lián)手趣丸科技聯(lián)合推出了新一代大規(guī)模聲音克隆 TTS 模型 ——MaskGCT。該模型在包含 10 萬小時(shí)多語言數(shù)據(jù)的 Emilia 數(shù)據(jù)集上進(jìn)行訓(xùn)練,展現(xiàn)出超自然的語音克隆、風(fēng)格遷移以及跨語言生成能力,同時(shí)保持了較強(qiáng)的穩(wěn)定性。MaskGCT 已在香港中文大學(xué)(深圳)與上海人工智能實(shí)驗(yàn)室聯(lián)合開發(fā)的開源系統(tǒng) Amphion 發(fā)布。
- 論文鏈接:https://arxiv.org/abs/2409.00750
- 樣例展示:https://maskgct.github.io
- 模型下載:https://huggingface.co/amphion/maskgct
- Demo 展示:https://huggingface.co/spaces/amphion/maskgct
- 項(xiàng)目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
- 公測(cè)應(yīng)用:voice.funnycp.com
本文介紹了一種名為 Masked Generative Codec Transformer(MaskGCT)的全非自回歸 TTS 模型。
現(xiàn)有大規(guī)模文本到語音(TTS)系統(tǒng)通常分為自回歸和非自回歸系統(tǒng)。自回歸系統(tǒng)隱式地建模持續(xù)時(shí)間,但在魯棒性和持續(xù)時(shí)間可控性方面存在一定缺陷。非自回歸系統(tǒng)在訓(xùn)練過程中需要顯式的文本與語音對(duì)齊信息,并預(yù)測(cè)語言單元(如音素)的持續(xù)時(shí)間,這可能會(huì)影響其自然度。
該模型消除了文本與語音監(jiān)督之間的顯式對(duì)齊需求,以及音素級(jí)持續(xù)時(shí)間預(yù)測(cè)。MaskGCT 是一個(gè)兩階段模型:在第一階段,模型使用文本預(yù)測(cè)從語音自監(jiān)督學(xué)習(xí)(SSL)模型中提取的語義標(biāo)記;在第二階段,模型基于這些語義標(biāo)記預(yù)測(cè)聲學(xué)標(biāo)記。MaskGCT 遵循掩碼預(yù)測(cè)學(xué)習(xí)范式。在訓(xùn)練過程中,MaskGCT 學(xué)習(xí)根據(jù)給定的條件和提示預(yù)測(cè)掩碼的語義或聲學(xué)標(biāo)記。在推理過程中,模型以并行方式生成指定長(zhǎng)度的標(biāo)記。通過對(duì) 10 萬小時(shí)的自然語音進(jìn)行實(shí)驗(yàn),結(jié)果表明 MaskGCT 在質(zhì)量、相似度和可理解性方面優(yōu)于當(dāng)前最先進(jìn)的零樣本 TTS 系統(tǒng)。
一、方法
MaskGCT 模型由四個(gè)主要組件組成:
1. 語音語義表示編解碼器:將語音轉(zhuǎn)換為語義標(biāo)記。
2. 語音聲學(xué)編解碼器:從聲學(xué)標(biāo)記重建波形。
3. 文本到語義模型:使用文本和提示語義標(biāo)記預(yù)測(cè)語義標(biāo)記。
4. 語義到聲學(xué)模型:基于語義標(biāo)記預(yù)測(cè)聲學(xué)標(biāo)記。
語音語義表示編解碼器用于將語音轉(zhuǎn)換為離散的語義標(biāo)記,這些標(biāo)記通常通過離散化來自語音自監(jiān)督學(xué)習(xí)(SSL)模型的特征獲得。與以往使用 k-means 方法離散化語義特征相比,這種方法可能導(dǎo)致信息損失,從而影響高質(zhì)量語音的重建或聲學(xué)標(biāo)記的精確預(yù)測(cè),尤其是在音調(diào)豐富的語言中。為了最小化信息損失,本文訓(xùn)練了一個(gè) VQ-VAE 模型來學(xué)習(xí)一個(gè)向量量化碼本,該碼本能夠從語音 SSL 模型中重建語音語義表示。具體來說,使用 W2v-BERT 2.0 模型的第 17 層隱藏狀態(tài)作為語音編碼器的語義特征,編碼器和解碼器由多個(gè) ConvNext 塊組成。通過改進(jìn)的 VQ-GAN 和 DAC 方法,使用因子分解碼將編碼器輸出投影到低維潛在變量空間。
語音聲學(xué)編解碼器旨在將語音波形量化為多層離散標(biāo)記,同時(shí)盡可能保留語音的所有信息。本文采用殘差向量量化(Residual Vector Quantization, RVQ)方法,將 24K 采樣率的語音波形壓縮為 12 層的離散標(biāo)記。此外,模型使用 Vocos 架構(gòu)作為解碼器,以提高訓(xùn)練和推理效率。
文本到語義模型采用非自回歸掩碼生成 Transformer,而不使用自回歸模型或任何文本到語音的對(duì)齊信息。在訓(xùn)練過程中,我們隨機(jī)提取語義標(biāo)記序列的前綴部分作為提示,以利用語言模型的上下文學(xué)習(xí)能力。我們使用 Llama 風(fēng)格的 Transformer 作為模型的主干,結(jié)合門控線性單元(GLU)和 GELU 激活函數(shù)、旋轉(zhuǎn)位置編碼等,但將因果注意力替換為雙向注意力。還使用了接受時(shí)間步 t 作為條件的自適應(yīng) RMSNorm。在推理過程中,我們生成任意指定長(zhǎng)度的目標(biāo)語義標(biāo)記序列,條件是文本和提示語義標(biāo)記序列。本文還訓(xùn)練了一個(gè)基于流匹配的持續(xù)時(shí)間預(yù)測(cè)模型,以預(yù)測(cè)基于文本和提示語音持續(xù)時(shí)間的總持續(xù)時(shí)間,利用上下文學(xué)習(xí)。
語義到聲學(xué)模型同樣采用非自回歸掩碼生成 Transformer,該模型以語義標(biāo)記為條件,生成多層聲學(xué)標(biāo)記序列以重建高質(zhì)量語音波形。
二、樣例展示
MaskGCT 能超自然地模擬參考音頻音色與風(fēng)格,并跨語言生成音頻。
以下是一個(gè)展示 MaskGCT 翻譯《黑神話:悟空》的實(shí)例:
翻譯效果:
四、實(shí)驗(yàn)結(jié)果
SOTA 的語音合成效果:MaskGCT 在三個(gè) TTS 基準(zhǔn)數(shù)據(jù)集上都達(dá)到了 SOTA 效果,在某些指標(biāo)上甚至超過了人類水平。
此外,MaskGCT 在風(fēng)格遷移(口音、情感)也達(dá)到了 SOTA 的水準(zhǔn):
我們還研究了 MaskGCT 在中、英外其它語言的能力:
五、應(yīng)用場(chǎng)景
目前,MaskGCT 在短劇出海、智能助手、有聲讀物、輔助教育等領(lǐng)域擁有豐富的應(yīng)用場(chǎng)景。為了加快落地應(yīng)用,在安全合規(guī)下,趣丸科技打造了多語種速譯智能視聽平臺(tái) “趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實(shí)現(xiàn)音話同步、口型同步、去字幕等功能。該產(chǎn)品進(jìn)一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長(zhǎng)的制作周期,成為影視、游戲、短劇等內(nèi)容出海的理想選擇平臺(tái)。
《2024 年短劇出海白皮書》顯示,短劇出海成為藍(lán)海新賽道,2023 年海外市場(chǎng)規(guī)模高達(dá) 650 億美元,約為國內(nèi)市場(chǎng)的 12 倍,短劇出海成為藍(lán)海新賽道。以 “趣丸千音” 為代表的產(chǎn)品的出現(xiàn),將加速國產(chǎn)短劇 “走出去”,進(jìn)一步推動(dòng)中華文化在全球不同語境下的傳播。
六、總結(jié)
MaskGCT 是一個(gè)大規(guī)模的零樣本 TTS 系統(tǒng),利用全非自回歸掩碼生成編解碼器 Transformer,無需文本與語音的對(duì)齊監(jiān)督和音素級(jí)持續(xù)時(shí)間預(yù)測(cè)。MaskGCT 通過文本預(yù)測(cè)從語音自監(jiān)督學(xué)習(xí)(SSL)模型中提取的語義標(biāo)記,然后基于這些語義標(biāo)記預(yù)測(cè)聲學(xué)標(biāo)記,實(shí)現(xiàn)了高質(zhì)量的文本到語音合成。實(shí)驗(yàn)表明,MaskGCT 在語音質(zhì)量、相似度和可理解性方面優(yōu)于最先進(jìn)的 TTS 系統(tǒng),并且在模型規(guī)模和訓(xùn)練數(shù)據(jù)量增加時(shí)表現(xiàn)更佳,同時(shí)能夠控制生成語音的總時(shí)長(zhǎng)。此外,我們還探索了 MaskGCT 在語音翻譯、語音轉(zhuǎn)換、情感控制和語音內(nèi)容編輯等任務(wù)中的可擴(kuò)展性,展示了 MaskGCT 作為語音生成基礎(chǔ)模型的潛力。
七、團(tuán)隊(duì)介紹
- 王遠(yuǎn)程:香港中文大學(xué)(深圳)計(jì)算機(jī)科學(xué)專業(yè)的二年級(jí)博士生,研究聚焦語音合成與表征領(lǐng)域,曾作為共同第一作者,研發(fā)新一代語音合成系統(tǒng) NaturalSpeech 3。
- 武執(zhí)政:香港中文大學(xué)(深圳)副教授、博導(dǎo),港中大深圳 - 趣丸科技聯(lián)合實(shí)驗(yàn)室主任。入選國家級(jí)青年人才,連續(xù)多次入選斯坦福大學(xué) “全球前 2%頂尖科學(xué)家”、愛思唯爾 “中國高被引學(xué)者” 榜單。
- 曾銳鴻:趣丸科技資深語音算法工程師,研究聚焦跨語言零樣本語音合成。曾在頂級(jí)期刊 ACM TWEB 發(fā)表論文,以及多篇語音識(shí)別和語音合成相關(guān)發(fā)明專利。
- 詹皓粵:趣丸科技資深語音算法工程師,研究聚焦跨語言零樣本語音合成,曾發(fā)表多篇領(lǐng)域頂會(huì)論文及發(fā)明專利。
- 張強(qiáng):趣丸科技人工智能研究中心副主任,人工智能高級(jí)工程師,專注研究人工智能算法,目前主持語音大模型、2D 和 3D 數(shù)字人等技術(shù)的研發(fā)。
- 張順?biāo)模喝ね杩萍几笨偛眉嫒斯ぶ悄苎芯恐行闹魅?,人工智能高?jí)工程師,粵港澳人工智能產(chǎn)業(yè)智庫專家,長(zhǎng)期從事低延遲音視頻通訊技術(shù)和人工智能技術(shù)的研究,主導(dǎo)過千萬級(jí)日活產(chǎn)品。發(fā)表技術(shù)發(fā)明專利 30 余篇,發(fā)表 EI 3 篇,SCI 3 篇。