僅聽3秒,AI零樣本克隆人聲達(dá)到人類水平,情緒語調(diào)隨意改
這就是微軟與中國科技大學(xué)、香港中文大學(xué)(深圳)和浙江大學(xué)等機(jī)構(gòu)合作,推出的NaturalSpeech 3系統(tǒng)。
該系統(tǒng)采用了創(chuàng)新的屬性分解擴(kuò)散模型和屬性分解語音神經(jīng)編解碼器FACodec,從“表示”和“建?!眱蓚€(gè)維度對(duì)語音數(shù)據(jù)進(jìn)行深入研究。通過數(shù)據(jù)/模型的規(guī)?;椒?,在多說話人數(shù)據(jù)集LibriSpeech上首次實(shí)現(xiàn)了零樣本的人類水平語音合成。
指定特征實(shí)現(xiàn)個(gè)性化輸出
文本到語音合成(TTS)技術(shù)作為生成式人工智能的關(guān)鍵分支,在大型語言模型(LLM)的推動(dòng)下近年來迎來了突飛猛進(jìn)的發(fā)展。特別是隨著語音合成技術(shù)的進(jìn)步,它為大模型帶來了聲音交互的新維度,受到了業(yè)界的高度重視。在這一領(lǐng)域內(nèi),微軟一直是技術(shù)研究與產(chǎn)品開發(fā)的積極參與者,旨在創(chuàng)造出高度自然的人類語音。為此,微軟啟動(dòng)了NaturalSpeech研究項(xiàng)目(https://speechresearch.github.io/)。
該項(xiàng)目為實(shí)現(xiàn)其目標(biāo),制定了分階段的實(shí)施路線圖:
- 首先,項(xiàng)目聚焦于在單個(gè)說話人語音合成上實(shí)現(xiàn)與真人相媲美的音質(zhì)。2022年,NaturalSpeech 1版本在LJSpeech語音合成數(shù)據(jù)集上的表現(xiàn),已達(dá)到人類錄音的音質(zhì)水平。
- 隨后,項(xiàng)目目標(biāo)升級(jí),旨在高效生成具有多樣化特征的人類語音,如不同說話人、韻律、情感和風(fēng)格等。2023年,通過引入擴(kuò)散模型,NaturalSpeech 2實(shí)現(xiàn)了零樣本的語音合成,標(biāo)志著技術(shù)的進(jìn)一步突破。
- 推出NaturalSpeech 3系統(tǒng)。
NaturalSpeech 3的”Natural”的一大核心體現(xiàn)就是在LibriSpeech數(shù)據(jù)集上實(shí)現(xiàn)了零樣本語音合成達(dá)到人類水平。
NaturalSpeech 3在LibriSpeech數(shù)據(jù)集上實(shí)現(xiàn)了零樣本語音合成對(duì)人類錄音的-0.08 CMOS(此前的 SOTA 結(jié)果為 -0.18)以及超過人類錄音的4.01 SMOS (人類錄音結(jié)果為3.85,而此前的SOTA為3.71),而在WER上,NaturalSpeech 3實(shí)現(xiàn)了比人類錄音結(jié)果(1.94 WER)更低的1.81 WER。
實(shí)驗(yàn)結(jié)果表明,NaturalSpeech 3的零樣本語音生成結(jié)果在LibriSpeech數(shù)據(jù)集上和人類錄音水平已經(jīng)沒有統(tǒng)計(jì)學(xué)上的顯著差異。
NaturalSpeech 3的自然不僅體現(xiàn)在能夠完美的克隆音色上,還體現(xiàn)在能夠自然的模仿提示音頻的韻律、情感等,讓AI生成的聲音具有人類的情緒。
NaturalSpeech 3的技術(shù)實(shí)現(xiàn)允許對(duì)生成的語音進(jìn)行細(xì)致的屬性控制,這種方法提供了對(duì)語音合成過程中各個(gè)維度的精準(zhǔn)調(diào)節(jié)能力。
通過引入特定屬性的提示,比如采用語速較快的聲音樣本作為時(shí)長(zhǎng)(duration)控制的參考,NaturalSpeech 3能夠在保持其他聲音屬性不變的情況下,精確調(diào)整生成語音的語速。
這意味著,用戶可以通過指定具有特定特征的樣本來引導(dǎo)語音生成過程,進(jìn)而實(shí)現(xiàn)更加個(gè)性化和多樣化的語音輸出。
NaturalSpeech 3的成功秘訣來自于基于屬性分解的Codec+Diffusion建模范式以及Data/Model Scaling。
傳統(tǒng)TTS系統(tǒng)因訓(xùn)練數(shù)據(jù)集有限,難以支持高質(zhì)量的零樣本語音合成。而最近的研究通過擴(kuò)大語料庫,雖有所進(jìn)步,但在聲音質(zhì)量、相似性和韻律方面仍未達(dá)到理想水平。
NaturalSpeech 3提出創(chuàng)新的屬性分解擴(kuò)散模型和屬性分解神經(jīng)語音編碼器FACodec,通過將語音分解成不同屬性的子空間并根據(jù)不同的提示(prompt)分別生成,有效地降低了語音建模難度,從而大大提高了語音合成的質(zhì)量和自然度。
與此同時(shí),NaturalSpeech 3通過將訓(xùn)練數(shù)據(jù)擴(kuò)展到20萬小時(shí)(這是迄今為止公開的研究工作中使用的最大規(guī)模數(shù)據(jù))以及將模型大小擴(kuò)展到1B(2B甚至更大的模型正在訓(xùn)練中),進(jìn)一步提升語音合成的質(zhì)量和自然度。
NaturalSpeech 3采用的屬性分解神經(jīng)語音編解碼器(FACodec)是一項(xiàng)創(chuàng)新技術(shù)。
FACodec的核心在于將復(fù)雜的語音波形轉(zhuǎn)換為多個(gè)解耦子空間,這些子空間分別代表語音的不同屬性,如內(nèi)容、韻律、音色和聲學(xué)細(xì)節(jié)。這樣的設(shè)計(jì)使得FACodec能夠更精準(zhǔn)地控制和重構(gòu)語音的各個(gè)方面,從而生成更自然、更高質(zhì)量的語音輸出。
FACodec通過以下幾個(gè)關(guān)鍵組件實(shí)現(xiàn)其功能:
- 語音編碼器:將原始的語音數(shù)據(jù)轉(zhuǎn)化到表征空間,為后續(xù)的屬性分解做準(zhǔn)備。
- 音色提取器:專門負(fù)責(zé)提取語音的音色屬性,即說話人的獨(dú)特聲音特征。
- 分解向量量化器:分別針對(duì)內(nèi)容、韻律和聲學(xué)細(xì)節(jié),將這些屬性轉(zhuǎn)換成量化的、離散的表示形式。這一步是實(shí)現(xiàn)屬性間解耦的關(guān)鍵。
- 語音解碼器:根據(jù)從分解向量量化器得到的各屬性表示,重構(gòu)出高質(zhì)量的語音波形。
此外,F(xiàn)ACodec還結(jié)合了多種訓(xùn)練技術(shù),以優(yōu)化這些組件的性能和相互作用,確保生成的語音既自然又符合目標(biāo)屬性。
這種屬性分解和重構(gòu)的方法不僅簡(jiǎn)化了TTS對(duì)語音表示的建模過程,而且大大增強(qiáng)了語音合成的可控性和靈活性。用戶可以通過調(diào)整不同的語音屬性來生成滿足特定需求的語音,如調(diào)整音色以模仿特定的說話人,或修改韻律以改變語音的情感表達(dá)。
目前語音開源項(xiàng)目Amphion已經(jīng)支持NaturalSpeech 3的核心組件FACodec,并且已發(fā)布預(yù)訓(xùn)練模型。
NaturalSpeech 3的另一個(gè)創(chuàng)新之處在于其對(duì)屬性分解擴(kuò)散模型的采用,這種方法為語音合成帶來了新的維度。
通過使用統(tǒng)一的擴(kuò)散模型并合集多個(gè)擴(kuò)散階段,分別針對(duì)音素持續(xù)時(shí)間、韻律、內(nèi)容和聲學(xué)細(xì)節(jié)進(jìn)行建模,NaturalSpeech 3能夠更細(xì)致且有效地控制語音生成的各個(gè)方面。
與傳統(tǒng)的語音合成方法相比,這種模塊化的擴(kuò)散模型架構(gòu)提供了更高的靈活性和精確度,使得生成的語音既自然又富有表現(xiàn)力。
在這種架構(gòu)中,音色作為一種重要的語音屬性,其特征可以直接從提供給系統(tǒng)的提示(prompt)中提取,而不需要像其他屬性那樣通過獨(dú)立的模型來建模。
這種設(shè)計(jì)簡(jiǎn)化了系統(tǒng)的復(fù)雜度,同時(shí)保證了音色的一致性和自然性。每個(gè)擴(kuò)散模型只需要接受與其對(duì)應(yīng)的語音屬性相關(guān)的提示,從而實(shí)現(xiàn)了對(duì)特定語音屬性的精準(zhǔn)控制和可控性生成。
SOTA的語音合成效果:經(jīng)過大量的實(shí)驗(yàn)驗(yàn)證,NaturalSpeech 3在語音質(zhì)量、相似性、韻律和可懂度方面均超越了現(xiàn)有最先進(jìn)的TTS系統(tǒng)。特別是,在LibriSpeech測(cè)試集上,NaturalSpeech 3已經(jīng)達(dá)到了人類錄音水平。
Data/Model Scaling:值得一提的是,NaturalSpeech 3還將模型拓展到 1B 大小、數(shù)據(jù)量拓展到 20萬小時(shí)左右,在提升合成語音質(zhì)量,相似度,可理解性方等面的令人期待的結(jié)果,展示了較強(qiáng)的Scaling能力。
傳送門:
[1]NaturalSpeech 3 論文鏈接: https://arxiv.org/abs/2403.03100
[2]NaturalSpeech 3 Demo演示: https://speechresearch.github.io/naturalspeech3
[3]FACodec預(yù)訓(xùn)練模型: https://huggingface.co/spaces/amphion/naturalspeech3_facodec
[4]FACodec代碼: https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec
本文轉(zhuǎn)自 量子位,作者:量子位
