自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟NaturalSpeech語音合成推出第三代,網友驚呼:超自然!實至名歸

人工智能 新聞
多年來,微軟持續(xù)關注語音領域的技術研究與產品研發(fā),為了合成高質量自然的人類語音,NaturalSpeech 研究項目(https://aka.ms/speechresearch)應運而生。

文本到語音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來取得了飛速發(fā)展。在大模型(LLM)時代下,語音合成技術能夠擴展大模型的語音交互能力,更是受到了廣泛的關注。

多年來,微軟持續(xù)關注語音領域的技術研究與產品研發(fā),為了合成高質量自然的人類語音,NaturalSpeech 研究項目(https://aka.ms/speechresearch)應運而生。

為了實現這個宏偉遠景,NaturalSpeech 項目將目標拆分成幾個階段:

1)第一階段,在單個說話人上取得媲美人類的語音質量。為此,研究團隊在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 語音合成數據集上達到了人類錄音水平的音質

2)第二階段,高效地實現像人類一樣多樣化的語音合成,包含不同的說話人、韻律、情感、風格等。為此,研究團隊在 2023 年推出了 NaturalSpeech 2,利用擴散模型(Diffusion Model)實現了零樣本(Zero-Shot)的語音合成。

在 2024 年,該研究團隊聯合中科大、港中大(深圳)、浙大等機構聯合發(fā)布了全新的系統:NaturalSpeech 3,它從語音數據的 “表示” 和 “建?!?兩個角度出發(fā),利用創(chuàng)新的屬性分解擴散模型和屬性分解語音神經編解碼器 FACodec,通過 Data/Model Scaling,實現了零樣本語音合成的重要突破,極大地向第二階段目標邁進。

3)當前,該聯合研究團隊正在研究更自然的語音合成,最終實現像人類一樣自然且隨意的發(fā)聲。

圖片

NaturalSpeech 3 論文鏈接: https://arxiv.org/abs/2403.03100

NaturalSpeech 3 Demo 演示: https://speechresearch.github.io/naturalspeech3

NaturalSpeech 3 論文一經推出就在國內外社交媒體上引發(fā)熱議,推特網友盛贊:NaturalSpeech 3 是目前最好的零樣本 TTS 模型,標題里的「Natural」可以說是當之無愧。

圖片

NaturalSpeech 3 可以僅僅通過 3s 的提示音頻在沒有見過的說話人上實現效果驚艷音色克隆

NaturalSpeech 3 不僅能夠實現逼真的音色模型,還能夠非常好的還原韻律,情感等特征。

可以感覺到,NaturalSpeech 3 生成的結果在音質和音色方面和真實音頻幾乎沒有差別,并且非常好的復刻了提示音頻中包含的情緒等語音信息。

NaturalSpeech 3 還可以對不同的屬性使用不同的提示實現更為可控的生成,例如可以使用一個語速較快的人的聲音作為 duration 的提示,使得生成的結果同樣具有較快的語速。duration prompt,機器之心,3秒

可以發(fā)現,NaturalSpeech 3 的音色仍然和其他屬性的 prompt 保持一致,但是跟隨了 duration prompt 較快語速。

NaturalSpeech 3 的成功秘訣來自于基于屬性分解的 Codec+Diffusion 建模范式以及 Data/Model Scaling。傳統 TTS 系統因訓練數據集有限,難以支持高質量的零樣本語音合成。而最近的研究通過擴大語料庫,雖有所進步,但在聲音質量、相似性和韻律方面仍未達到理想水平。

NaturalSpeech 3 提出創(chuàng)新的屬性分解擴散模型和屬性分解神經語音編碼器 FACodec,通過將語音分解成不同屬性的子空間并根據不同的提示(prompt)分別生成,有效地降低了語音建模難度,從而大大提高了語音合成的質量和自然度。

與此同時,NaturalSpeech 3 通過將訓練數據擴展到 20 萬小時(這是迄今為止公開的研究工作中使用的最大規(guī)模數據)以及將模型大小擴展到 1B(2B 甚至更大的模型正在訓練中),進一步提升語音合成的質量和自然度。

圖片

屬性分解神經語音編解碼器(FACodec): NaturalSpeech 3 提出一種創(chuàng)新的屬性分解神經語音編解碼器(Codec)負責將復雜的語音波形轉換成代表不同語音屬性(內容、韻律、音色和聲學細節(jié))的解耦子空間,并從這些屬性重構高質量的語音波形。

FACodec 通過使用語音編碼器、音色提取器、三個分解向量量化器(分別針對內容、韻律和聲學細節(jié))、一個語音解碼器以及多種訓練技術的組合,實現了這一過程。這種設計促進了語音屬性間的解耦,簡化了 TTS 對語音表示的建模過程。

圖片

NaturalSpeech 3的屬性分解神經語音編解碼器FACodec

目前語音開源項目 Amphion 已經支持 NaturalSpeech 3 的核心組件 FACodec,并且已發(fā)布預訓練模型。FACodec 作為 NaturalSpeech 3 的核心,能夠將復雜的語音波形轉換成表示內容、韻律、音色和聲學細節(jié)等屬性的解耦表示,并從這些屬性重構高質量的語音波形。

這一技術能夠顯著降低語音的建模難度,研究人員可以利用 FACodec 復現 NaturalSpeech 3 或應用到語音合成、語音轉換等各式各樣的下游生成任務。

FACodec 預訓練模型: https://huggingface.co/spaces/amphion/naturalspeech3_facodec

FACodec 代碼: https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec

屬性分解擴展模型:NaturalSpeech 3 設計了多個擴散模型模塊來分別建模音素持續(xù)時間、韻律、內容、聲學細節(jié)(其中韻律,內容,聲學細節(jié)共享一個Diffusion模型),而不需要單獨對音色進行建模,因為音色特征可以直接從 prompt 中提取。此外,每一個擴散模型的 prompt 僅與該模塊的語音因素相關,實現了對各個模塊的可控性生成。

NaturalSpeech 3的屬性分解擴散模型

SOTA 的語音合成效果:經過大量的實驗驗證,NaturalSpeech 3 在語音質量、相似性、韻律和可懂度方面均超越了現有最先進的 TTS 系統。特別是,在 LibriSpeech 測試集上,與真實語音相比,NaturalSpeech 3 在 CMOS 評分上達到了相當甚至更好的語音質量;在語音相似度方面,實現了新的最佳水平;在韻律建模上也展現了顯著的改進。

圖片

NaturalSpeech 3和其它TTS系統比較

圖片

NaturalSpeech3在不同模型大小和數據量下的比較

FACodec的擴展用途: NaturalSpeech 3 中提出的FACodec不僅僅在非自回歸語音合成中取得了很好的結果,而且進一步證明了其在自回歸語音合成范式中的顯著效果。作者們使用經典的自回歸架構VALL-E,相比原本的基于RVQ的Codec,在音質、相似度、穩(wěn)定性上都有非常顯著的提升!這進一步說明了基于屬性分解的語音表征的巨大空間。

Data/Model Scaling:值得一提的是,NaturalSpeech 3 還將模型拓展到 1B 大小、數據量拓展到 20 萬小時左右,在提升合成語音質量,相似度,可理解性方等面的令人期待的結果,展示了較強的 Scaling 能力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-12-09 09:56:42

Vidyo

2009-04-11 21:45:24

2023-07-27 16:51:05

微軟語音模型人工智能

2012-05-31 14:13:05

2015-08-24 09:35:18

微軟

2009-10-14 09:35:11

Linux發(fā)行版操作系統

2024-04-16 07:18:54

指標平臺數倉數智化分析

2015-08-24 09:31:59

微軟

2014-03-14 11:22:08

Avalon芯片A3233

2010-09-28 10:53:07

Cisco WAAS

2010-05-14 15:49:13

2011-10-27 12:17:50

2009-05-22 08:30:46

iPhone移動OS蘋果

2015-10-26 15:40:24

PMC

2021-01-19 09:56:30

AI知識圖譜

2013-07-24 10:41:33

甲骨文全球大會2013甲骨文

2011-05-31 16:46:09

投影機推薦

2018-04-26 20:34:20

2015-08-05 16:34:10

東芝
點贊
收藏

51CTO技術棧公眾號