自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

11個優(yōu)秀開源TTS引擎

開發(fā) 開源
本文主要查找收集了一些較好的開源TTS引擎。這些項目有助于我們更加了解TTS的功能。

TTS引擎用于實(shí)現(xiàn)文本到語音的轉(zhuǎn)換。隨著人工智能的普及以及數(shù)字設(shè)備應(yīng)用的增加,相關(guān)系統(tǒng)對語音識別以及文語轉(zhuǎn)換技術(shù)日益依賴,TTS正在變得越來越重要。

在這項技術(shù)的幫助下,可以將文本內(nèi)容轉(zhuǎn)換為錄音??梢詭椭曈X障礙的人理解文本內(nèi)容,可以讓開車的人聽取一個文本工作報告,甚至模擬某個人的聲音播報一段內(nèi)容、演唱一個歌曲,實(shí)現(xiàn)虛擬主播、虛擬歌手。

本文主要查找收集了一些較好的開源TTS引擎。這些項目有助于我們更加了解TTS的功能。

1.CoQui TTS

https://github.com/coqui-ai/TTS

這是一個在研究和生產(chǎn)中經(jīng)過了實(shí)戰(zhàn)考驗(yàn)的TTS深度學(xué)習(xí)工具包,可以以200毫秒的延遲進(jìn)行流傳輸,支持13種語言(包括中文)。

2.mozilla TTS

https://github.com/mozilla/TTS

TTS是一個用于文本到語音生成的高級庫。旨在實(shí)現(xiàn)易于訓(xùn)練、高速度和高質(zhì)量的最佳平衡。 提供預(yù)訓(xùn)練模型,以及用于測量數(shù)據(jù)集質(zhì)量的工具,支持用于產(chǎn)品和研究的20多種語言,包括支持中文。

3.OpenTTS

https://github.com/synesthesiam/opentts

OpenTTS是TTS最有效的開源模型之一。因?yàn)樵撃P椭С职ㄖ形脑趦?nèi)的多種語言。

4.MaryTTS

https://github.com/marytts/marytts

MARY Text-to-Speech 語音合成是一個多語言TTS平臺,支持英語(英國和美國)、法語、德語、意大利語、俄語等語言。

產(chǎn)品特點(diǎn):

  • 使用預(yù)處理技術(shù),如tokenizer和數(shù)值擴(kuò)展。
  • 它采用多線程網(wǎng)絡(luò)架構(gòu),并行處理多個請求。
  • 它本質(zhì)上是靈活的,因此您可以使用純Java模型和外部模型。
  • 它使用XML結(jié)構(gòu)來提高透明度,并且對于普通用戶來說易于理解。

5.eSpeak

https://github.com/espeak-ng/espeak-ng

eSpeak是一個緊湊的開源TTS引擎,可運(yùn)行于Windows和Linux。支持100多種語種和語音(包括中文普通話)。

產(chǎn)品特點(diǎn):

  • 這個平臺可以很容易地完成文本到語音的轉(zhuǎn)換。這有助于系統(tǒng)理解文本的含義。
  • 它帶有兩個合成器:eSpeakinG合成器,通過聲音添加技術(shù)轉(zhuǎn)換元音和響亮的輔音,以完成聲音。Klatt合成器使用類似的技術(shù),但使用減法合成。它使用數(shù)字濾波器來理解輔音、元音和響音之間的區(qū)別。
  • 因?yàn)樗牟町惢夹g(shù)和將文本轉(zhuǎn)換為語音的速度優(yōu)勢,這個工具在2010年被谷歌翻譯使用。
  • 聲音的音質(zhì)清晰悅耳。

6.Mimic

https://github.com/MycroftAI/mimic3

Mimic是一個快如閃電的開源TTS引擎。

產(chǎn)品特點(diǎn):

  • 由于它基于FLITE技術(shù),您可以自定義語音的聲音。
  • 它是一個低延遲平臺,并且只占用少量的資源。
  • 它可以在Linux、Android和Windows上無縫運(yùn)行。

目前,該工具正在為患有語言障礙的人帶來逼真的聲音。

7.CMU Flite TTS

https://github.com/festvox/flite

Festival Lite通常被稱為Flite。它是一個小型的運(yùn)行時引擎,被認(rèn)為是最快的TTS引擎之一。

由于它是一個開源引擎,并且是免費(fèi)的,可以基于這個項目做許多自定義功能。因此,許多公司都選擇了這個TTS引擎。

核心特點(diǎn):

  • 可以用于小型和大型文件。
  • 它是線程安全的,其最新版本提供了一個輕松的TTS轉(zhuǎn)換。
  • 它與Windows、Linux和Android兼容。
  • 它還提供多種語言版本。

8.MBROLA

https://github.com/numediart/MBROLA

MBROLA是Multi-Band Resynthesis OverLap Add的縮寫,也是最常用的開源TTS引擎之一。它支持多種語言。

功能特點(diǎn):

  • 提供多語種數(shù)據(jù)庫。
  • 它對于內(nèi)部文本到語音的轉(zhuǎn)換非常有用。
  • 它以前是一個非商業(yè)軟件,但現(xiàn)在作為開源TTS引擎推出。
  • 它提供了令人愉快的音質(zhì),具有一致性、準(zhǔn)確性的聲音音高。

9.mandarin-tts

https://github.com/ranchlai/mandarin-tts

這是一個模塊化的中文普通話TTS語音合成框架,旨在支持研究和快速產(chǎn)品開發(fā)。

主要功能包括:

  • 所有模塊都可通過YAML配置,
  • 支持并可配置說話者嵌入/韻律嵌入/多流文本嵌入,
  • 適配器支持各種聲碼器(VocGAN、hifi-GAN、waveglow、melGAN),從而可以容易地進(jìn)行不同聲碼器之間的比較,
  • 支持持續(xù)時間/音調(diào)/能量方差預(yù)測器,并且可以容易地添加其他方差,

10.FCH-TTS

https://github.com/atomicoo/FCH-TTS

一個快速語音合成模型,適用于英語、普通話/中文、日語、韓語、俄語和藏語。

11.rhasspy piper

https://github.com/rhasspy/piper

piper是一個快速的本地語音合成系統(tǒng),并針對Raspberry Pi 4(樹莓)進(jìn)行了優(yōu)化。 支持包括中文在內(nèi)的多種語言。

使用DEMO如:

echo 'Welcome to the world of speech synthesis!' | \
  ./piper --model en_US-lessac-medium.onnx --output_file welcome.wav
責(zé)任編輯:趙寧寧 來源: andflow
相關(guān)推薦

2019-11-13 09:01:48

開源JavaScript模板引擎

2024-01-08 19:30:15

AI開源語音識別

2021-06-10 05:43:01

開源Kubernetes容器

2023-10-26 12:10:54

2014-03-04 14:33:03

開源引擎開源游戲項目

2021-08-07 09:30:40

Kubernetes容器

2021-05-26 08:50:37

JavaScript代碼重構(gòu)函數(shù)

2023-10-10 10:27:37

DevOps

2015-12-03 11:48:47

Python優(yōu)秀資源

2020-07-06 13:30:31

前端開發(fā)技術(shù)

2022-03-05 23:08:14

開源軟件開發(fā)技術(shù)

2024-01-12 16:01:10

2023-05-16 08:47:39

2020-04-21 09:16:47

開源Linux Shell

2023-11-29 10:16:45

內(nèi)網(wǎng)開源

2023-04-20 11:59:03

開源PatternFly

2019-11-26 09:11:50

數(shù)據(jù)庫JavaHadoop

2020-07-22 16:27:11

開源工具數(shù)據(jù)挖掘數(shù)據(jù)

2023-06-12 17:59:48

2023-06-01 08:15:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號