自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

新聞 語音識別
語音文字轉(zhuǎn)換(speech-to-text)(STT)系統(tǒng)就像它名字所蘊(yùn)含的意思那樣,是一種將說出的單詞轉(zhuǎn)換為文本文件以供后續(xù)用途的方式。

 語音文字轉(zhuǎn)換(speech-to-text)(STT)系統(tǒng)就像它名字所蘊(yùn)含的意思那樣,是一種將說出的單詞轉(zhuǎn)換為文本文件以供后續(xù)用途的方式。

語音文字轉(zhuǎn)換技術(shù)非常有用。它可以用到許多應(yīng)用中,例如自動轉(zhuǎn)錄,使用自己的聲音寫書籍或文本,用生成的文本文件和其他工具做復(fù)雜的分析等。

在過去,語音文字轉(zhuǎn)換技術(shù)以專有軟件和庫為主導(dǎo),要么沒有開源替代品,要么有著嚴(yán)格的限制,也沒有社區(qū)。這一點(diǎn)正在發(fā)生改變,當(dāng)今有許多開源語音文字轉(zhuǎn)換工具和庫可以讓你隨時使用。

這里我列出了 5 個。

開源語音識別庫

DeepSpeech 項(xiàng)目

[[268738]]

5 Good Open Source Speech Recognition/Speech-to-Text Systems 16 open source speech recognition

該項(xiàng)目由 Firefox 瀏覽器的開發(fā)組織 Mozilla 團(tuán)隊開發(fā)。它是 100% 的自由開源軟件,其名字暗示使用了 TensorFlow 機(jī)器學(xué)習(xí)框架實(shí)現(xiàn)去功能。

換句話說,你可以用它訓(xùn)練自己的模型獲得更好的效果,甚至可以用它來轉(zhuǎn)換其它的語言。你也可以輕松的將它集成到自己的 Tensorflow 機(jī)器學(xué)習(xí)項(xiàng)目中。可惜的是項(xiàng)目當(dāng)前默認(rèn)僅支持英語。

它也支持許多編程語言,例如 Python(3.6)。可以讓你在數(shù)秒之內(nèi)完成工作:

  1. pip3 install deepspeech 
  2. deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav 

你也可以通過 npm 安裝它:

  1. npm install deepspeech 
  • 項(xiàng)目主頁

Kaldi

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 18 open source speech recognition

Kaldi 是一個用 C++ 編寫的開源語音識別軟件,并且在 Apache 公共許可證下發(fā)布。它可以運(yùn)行在 Windows、macOS 和 Linux 上。它的開發(fā)始于 2009。

Kaldi 超過其他語音識別軟件的主要特點(diǎn)是可擴(kuò)展和模塊化。社區(qū)提供了大量的可以用來完成你的任務(wù)的第三方模塊。Kaldi 也支持深度神經(jīng)網(wǎng)絡(luò),并且在它的網(wǎng)站上提供了 出色的文檔 。

雖然代碼主要由 C++ 完成,但它通過 Bash 和 Python 腳本進(jìn)行了封裝。因此,如果你僅僅想使用基本的語音到文字轉(zhuǎn)換功能,你就會發(fā)現(xiàn)通過 Python 或 Bash 能夠輕易的實(shí)現(xiàn)。

  • 項(xiàng)目主頁

Julius

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 20 open source speech recognition

它可能是有史以來最古老的語音識別軟件之一。它的開發(fā)始于 1991 年的京都大學(xué),之后在 2005 年將所有權(quán)轉(zhuǎn)移到了一個獨(dú)立的項(xiàng)目組。

Julius 的主要特點(diǎn)包括了執(zhí)行實(shí)時 STT 的能力,低內(nèi)存占用(20000 單詞少于 64 MB),能夠輸出 ***詞(N-best word)和 詞圖(Word-graph),能夠作為服務(wù)器單元運(yùn)行等等。這款軟件主要為學(xué)術(shù)和研究所設(shè)計。由 C 語言寫成,并且可以運(yùn)行在 Linux、Windows、macOS 甚至 Android(在智能手機(jī)上)。

它當(dāng)前僅支持英語和日語。軟件應(yīng)該能夠從 Linux 發(fā)行版的倉庫中輕松安裝。只要在軟件包管理器中搜索 julius 即可。***的版本 發(fā)布 于本文發(fā)布前大約一個半月之前。

  • 項(xiàng)目主頁

Wav2Letter++

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 22 open source speech recognition

如果你在尋找一個更加時髦的,那么這款一定適合。Wav2Letter++ 是一款由 Facebook 的 AI 研究團(tuán)隊于 2 個月之前發(fā)布的開源語言識別軟件。代碼在 BSD 許可證下發(fā)布。

Facebook 描述它的庫是“最快、 ***進(jìn)(state-of-the-art)的語音識別系統(tǒng)”。構(gòu)建它時的理念使其默認(rèn)針對性能進(jìn)行了優(yōu)化。Facebook ***的機(jī)器學(xué)習(xí)庫 FlashLight 也被用作 Wav2Letter++ 的底層核心。

Wav2Letter++ 需要你先為所描述的語言建立一個模型來訓(xùn)練算法。沒有任何一種語言(包括英語)的預(yù)訓(xùn)練模型,它僅僅是個機(jī)器學(xué)習(xí)驅(qū)動的文本語音轉(zhuǎn)換工具,它用 C++ 寫成,因此被命名為 Wav2Letter++。

  • 項(xiàng)目主頁

DeepSpeech2

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 24 open source speech recognition

中國軟件巨頭百度的研究人員也在開發(fā)他們自己的語音文字轉(zhuǎn)換引擎,叫做“DeepSpeech2”。它是一個端對端的開源引擎,使用“PaddlePaddle”深度學(xué)習(xí)框架進(jìn)行英語或漢語的文字轉(zhuǎn)換。代碼在 BSD 許可證下發(fā)布。

該引擎可以在你想用的任何模型和任何語言上訓(xùn)練。模型并未隨代碼一同發(fā)布。你要像其他軟件那樣自己建立模型。DeepSpeech2 的源代碼由 Python 寫成,如果你使用過就會非常容易上手。

  • 項(xiàng)目主頁

總結(jié)

語音識別領(lǐng)域仍然主要由專有軟件巨頭所占據(jù),比如 Google 和 IBM(它們?yōu)榇颂峁┝碎]源商業(yè)服務(wù)),但是開源同類軟件很有前途。這 5 款開源語音識別引擎應(yīng)當(dāng)能夠幫助你構(gòu)建應(yīng)用,隨著時間推移,它們會不斷地發(fā)展。在幾年之后,我們希望開源成為這些技術(shù)中的常態(tài),就像其他行業(yè)那樣。

如果你對清單有其他的建議或評論,我們很樂意在下面聽到。

責(zé)任編輯:張燕妮 來源: Linux中國
相關(guān)推薦

2019-12-13 09:48:48

開源技術(shù) 軟件

2014-12-30 09:35:16

文字轉(zhuǎn)語音

2017-09-06 10:51:22

Facebook

2024-01-08 19:30:15

AI開源語音識別

2014-12-08 09:40:38

ACAT語音系統(tǒng)

2016-02-17 10:39:18

語音識別語音合成語音交互

2011-01-18 11:52:25

Linux語音識別

2021-12-08 14:06:19

Python語音識別開發(fā)

2017-06-26 15:15:24

開源語音識別工具包

2011-05-31 16:38:47

Android 實(shí)現(xiàn)語音

2009-08-21 15:28:23

C#英文

2017-10-27 16:19:23

語音識別CNN

2021-11-17 10:37:39

語音識別技術(shù)人工智能

2018-05-02 11:38:14

語音識別法院

2016-10-09 08:49:55

科技新聞早報

2012-09-13 11:15:57

IBMdw

2021-05-06 11:13:06

人工智能語音識別

2021-05-06 11:18:23

人工智能語音識別

2009-07-21 15:28:06

Windows Emb

2021-12-24 10:34:11

鴻蒙HarmonyOS應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號