自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

作者：LCTT 編譯 2019-06-24 09:30:00

新聞語音識別

語音文字轉(zhuǎn)換(speech-to-text)（STT）系統(tǒng)就像它名字所蘊(yùn)含的意思那樣，是一種將說出的單詞轉(zhuǎn)換為文本文件以供后續(xù)用途的方式。

語音文字轉(zhuǎn)換(speech-to-text)（STT）系統(tǒng)就像它名字所蘊(yùn)含的意思那樣，是一種將說出的單詞轉(zhuǎn)換為文本文件以供后續(xù)用途的方式。

語音文字轉(zhuǎn)換技術(shù)非常有用。它可以用到許多應(yīng)用中，例如自動轉(zhuǎn)錄，使用自己的聲音寫書籍或文本，用生成的文本文件和其他工具做復(fù)雜的分析等。

在過去，語音文字轉(zhuǎn)換技術(shù)以專有軟件和庫為主導(dǎo)，要么沒有開源替代品，要么有著嚴(yán)格的限制，也沒有社區(qū)。這一點(diǎn)正在發(fā)生改變，當(dāng)今有許多開源語音文字轉(zhuǎn)換工具和庫可以讓你隨時使用。

這里我列出了 5 個。

開源語音識別庫

DeepSpeech 項(xiàng)目

5 Good Open Source Speech Recognition/Speech-to-Text Systems 16 open source speech recognition

該項(xiàng)目由 Firefox 瀏覽器的開發(fā)組織 Mozilla 團(tuán)隊開發(fā)。它是 100% 的自由開源軟件，其名字暗示使用了 TensorFlow 機(jī)器學(xué)習(xí)框架實(shí)現(xiàn)去功能。

換句話說，你可以用它訓(xùn)練自己的模型獲得更好的效果，甚至可以用它來轉(zhuǎn)換其它的語言。你也可以輕松的將它集成到自己的 Tensorflow 機(jī)器學(xué)習(xí)項(xiàng)目中。可惜的是項(xiàng)目當(dāng)前默認(rèn)僅支持英語。

它也支持許多編程語言，例如 Python（3.6）。可以讓你在數(shù)秒之內(nèi)完成工作：

pip3 install deepspeech 
deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav

你也可以通過 npm 安裝它：

npm install deepspeech

項(xiàng)目主頁

Kaldi

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 18 open source speech recognition

Kaldi 是一個用 C++ 編寫的開源語音識別軟件，并且在 Apache 公共許可證下發(fā)布。它可以運(yùn)行在 Windows、macOS 和 Linux 上。它的開發(fā)始于 2009。

Kaldi 超過其他語音識別軟件的主要特點(diǎn)是可擴(kuò)展和模塊化。社區(qū)提供了大量的可以用來完成你的任務(wù)的第三方模塊。Kaldi 也支持深度神經(jīng)網(wǎng)絡(luò)，并且在它的網(wǎng)站上提供了出色的文檔。

雖然代碼主要由 C++ 完成，但它通過 Bash 和 Python 腳本進(jìn)行了封裝。因此，如果你僅僅想使用基本的語音到文字轉(zhuǎn)換功能，你就會發(fā)現(xiàn)通過 Python 或 Bash 能夠輕易的實(shí)現(xiàn)。

項(xiàng)目主頁

Julius

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 20 open source speech recognition

它可能是有史以來最古老的語音識別軟件之一。它的開發(fā)始于 1991 年的京都大學(xué)，之后在 2005 年將所有權(quán)轉(zhuǎn)移到了一個獨(dú)立的項(xiàng)目組。

Julius 的主要特點(diǎn)包括了執(zhí)行實(shí)時 STT 的能力，低內(nèi)存占用（20000 單詞少于 64 MB），能夠輸出 ***詞(N-best word)和詞圖(Word-graph)，能夠作為服務(wù)器單元運(yùn)行等等。這款軟件主要為學(xué)術(shù)和研究所設(shè)計。由 C 語言寫成，并且可以運(yùn)行在 Linux、Windows、macOS 甚至 Android（在智能手機(jī)上）。

它當(dāng)前僅支持英語和日語。軟件應(yīng)該能夠從 Linux 發(fā)行版的倉庫中輕松安裝。只要在軟件包管理器中搜索 julius 即可。***的版本發(fā)布于本文發(fā)布前大約一個半月之前。

項(xiàng)目主頁

Wav2Letter++

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 22 open source speech recognition

如果你在尋找一個更加時髦的，那么這款一定適合。Wav2Letter++ 是一款由 Facebook 的 AI 研究團(tuán)隊于 2 個月之前發(fā)布的開源語言識別軟件。代碼在 BSD 許可證下發(fā)布。

Facebook 描述它的庫是“最快、 ***進(jìn)(state-of-the-art)的語音識別系統(tǒng)”。構(gòu)建它時的理念使其默認(rèn)針對性能進(jìn)行了優(yōu)化。Facebook ***的機(jī)器學(xué)習(xí)庫 FlashLight 也被用作 Wav2Letter++ 的底層核心。

Wav2Letter++ 需要你先為所描述的語言建立一個模型來訓(xùn)練算法。沒有任何一種語言（包括英語）的預(yù)訓(xùn)練模型，它僅僅是個機(jī)器學(xué)習(xí)驅(qū)動的文本語音轉(zhuǎn)換工具，它用 C++ 寫成，因此被命名為 Wav2Letter++。

項(xiàng)目主頁

DeepSpeech2

5 款不錯的開源語音識別/語音文字轉(zhuǎn)換系統(tǒng)

5 Good Open Source Speech Recognition/Speech-to-Text Systems 24 open source speech recognition

中國軟件巨頭百度的研究人員也在開發(fā)他們自己的語音文字轉(zhuǎn)換引擎，叫做“DeepSpeech2”。它是一個端對端的開源引擎，使用“PaddlePaddle”深度學(xué)習(xí)框架進(jìn)行英語或漢語的文字轉(zhuǎn)換。代碼在 BSD 許可證下發(fā)布。

該引擎可以在你想用的任何模型和任何語言上訓(xùn)練。模型并未隨代碼一同發(fā)布。你要像其他軟件那樣自己建立模型。DeepSpeech2 的源代碼由 Python 寫成，如果你使用過就會非常容易上手。

項(xiàng)目主頁

總結(jié)

語音識別領(lǐng)域仍然主要由專有軟件巨頭所占據(jù)，比如 Google 和 IBM（它們?yōu)榇颂峁┝碎]源商業(yè)服務(wù)），但是開源同類軟件很有前途。這 5 款開源語音識別引擎應(yīng)當(dāng)能夠幫助你構(gòu)建應(yīng)用，隨著時間推移，它們會不斷地發(fā)展。在幾年之后，我們希望開源成為這些技術(shù)中的常態(tài)，就像其他行業(yè)那樣。

如果你對清單有其他的建議或評論，我們很樂意在下面聽到。

責(zé)任編輯：張燕妮來源： Linux中國

開源技術(shù) 趨勢

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="wh8gc"></nobr><blockquote id="wh8gc"></blockquote>