有這5款開源軟件,語音轉(zhuǎn)文字很簡單!
語音文字轉(zhuǎn)換(STT)系統(tǒng),一種能夠?qū)⒄Z音單詞轉(zhuǎn)換成文本的方法,用途十分廣泛,比如我們經(jīng)常在用的微信聊天中語音轉(zhuǎn)文字功能。
過去,語音轉(zhuǎn)文本技術(shù)由專有軟件和庫控制;開源替代方案不存在或存在極端局限,如今這種形勢已經(jīng)發(fā)生變化,今天你可以使用許多開源的語音轉(zhuǎn)文本工具和庫,今天,我們就舉5個好用的開源語音識別庫。
1、DeepSpeech項(xiàng)目
該項(xiàng)目由Mozilla開發(fā),這是一個100%免費(fèi)的開源語音轉(zhuǎn)文本庫,它使用了 TensorFlow 機(jī)器學(xué)習(xí)框架實(shí)現(xiàn)去功能。
你可以使用它自己構(gòu)建訓(xùn)練模型,以增強(qiáng)語音轉(zhuǎn)換到文本的效果,你還可以根據(jù)自己的需要引入其他語言,甚至可以輕松把它集成到TensorFlow上的其他機(jī)器學(xué)習(xí)項(xiàng)目中。唯一可惜的是,該項(xiàng)目目前默認(rèn)情況下僅支持英語。
它也支持多種語言,例如Python(3.6)。運(yùn)行十分簡單:
- pip3安裝deepspeech
- deepspeech --model模型/output_graph.pbmm --alphabet模型/alphabet.txt --lm模型/lm.binary --trie模型/ trie --audio my_audio_file.wav
你也可以使用npm安裝它:
- npm安裝deepspeech
近日,DeepSpeech還登上Github Trending周榜:
Github地址:https://github.com/mozilla/DeepSpeech
2、Kaldi
Kaldi是用C++編寫的開源語音識別軟件,遵循Apache公共許可協(xié)議,支持Windows,macOS和Linux,2009年就已經(jīng)發(fā)布了。
與其他語音識別軟件相比,Kaldi的主要功能是可擴(kuò)展和模塊化。社區(qū)提供了大量的第三方模塊,Kaldi還支持深度神經(jīng)網(wǎng)絡(luò),并在其網(wǎng)站上提供了完整的使用文檔。
雖然代碼主要是用C++編寫的,但是它通過 Bash 和 Python 腳本進(jìn)行了封裝。因此,如果你只是想實(shí)現(xiàn)基本的語音轉(zhuǎn)換成文本功能,那通過Python或Bash就可以輕松實(shí)現(xiàn)這一點(diǎn)。
項(xiàng)目主頁:http://kaldi-asr.org/
3、Julius
這可能是有史以來最古老的語音識別軟件之一;京都大學(xué)在1991年的時候開發(fā)的,然后于2005年將它移交給一個獨(dú)立的項(xiàng)目團(tuán)隊(duì)。
Julius 的主要特點(diǎn)包括了執(zhí)行實(shí)時 STT 的能力,低內(nèi)存占用(20000 單詞少于 64 MB),能夠輸出最優(yōu)詞N-best word和詞圖Word-graph,能夠作為服務(wù)器單元運(yùn)行等等。這款軟件主要為學(xué)術(shù)和研究所設(shè)計。它是由C 語言寫成,并且可以運(yùn)行在 Linux、Windows、macOS 甚至 Android(在智能手機(jī)上)。
目前,它僅支持英語和日語,該軟件可能很容易安裝在Linux發(fā)行版的倉庫中。只需在軟件包管理器中搜索julius包即可。
項(xiàng)目主頁:https://github.com/julius-speech/julius
4、Wav2Letter ++
Wav2Letter ++是一款開源語音識別軟件,在今年由Facebook的AI研究團(tuán)隊(duì)發(fā)布。該代碼在BSD許可下發(fā)布。Facebook將其倉庫描述為“當(dāng)下最快、最先進(jìn)的語音識別系統(tǒng)”,默認(rèn)情況下,構(gòu)建此工具所基于的概念使其針對性能進(jìn)行了優(yōu)化,Wav2Letter ++是基于FlashLight構(gòu)建,它也是Facebook最新的機(jī)器學(xué)習(xí)庫。
使用Wav2Letter ++,你首先需要為你自己想要的語言構(gòu)建訓(xùn)練模型,以便于訓(xùn)練算法,沒有任何一種語言(包括英語)的預(yù)訓(xùn)練模型,它僅僅是個機(jī)器學(xué)習(xí)驅(qū)動的文本語音轉(zhuǎn)換工具,它用 C++ 寫成,因此被命名為 Wav2Letter++。
項(xiàng)目主頁:https://github.com/facebookresearch/wav2letter
5、DeepSpeech2
百度的研究人員也在研究自己的語音轉(zhuǎn)文本引擎DeepSpeech2。這是一個端到端的開源引擎,它使用“ PaddlePaddle”深度學(xué)習(xí)框架將英語和普通話的語音轉(zhuǎn)換為文本。該項(xiàng)目在BSD許可下發(fā)布。
該引擎可以針對任何模型和所需的任何語言進(jìn)行培訓(xùn)。模型不隨代碼一起發(fā)布;就像其他軟件一樣,你必須自己構(gòu)建它們。DeepSpeech2的源代碼是用Python編寫的;因此,如果這是你使用的語言,你應(yīng)該很快就能使用上手
項(xiàng)目地址:https://github.com/PaddlePaddle/DeepSpeech
語音識別類別主要還是由專有軟件巨頭(例如Google和IBM)來主導(dǎo)(它們確實(shí)為此提供了自己的閉源商業(yè)服務(wù)),但是開源替代方案是有希望的。這5個開源語音識別引擎讓你可以自己著手構(gòu)建應(yīng)用程序,不知道有沒有你用過的呢?