自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有這5款開源軟件,語音轉(zhuǎn)文字很簡單!

新聞 語音識別
語音文字轉(zhuǎn)換(STT)系統(tǒng),一種能夠?qū)⒄Z音單詞轉(zhuǎn)換成文本的方法,用途十分廣泛,比如我們經(jīng)常在用的微信聊天中語音轉(zhuǎn)文字功能。

語音文字轉(zhuǎn)換(STT)系統(tǒng),一種能夠?qū)⒄Z音單詞轉(zhuǎn)換成文本的方法,用途十分廣泛,比如我們經(jīng)常在用的微信聊天中語音轉(zhuǎn)文字功能。

過去,語音轉(zhuǎn)文本技術(shù)由專有軟件和庫控制;開源替代方案不存在或存在極端局限,如今這種形勢已經(jīng)發(fā)生變化,今天你可以使用許多開源的語音轉(zhuǎn)文本工具和庫,今天,我們就舉5個好用的開源語音識別庫。

1、DeepSpeech項(xiàng)目 

[[285482]]

該項(xiàng)目由Mozilla開發(fā),這是一個100%免費(fèi)的開源語音轉(zhuǎn)文本庫,它使用了 TensorFlow 機(jī)器學(xué)習(xí)框架實(shí)現(xiàn)去功能。

你可以使用它自己構(gòu)建訓(xùn)練模型,以增強(qiáng)語音轉(zhuǎn)換到文本的效果,你還可以根據(jù)自己的需要引入其他語言,甚至可以輕松把它集成到TensorFlow上的其他機(jī)器學(xué)習(xí)項(xiàng)目中。唯一可惜的是,該項(xiàng)目目前默認(rèn)情況下僅支持英語。

它也支持多種語言,例如Python(3.6)。運(yùn)行十分簡單:

  1. pip3安裝deepspeech  
  2. deepspeech --model模型/output_graph.pbmm --alphabet模型/alphabet.txt --lm模型/lm.binary --trie模型/ trie --audio my_audio_file.wav  

你也可以使用npm安裝它:

  1. npm安裝deepspeech 

近日,DeepSpeech還登上Github Trending周榜:

有这5款开源软件,语音转文字很简单!

Github地址:https://github.com/mozilla/DeepSpeech

2、Kaldi

有这5款开源软件,语音转文字很简单!

Kaldi是用C++編寫的開源語音識別軟件,遵循Apache公共許可協(xié)議,支持Windows,macOS和Linux,2009年就已經(jīng)發(fā)布了。

與其他語音識別軟件相比,Kaldi的主要功能是可擴(kuò)展和模塊化。社區(qū)提供了大量的第三方模塊,Kaldi還支持深度神經(jīng)網(wǎng)絡(luò),并在其網(wǎng)站上提供了完整的使用文檔。

雖然代碼主要是用C++編寫的,但是它通過 Bash 和 Python 腳本進(jìn)行了封裝。因此,如果你只是想實(shí)現(xiàn)基本的語音轉(zhuǎn)換成文本功能,那通過Python或Bash就可以輕松實(shí)現(xiàn)這一點(diǎn)。

項(xiàng)目主頁:http://kaldi-asr.org/

3、Julius

有这5款开源软件,语音转文字很简单! 

這可能是有史以來最古老的語音識別軟件之一;京都大學(xué)在1991年的時候開發(fā)的,然后于2005年將它移交給一個獨(dú)立的項(xiàng)目團(tuán)隊(duì)。

Julius 的主要特點(diǎn)包括了執(zhí)行實(shí)時 STT 的能力,低內(nèi)存占用(20000 單詞少于 64 MB),能夠輸出最優(yōu)詞N-best word和詞圖Word-graph,能夠作為服務(wù)器單元運(yùn)行等等。這款軟件主要為學(xué)術(shù)和研究所設(shè)計。它是由C 語言寫成,并且可以運(yùn)行在 Linux、Windows、macOS 甚至 Android(在智能手機(jī)上)。

目前,它僅支持英語和日語,該軟件可能很容易安裝在Linux發(fā)行版的倉庫中。只需在軟件包管理器中搜索julius包即可。

項(xiàng)目主頁:https://github.com/julius-speech/julius

4、Wav2Letter ++

有这5款开源软件,语音转文字很简单!

Wav2Letter ++是一款開源語音識別軟件,在今年由Facebook的AI研究團(tuán)隊(duì)發(fā)布。該代碼在BSD許可下發(fā)布。Facebook將其倉庫描述為“當(dāng)下最快、最先進(jìn)的語音識別系統(tǒng)”,默認(rèn)情況下,構(gòu)建此工具所基于的概念使其針對性能進(jìn)行了優(yōu)化,Wav2Letter ++是基于FlashLight構(gòu)建,它也是Facebook最新的機(jī)器學(xué)習(xí)庫。

使用Wav2Letter ++,你首先需要為你自己想要的語言構(gòu)建訓(xùn)練模型,以便于訓(xùn)練算法,沒有任何一種語言(包括英語)的預(yù)訓(xùn)練模型,它僅僅是個機(jī)器學(xué)習(xí)驅(qū)動的文本語音轉(zhuǎn)換工具,它用 C++ 寫成,因此被命名為 Wav2Letter++。

項(xiàng)目主頁:https://github.com/facebookresearch/wav2letter

5、DeepSpeech2

有这5款开源软件,语音转文字很简单!

百度的研究人員也在研究自己的語音轉(zhuǎn)文本引擎DeepSpeech2。這是一個端到端的開源引擎,它使用“ PaddlePaddle”深度學(xué)習(xí)框架將英語和普通話的語音轉(zhuǎn)換為文本。該項(xiàng)目在BSD許可下發(fā)布。

該引擎可以針對任何模型和所需的任何語言進(jìn)行培訓(xùn)。模型不隨代碼一起發(fā)布;就像其他軟件一樣,你必須自己構(gòu)建它們。DeepSpeech2的源代碼是用Python編寫的;因此,如果這是你使用的語言,你應(yīng)該很快就能使用上手

項(xiàng)目地址:https://github.com/PaddlePaddle/DeepSpeech

語音識別類別主要還是由專有軟件巨頭(例如Google和IBM)來主導(dǎo)(它們確實(shí)為此提供了自己的閉源商業(yè)服務(wù)),但是開源替代方案是有希望的。這5個開源語音識別引擎讓你可以自己著手構(gòu)建應(yīng)用程序,不知道有沒有你用過的呢? 

 

責(zé)任編輯:張燕妮 來源: 開源最前線
相關(guān)推薦

2019-06-24 09:30:00

開源技術(shù) 趨勢

2022-02-05 08:20:25

DeepSpeech開源軟件開發(fā)

2017-03-16 16:57:56

2024-11-29 07:45:38

C#離線語音文字

2017-09-06 10:51:22

Facebook

2015-12-30 10:36:59

2010-09-13 17:04:21

防火墻故障

2010-06-12 10:10:55

2014-12-30 09:35:16

文字轉(zhuǎn)語音

2010-10-09 16:51:47

2010-06-10 12:55:18

MySQL5 mast

2011-03-02 09:36:30

開源BBS論壇軟件

2010-09-29 14:48:16

2020-11-17 08:58:32

開源工具報表

2011-03-01 09:10:19

開源數(shù)據(jù)庫

2010-06-09 13:55:24

設(shè)置MySQL同步

2010-05-19 16:45:26

MySQL自動啟動

2016-08-29 09:38:23

2022-03-25 09:44:55

開源軟件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號