自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

細說Linux上的語音識別

運維 系統(tǒng)運維
與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。本文給大家介紹Linux上語音識別的兩款軟件:ViaVoice、Xvoice

  很久以來,與計算機進行交談一直是科幻小說慣用的故事情節(jié),直到今天真正的交談也只有在小說中才能實現(xiàn)。但是在過去的十年中,語音識別軟件的發(fā)展速度非常迅速。目前,市面上出現(xiàn)了多種支持不同操作系統(tǒng)的語音識別控制軟件。也許許多人并沒有意識到Linux桌面系統(tǒng)也完全可以用聲音來控制,并且軟件開發(fā)人員們已經(jīng)取得了一定的成果。下面我們就對Linux系統(tǒng)下的語音識別軟件進行分析概括,以便幫助大家了解其優(yōu)勢和缺陷。

  Linux上的語音識別軟件

  Linux系統(tǒng)下的語音控制軟件可以為身患殘疾或由于過度使用計算機而患計算機綜合癥的人提供使用Linux系統(tǒng)的機會。此前他們不得不改裝其它的操作系統(tǒng),以獲得語音識別技術支持。即使不考慮特殊因素,普通人也可以通過使用語音識別軟件,使操作計算機變得更為簡單有趣。盡管本文對語音識別系統(tǒng)未來的發(fā)展趨勢深表憂慮(原因是它們并不能完全把手解放出來),但是它們的確可以分擔一部分手的工作。

  目前已經(jīng)有兩種套裝軟件中含有支持Linux系統(tǒng)的語音控制軟件。一種是IBM 開發(fā)的支持Linux的ViaVoice,它可以提供一些基本的語音識別功能;另一種是GPL下的Xvoice,它通過ViaVoice庫來為桌面系統(tǒng)和應用程序提供語音控制功能。

  IBM 的Linux ViaVoice是美語版本,目前只在美國和加拿大銷售。它的售價大約是40美元,包括送貨費和一副耳機。用戶也可以從IBM的網(wǎng)站上下載ViaVoice,并可享受一定的價格優(yōu)惠。新版本的ViaVoice在Mandrake 8.0 PowerPack和ProSuite中也可以找到。目前,Mandrake ViaVoice既可以支持英國英語,也可以支持美國英語、法語和德語。Mandrake 8.0以后的版本將不再包含ViaVoice。本文將著重介紹IBM ViaVoice的安裝和使用。

  應用ViaVoice

  Linux ViaVoice需要機器的配置為:Pentium MMX 233以上的CPU、128MB的內存,以及16位的聲卡。實際上, ViaVoice是專門為Red Hat 6.2設計開發(fā)的,但是用戶在Red Hat 7.3環(huán)境和其它Linux版本中也可以正常地運行 ViaVoice。當然用戶也有可能在安裝過程中遇到一些問題。

  在安裝ViaVoice語音識別軟件前,要首先安裝Java運行環(huán)境。ViaVoice 1.0和1.1版本是在JRE-1.2.2環(huán)境下進行測試的。使用正確的版本可以避免在不同JRE環(huán)境下的不兼容。

  JRE安裝完畢后,將安裝盤放入光驅并運行根目錄下的vvsetup,然后再運行vvstartuser將自己設為ViaVoice用戶,并且設置好適當?shù)囊袅?,最后便是反復練習,使軟件適應自己的聲音。切記安裝順序決不能顛倒。

  “調教”ViaVoice

  與其它語音識別軟件一樣,第一次安裝的ViaVoice并不能對用戶的聲音識別得十分準確。使用者必須對它進行一番“調教”,然后才能使它識別使用者的聲音。

  “調教”ViaVoice的一種方法就是按照用戶手冊中的詞語反復的朗讀。對于大多數(shù)用戶來說,這一點并不難,但是手冊中的詞語也許并不是用戶經(jīng)常用到的,因此這個方法的效率并不是很高。

  比較好的方法是在工作時利用ViaVoice的Dictation應用軟件。它是用Java語言寫成的。當用戶進行口述時,一些詞語也許不能被正確識別,當這種情況發(fā)生時,用戶可以使用Dictation中的適當工具對其進行修改。這樣ViaVoice便可以對識別工具進行修正,以便更精確地識別用戶的聲音。這種方法也許會花費較多的力氣,但是類似的修改可以用語音命令來完成。不過請注意隨時存盤,因為Dictation并不十分穩(wěn)定。

  曾經(jīng)有一位專家說,目前的語音識別軟件只要經(jīng)過10到60小時的“調教”,便可以達到98%的正確率。但是到目前為止,對Linux環(huán)境下的 ViaVoice進行測試的結果是,它的正確率只有92%到95%,絕大多數(shù)的語音命令都可以被正確識別。即使用戶只花費幾個小時進行練習,也可以發(fā)現(xiàn) ViaVoice的正確率明顯提高。不過用戶在使用時要特別注意,詞語的發(fā)音、麥克風的質量和周圍環(huán)境都會影響語音識別的正確率。

#p#

  XVoice控制Linux桌面

  當用戶完成ViaVoice的安裝并訓練了一段時間后,便可以安裝Xvoice了。Xvoice的作用是對桌面系統(tǒng)及應用軟件進行控制。 ViaVoice則沒有這些功能。用戶可以到xvoice.sourceforge.net去下載Xvoice軟件,注意一定要事先安裝RPM,因為源程序需要Linux SDK中的ViaVoice中斷運行。

  安裝完成后,在最后出現(xiàn)的窗口中輸入xvoice m,注意不要運行Dictation。這時用戶可以做一個簡單的測試,口述命令“下一窗口”,桌面上應該出現(xiàn)另一個窗口。

  Xvoice允許用戶事先設定好一些操作的口述命令。一套口述命令被稱為一個語法組。語法組可以與確定的應用程序、窗口或者應用程序中的某一模塊聯(lián)系在一起,也可以由上下文產(chǎn)生。由口述命令調用的操作可以包括敲鍵盤、鼠標事件、運行外部命令或三者的任意結合。

  Xvoice使用ViaVoice語音庫來識別命令和常規(guī)文字。xvoice.xml配置文件可以對命令進行定義。Xvoice使用標準的配置文件,其位置是/usr/share/xvoice/xvoice.xml。當然用戶也可以對其位置進行修改,例如可以改為 ~/.xvoice/xvoice.xml。

  Xvoice的窗口可以顯示哪一個命令語法是被擊活的,并且窗口中還包括一個面板可以顯示最近口述的命令。如果Xvoice認為用戶口述的一些詞語與某個命令十分相似難以識別,那么在面板中顯示的這一命令將是灰色的,以便提醒用戶,并且這條命令不會被執(zhí)行。

  對于任何應用程序窗口,Xvoice都有4種不同的狀態(tài)。在命令模式下,Xvoice只對命令進行識別;在聽寫模式下,Xvoice不識別特定的應用程序命令,只是顯示出它能識別的詞語;在空閑模式下,只有一般命令可以被識別;最后,在命令和聽寫模式下,口述詞語和命令都可以被識別,這時用戶需要在命令的前后稍加停頓,以便與文本相區(qū)別。

  當用戶第一次運行某一應用程序時,Xvoice會自動啟動命令模式。如果用戶想同時打開聽寫模式,只需要說“聽寫模式”便可以了;如果想關閉聽寫模式,也只需要說“停止聽寫模式”就萬事大吉了。

  當然,最好的方法是將Xvoice窗口置于系統(tǒng)的窗口管理器中,這樣你就可以隨時了解它的工作情況了。如果你想在開機時便自動運行Xvoice,只要將xvoice m 放入窗口管理器的啟動程序中就行了。

  聲控應用程序

  下面來看一看如何為應用程序定義語法。首先,將要定義語法的軟件定義為一個可讀的名字,然后為程序的窗口命名一個語句,這樣Xvoice便可以識別哪個語法命令是要激活的。在第一行,可以看到一個特殊的固定應用程序名,而它并不是窗口標題。這一特殊的應用程序名必須上下文統(tǒng)一。

  應用程序的標簽中包含有聽寫屬性。如果條件為真,則首次運行語句時,Xvoice自動進入聽寫模式。語句的第二行包含有一些在< define name='numbers'>區(qū)中已經(jīng)定義過的值。用戶可以在定義區(qū)中自行定義標記,并應用于整個配置文件中。

  語句的第3行舉例說明定義區(qū)內可以包含的內容,而這里的命令標記只能在本命令范圍內使用。這一行的主要作用是通過語音命令各自的箭頭鍵將彼此互聯(lián)系起來。當執(zhí)行命令時,系統(tǒng)會將語音命令與相應的鍵盤命令對應起來。語音命令的識別轉換過程從第4行語句開始。第4行到第8行都是與鍵盤操作相關的語句,與鼠標相關的語句在第9行到第15行,第16行到第22行是與其它應用程序相關的命令語句,第23行是結束行。

  通過對個人配置文件的編輯,用戶幾乎可以自動完成過去需要鍵盤和鼠標才能完成的所有操作過程。許多普通應用軟件的語法組,事先已經(jīng)包含在缺省的配置文件中了,成為用戶良好的范例。

  語音識別的發(fā)展

  Xvoice無法控制一些特殊的應用軟件和一些主流游戲軟件。對于一些諸如GIMP和Netscape軟件來說,雖然Xvoice可以對其進行控制,但是由于此類軟件需要大量的鼠標操作,用戶會對用語音控制鼠標感到十分厭煩。

  雖然語音識別軟件對于大多數(shù)命令和一般的文本都可以正確地識別,但是在某些情況下,即使是一個微小的錯誤也是不允許。語音軟件的使用者必須使自已的聲音保持穩(wěn)定。

  另外,雖然XVoice 和ViaVoice可以完成大量的工作,但是用戶卻無法通過聲音控制整個Linux桌面環(huán)境。

  IBM公司已經(jīng)發(fā)布了新的ViaVoice,但是只支持Mac 和Windows,未來是否能支持Linux目前尚不確定。Xvoice的開發(fā)人員們正在努力尋找一種能支持開放系統(tǒng)的替代產(chǎn)品,而不希望再為Xvoice增加新的功能了。

通過本文大家理解到了Linux上的語音識別,希望對大家有幫助。

【編輯推薦】

  1. 怎樣登錄和退出Linux系統(tǒng)
  2. 解剖Linux系統(tǒng)的LOG日志文件
  3. Linux設備配置之顯卡配置
  4. Linux設備配置之Modem的配置
  5. 強大實用 Vista語音識別視頻演示
  6. C#英文語音合成與中文語音識別技術
  7. Windows Embedded Standard 添加語音識別

 

 

 

責任編輯:趙鵬
相關推薦

2009-03-26 17:23:57

LinuxWebLogic安裝調試

2019-04-25 13:30:14

Linux文件分身

2010-08-06 12:47:18

Linux NFS

2019-02-12 10:31:15

Linux網(wǎng)絡服務器

2019-06-10 08:15:52

Linux命令

2017-10-27 16:19:23

語音識別CNN

2021-11-17 10:37:39

語音識別技術人工智能

2011-05-31 16:38:47

Android 實現(xiàn)語音

2016-02-17 10:39:18

語音識別語音合成語音交互

2019-06-24 09:30:00

開源技術 趨勢

2024-03-11 11:32:38

語音識別

2023-01-30 17:14:40

人工智能語音識別

2009-08-21 15:28:23

C#英文

2021-05-06 11:13:06

人工智能語音識別

2021-05-06 11:18:23

人工智能語音識別

2009-07-21 15:28:06

Windows Emb

2020-09-14 06:24:57

USB ID

2021-12-24 10:34:11

鴻蒙HarmonyOS應用

2022-12-01 07:03:22

語音識別人工智能技術

2010-03-09 10:11:34

Linux掛載命令
點贊
收藏

51CTO技術棧公眾號