自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人工智能:語音識別技術(shù)

人工智能
根據(jù)懸戀語音庫的特征參數(shù)訓(xùn)練出聲學(xué)模型參數(shù),從而可以在識別時與聲學(xué)模型進行匹配得到相應(yīng)結(jié)果。目前主流語音識別系統(tǒng)一般都會采用HMM進行聲學(xué)模型建模。

今天給大家介紹一下關(guān)于語音識別相關(guān)的知識,希望對大家有所幫助!

1、什么是語音

語音指的是人類通過發(fā)聲器官發(fā)出來具有一定意義、用來溝通交流的聲音。

計算機中語音存儲:以波形文件的方式存儲,通過波形反映語音的變化,從而可以獲取音強、音長等參數(shù)信息。

音域參數(shù):傅利葉譜、梅爾頻率到譜系數(shù),主要用來提取語音內(nèi)容以及音色的差別,用來更進一步辨別語音信息。

2、什么是語音識別

語音識別簡單來說就是把語音內(nèi)容自動轉(zhuǎn)換為文字的過程,是人與機器交互的一種技術(shù)。

涉及領(lǐng)域:聲學(xué)、人工智能、數(shù)字信號處理、心理學(xué)等方面。

語音識別的輸入:對一段聲音文件進行播放的序列。

語音識別的輸出:輸出的結(jié)果是一段文本序列。

3、語音識別的原理

語音識別需要經(jīng)過特征提取、聲學(xué)模型、語音模型、語音解碼和搜索算法四個部分。

特征提?。喊岩治龅男盘枏淖钤夹盘柼崛〕鰜?,這個階段主要是對語音的幅度標準化、頻響校正、分幀、加窗、始末端點檢測等預(yù)處理操作,為聲學(xué)模型提供需要特征向量。

聲學(xué)模型:依靠聲學(xué)模型進行語音參數(shù)分析(語音共振峰頻率、幅度等)和對語音的線性預(yù)測參數(shù)進行分析。

語言模型:根據(jù)相關(guān)語言學(xué)理論,計算出聲音片段可能詞組序列的概率。

語音解碼和搜索算法:根據(jù)聲學(xué)模型+發(fā)音詞典+語音模型構(gòu)建的搜索空間,找到最合適的路徑。解碼完成后最終輸出文本。

4、語音識別系統(tǒng)的組成

一個完整的語音識別系統(tǒng)包括:預(yù)處理、特征提取、聲學(xué)模型訓(xùn)練、語言模型訓(xùn)練、語音解碼器。

4.1 預(yù)處理

對輸入的原始聲音信號進行處理,過濾掉其中的背景噪音、非重要信息,還要對找到語音信號的開始和結(jié)束、語音分幀、提升高頻部分的信號等操作。

4.2 特征提取

最常用的特征提取方法為梅爾頓到譜系數(shù)(MFCC),因為它擁有良好的抗噪性和健壯性。

4.3 聲學(xué)模型訓(xùn)練

根據(jù)懸戀語音庫的特征參數(shù)訓(xùn)練出聲學(xué)模型參數(shù),從而可以在識別時與聲學(xué)模型進行匹配得到相應(yīng)結(jié)果。目前主流語音識別系統(tǒng)一般都會采用HMM進行聲學(xué)模型建模。

4.4 語言模型訓(xùn)練

用來預(yù)測哪個詞序列正確的可能性更大。

4.5 語音解碼器

解碼器也就是語音識別技術(shù)中的識別過程,根據(jù)輸入的語音信號,然后和訓(xùn)練好的HMM聲學(xué)模型、語言模型、發(fā)音字典建立一個搜索空間,根據(jù)搜索算法找到最合適的路徑。從而找到最合適的詞串。

5、語音識別的使用場景

語音識別在日常生活中使用非常廣泛主要分為封閉式和開放式應(yīng)用。

封閉式應(yīng)用:主要指針對特定控制指令的應(yīng)用。

比如常見的有智能家居比如通過語音指令控制燈開關(guān)、熱水器開關(guān)溫度調(diào)節(jié)、打開空調(diào)等,大大豐富了我們?nèi)粘5纳睿?/p>

開放式應(yīng)用:開放式主要是廠商提供語音識別服務(wù),一般會公有云或者私有云的方式部署提供對應(yīng)的SDK,讓使用服務(wù)的客戶進行語音識別服務(wù)的調(diào)用。

常見的場景有輸入法、會議字幕實時輸出、視頻剪輯字幕配置等場景。

責(zé)任編輯:武曉燕 來源: IT技術(shù)分享社區(qū)
相關(guān)推薦

2022-12-05 07:17:14

人工智能語音合成

2022-12-15 07:35:04

人工智能語音應(yīng)用場景

2022-12-13 07:19:00

聲紋識別人工智能障礙

2022-12-05 09:42:21

語音人工智能程序

2017-03-19 16:21:10

人工智能語音識別

2017-08-25 19:11:02

2023-08-16 08:07:36

2017-03-20 16:42:00

語音識別數(shù)據(jù)庫人工智能

2019-05-07 13:43:47

面部識別人工智能AI

2021-03-02 14:19:30

人工智能根技術(shù)“十四五”

2017-03-20 11:00:48

語音識別搜索框人工智能

2018-04-12 14:09:53

圖像文字識別

2022-01-24 14:21:27

人工智能識別圖像繪畫

2017-05-22 17:42:07

大數(shù)據(jù)

2021-10-13 15:15:22

人工智能AI人臉識別

2020-12-24 15:56:01

人工智能人機對抗技術(shù)

2022-05-12 09:00:00

人工智能面部識別智能監(jiān)控

2021-01-11 14:18:56

人工智能技術(shù)

2019-03-04 21:46:59

人工智能面部識別AI

2019-09-05 19:33:59

5G人工智能區(qū)塊鏈
點贊
收藏

51CTO技術(shù)棧公眾號