AI智能語音識別算法 下篇
一、神經(jīng)網(wǎng)絡
當前常用的語音識別框架如下圖
其背后的邏輯是
在特征提取時采用的神經(jīng)網(wǎng)絡里面的DNN技術(shù)
DNN技術(shù)可以分為兩種,一種是CNN模型,一種是RNN模型
二、解碼器
解碼器信息來源于聲學模型、詞典、語言模型??驁D如下:
2.1 聲學模型
常用的聲學模型為GMM-HMM,即混合高斯模型-隱馬爾科夫模型
HMM模型對時序信息進行建模,在給定HMM的一個狀態(tài)后,GMM對屬于該狀態(tài)的語音特征向量的概率分布進行建模。
2.2 詞典
字典:就是發(fā)音字典,中文中就是拼音與漢字的對應,英文中就是音標與單詞的對應
用途:
根據(jù)聲學模型識別出來的音素,在字典中來找到對應的漢字(詞)或者單詞,用來在聲學模型和語言模型建立橋梁,將兩者聯(lián)系起來。
比方如下詞語的映射表:
2.3 語言模型
語言模型是針對某種語言建立的概率模型,是用來計算一個句子的概率的概率模型。
劃分以下兩種:
2.3.1 N元統(tǒng)計語言模型:N-gram模型、平滑化
2.3.2 神經(jīng)網(wǎng)絡語言模型:
與統(tǒng)計語言模型不同的是,神經(jīng)網(wǎng)絡語言模型不通過計數(shù)的方法對nn元條件概率進行估計,而是直接通過一個神經(jīng)網(wǎng)絡對其建模求解。
用途:
1、決定哪一個詞序列的可能性更大
2、已知若干個詞,預測下一個詞
例子:
1、I went to a party.
Eye went two a bar tea.
2、你現(xiàn)在在干什么?