AI智能語音識別算法下篇

作者：jasonele 2021-05-06 11:18:23

一、神經(jīng)網(wǎng)絡

當前常用的語音識別框架如下圖

其背后的邏輯是

在特征提取時采用的神經(jīng)網(wǎng)絡里面的DNN技術(shù)

DNN技術(shù)可以分為兩種，一種是CNN模型，一種是RNN模型

二、解碼器

解碼器信息來源于聲學模型、詞典、語言模型?？驁D如下：

2.1 聲學模型

常用的聲學模型為GMM-HMM，即混合高斯模型-隱馬爾科夫模型

HMM模型對時序信息進行建模，在給定HMM的一個狀態(tài)后，GMM對屬于該狀態(tài)的語音特征向量的概率分布進行建模。

2.2 詞典

字典：就是發(fā)音字典，中文中就是拼音與漢字的對應，英文中就是音標與單詞的對應

用途：

根據(jù)聲學模型識別出來的音素，在字典中來找到對應的漢字（詞）或者單詞，用來在聲學模型和語言模型建立橋梁，將兩者聯(lián)系起來。

比方如下詞語的映射表：

2.3 語言模型

語言模型是針對某種語言建立的概率模型，是用來計算一個句子的概率的概率模型。

劃分以下兩種：

2.3.1 N元統(tǒng)計語言模型：N-gram模型、平滑化

2.3.2 神經(jīng)網(wǎng)絡語言模型：

與統(tǒng)計語言模型不同的是，神經(jīng)網(wǎng)絡語言模型不通過計數(shù)的方法對nn元條件概率進行估計，而是直接通過一個神經(jīng)網(wǎng)絡對其建模求解。

用途：

1、決定哪一個詞序列的可能性更大

2、已知若干個詞，預測下一個詞

例子：

1、I went to a party.

Eye went two a bar tea.

2、你現(xiàn)在在干什么？

責任編輯：梁菲來源：互聯(lián)網(wǎng)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡