AI智能語音識(shí)別算法上篇

作者：jasonele 2021-05-06 11:13:06

一、聲源定位

1、電掃陣列

當(dāng)系統(tǒng)掃描到輸出信號(hào)功率最大時(shí)所對(duì)應(yīng)的波束方向就是認(rèn)為是聲源的DOA方向，從而可以聲源定位。電掃陣列的方式存在一定的局限，僅僅適用于單一聲源。若多聲源在陣列方向圖的同一主波束內(nèi)，則無法區(qū)分

2、超分辨譜估計(jì)

如MUSIC，ESPRIT算法等，對(duì)其協(xié)方差矩陣（相關(guān)矩陣）進(jìn)行特征分解，構(gòu)造空間譜，關(guān)于方向的頻譜，譜峰對(duì)應(yīng)的方向即為聲源方向。適合多個(gè)聲源的情況，且聲源的分辨率與陣列尺寸無關(guān)，突破了物理限制，因此成為超分辨譜方案。

3、TDOA

TDOA是先后估計(jì)聲源到達(dá)不同麥克風(fēng)的時(shí)延差，通過時(shí)延來計(jì)算距離差，再利用距離差和麥克風(fēng)陣列的空間幾何位置來確定聲源的位置。分為TDOA估計(jì)和TDOA定位兩步。

二、波束成形

1、CBF-傳統(tǒng)的波束形成

CBF是最簡(jiǎn)單的非自適應(yīng)波束形成，對(duì)各個(gè)麥克風(fēng)的輸出進(jìn)行加權(quán)求和得到波束，在CBF中，各個(gè)通道的權(quán)值是固定的，作用是抑制陣列方向圖的旁瓣電平，以濾除旁瓣區(qū)域的干擾和噪聲。

2、CBF + Adaptive Filter 增強(qiáng)型波束形成

CBF+Adaptive Filter結(jié)合Weiner濾波來改善語音增強(qiáng)的效果，帶噪語音經(jīng)過Weiner濾波得到基于LMS準(zhǔn)則的純凈語音信號(hào)。而濾波器系數(shù)可以不斷更新迭代，與傳統(tǒng)的CBF相比，可以更有效的去除非穩(wěn)態(tài)噪聲。

3、ABF-自適應(yīng)波束形成

ABF在CBF的基礎(chǔ)之上，對(duì)干擾和噪聲進(jìn)行空域自適應(yīng)濾波。ABF中，采用不同的濾波器得到不同的算法，即不同通道的幅度加權(quán)值是根據(jù)某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整和優(yōu)化。

三、語音增強(qiáng)

語音增強(qiáng)是指當(dāng)語音信號(hào)被各種各樣的噪聲(包括語音)干擾甚至淹沒后，從含噪聲的語音信號(hào)中提取出純凈語音的過程。

四、混響抑制

利用麥克風(fēng)陣列去混響的主要方法有以下幾種：

(1)基于盲語音增強(qiáng)的方法（Blind signal enhancement approach），即將混響信號(hào)作為普通的加性噪聲信號(hào)，在這個(gè)上面應(yīng)用語音增強(qiáng)算法。

(2)基于波束形成的方法（Beamforming based approach），通過將多麥克風(fēng)對(duì)收集的信號(hào)進(jìn)行加權(quán)相加，在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束，同時(shí)衰減來自其他方向的反射聲。

(3)基于逆濾波的方法（An inverse filtering approach），通過麥克風(fēng)陣列估計(jì)房間的房間沖擊響應(yīng)（Room Impulse Response, RIR），設(shè)計(jì)重構(gòu)濾波器來補(bǔ)償來消除混響。

五、噪聲抑制

語音識(shí)別不需要完全去除噪聲，相對(duì)來說通話系統(tǒng)中則必須完全去除噪聲。這里說的噪聲一般指環(huán)境噪聲，比如空調(diào)噪聲，這類噪聲通常不具有空間指向性，能量也不是特別大，不會(huì)掩蓋正常的語音，只是影響了語音的清晰度和可懂度。這種方法不適合強(qiáng)噪聲環(huán)境下的處理，但是足以應(yīng)付日常場(chǎng)景的語音交互。

六、回聲消除

回聲消除就是在Mic采集到聲音之后，將本地音箱播放出來的聲音從Mic采集的聲音數(shù)據(jù)中消除掉，使得Mic錄制的聲音只有本地用戶說話的聲音。

責(zé)任編輯：梁菲來源：互聯(lián)網(wǎng)

人工智能語音識(shí)別

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI智能語音識(shí)別算法 上篇

AI智能語音識(shí)別算法上篇