基于深層前饋序列記憶神經(jīng)網(wǎng)絡(luò)的大詞匯量連續(xù)語音識(shí)別
原創(chuàng)【51CTO.com原創(chuàng)稿件】
摘要
本研究我們提出了一種改進(jìn)的前饋序列記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),稱之為深層前饋序列記憶神經(jīng)網(wǎng)絡(luò)(DFSMN)。進(jìn)一步的我們將深層前饋序列記憶神經(jīng)網(wǎng)絡(luò)和低幀率(LFR)技術(shù)相結(jié)合構(gòu)建了LFR-DFSMN語音識(shí)別聲學(xué)模型。該模型在大詞匯量的英文識(shí)別和中文識(shí)別任務(wù)上都可以取得相比于目前***的基于長(zhǎng)短時(shí)記憶單元的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BLSTM)的識(shí)別系統(tǒng)顯著的性能提升。而且LFR-DFSMN在訓(xùn)練速度,模型參數(shù)量,解碼速度,而且模型的延時(shí)上相比于BLSTM都具有明顯的優(yōu)勢(shì)。
研究背景
近年來, 深度神經(jīng)網(wǎng)絡(luò)成為了大詞匯量連續(xù)語音識(shí)別系統(tǒng)中的主流聲學(xué)模型。由于語音信號(hào)具有很強(qiáng)的長(zhǎng)時(shí)相關(guān)性,因而目前普遍流行的是使用具有長(zhǎng)時(shí)相關(guān)建模的能力的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),例如LSTM以及其變形結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)雖然具有很強(qiáng)的建模能力,但是其訓(xùn)練通常采用BPTT算法,存在訓(xùn)練速度緩慢和梯度消失問題。我們之前的工作,提出了一種新穎的非遞歸的網(wǎng)絡(luò)結(jié)構(gòu),稱之為前饋序列記憶神經(jīng)網(wǎng)絡(luò)(feedforward sequential memory networks, FSMN),可以有效的對(duì)信號(hào)中的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。相比于循環(huán)神經(jīng)網(wǎng)絡(luò),F(xiàn)SMN訓(xùn)練更加高效,而且可以獲得更好的性能。
本論文,我們?cè)谥癋SMN的相關(guān)工作的基礎(chǔ)上進(jìn)一步提出了一種改進(jìn)的FSMN結(jié)構(gòu),稱之為深層的前饋序列記憶神經(jīng)網(wǎng)絡(luò)(Deep-FSMN, DFSMN)。我們通過在FSMN相鄰的記憶模塊之間添加跳轉(zhuǎn)連接(skip connections),保證網(wǎng)絡(luò)高層梯度可以很好的傳遞給低層,從而使得訓(xùn)練很深的網(wǎng)絡(luò)不會(huì)面臨梯度消失的問題。進(jìn)一步的,考慮到將DFSMN應(yīng)用于實(shí)際的語音識(shí)別建模任務(wù)不僅需要考慮模型的性能,而且需要考慮到模型的計(jì)算量以及實(shí)時(shí)性。針對(duì)這個(gè)問題,我們提出將DFSMN和低幀率(lower frame rate,LFR)相結(jié)合用于加速模型的訓(xùn)練和測(cè)試。同時(shí)我們?cè)O(shè)計(jì)了DFSMN的結(jié)構(gòu),通過調(diào)整DFSMN的記憶模塊的階數(shù)實(shí)現(xiàn)時(shí)延的控制,使得基于LFR-DFSMN的聲學(xué)模型可以被應(yīng)用到實(shí)時(shí)的語音識(shí)別系統(tǒng)中。
我們?cè)诙鄠€(gè)大詞匯量連續(xù)語音識(shí)別任務(wù)包括英文和中文上驗(yàn)證了DFSMN的性能。在目前流行的2千小時(shí)英文FSH任務(wù)上,我們的DFSMN相比于目前主流的BLSTM可以獲得絕對(duì)1.5%而且模型參數(shù)量更少。在2萬小時(shí)的中文數(shù)據(jù)庫上,LFR-DFSMN相比于LFR-LCBLSTM可以獲得超過20%的相對(duì)性能提升。而且LFR-DFSMN可以靈活的控制時(shí)延,我們發(fā)現(xiàn)將時(shí)延控制到5幀語音依舊可以獲得相比于40幀時(shí)延的LFR-LCBLSTM更好的性能。
FSMN回顧
最早提出的FSMN的模型結(jié)構(gòu)如圖1(a)所示,其本質(zhì)上是一個(gè)前饋全連接神經(jīng)網(wǎng)絡(luò),通過在隱層旁添加一些記憶模塊(memory block)來對(duì)周邊的上下文信息進(jìn)行建模,從而使得模型可以對(duì)時(shí)序信號(hào)的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。FSMN的提出是受到數(shù)字信號(hào)處理中濾波器設(shè)計(jì)理論的啟發(fā):任何***響應(yīng)沖擊(Infinite Impulse Response, IIR)濾波器可以采用高階的有限沖擊響應(yīng)(Finite Impulse Response, FIR)濾波器進(jìn)行近似。從濾波器的角度出發(fā),如圖1(c)所示的RNN模型的循環(huán)層就可以看作如圖1(d)的一階IIR濾波器。而FSMN采用的采用如圖1(b)所示的記憶模塊可以看作是一個(gè)高階的FIR濾波器。從而FSMN也可以像RNN一樣有效的對(duì)信號(hào)的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模,同時(shí)由于FIR濾波器相比于IIR濾波器更加穩(wěn)定,因而FSMN相比于RNN訓(xùn)練上會(huì)更加簡(jiǎn)單和穩(wěn)定。
圖 1. FSMN模型結(jié)構(gòu)以及和RNN的對(duì)比
根據(jù)記憶模塊編碼系數(shù)的選擇,可以分為:1)標(biāo)量FSMN(sFSMN);2)矢量FSMN(vFSMN)。sFSMN 和 vFSMN 顧名思義就是分別使用標(biāo)量和矢量作為記憶模塊的編碼系數(shù)。sFSMN和vFSMN記憶模塊的表達(dá)分別如下公式:
以上的FSMN只考慮了歷史信息對(duì)當(dāng)前時(shí)刻的影響,我們可以稱之為單向的FSMN。當(dāng)我們同時(shí)考慮歷史信息以及未來信息對(duì)當(dāng)前時(shí)刻的影響時(shí),我們可以將單向的FSMN進(jìn)行擴(kuò)展得到雙向的FSMN。雙向的sFSMN和vFSMN記憶模塊的編碼公式如下:
圖 2. cFSMN結(jié)構(gòu)框圖
FSMN相比于FNN,需要將記憶模塊的輸出作為下一個(gè)隱層的額外輸入,這樣就會(huì)引入額外的模型參數(shù)。隱層包含的節(jié)點(diǎn)越多,則引入的參數(shù)越多。我們通過結(jié)合矩陣低秩分解(Low-rank matrix factorization)的思路,提出了一種改進(jìn)的FSMN結(jié)構(gòu),稱之為簡(jiǎn)潔的FSMN(Compact FSMN,cFSMN)。如圖2是一個(gè)第l個(gè)隱層包含記憶模塊的cFSMN的結(jié)構(gòu)框圖。
對(duì)于cFSMN,通過在網(wǎng)絡(luò)的隱層后添加一個(gè)低維度的線性投影層,并且將記憶模塊添加在這些線性投影層上。進(jìn)一步的,cFSMN對(duì)記憶模塊的編碼公式進(jìn)行了一些改變,通過將當(dāng)前時(shí)刻的輸出顯式的添加到記憶模塊的表達(dá)中,從而只需要將記憶模塊的表達(dá)作為下一層的輸入。這樣可以有效的減少模型的參數(shù)量,加快網(wǎng)絡(luò)的訓(xùn)練。具體的,單向和雙向的cFSMN記憶模塊的公式表達(dá)分別如下:
DFSMN介紹
圖 3. Deep-FSMN (DFSMN)模型結(jié)構(gòu)框圖
如圖3是我們進(jìn)一步提出的Deep-FSMN(DFSMN)的網(wǎng)絡(luò)結(jié)構(gòu)框圖,其中左邊***個(gè)方框代表輸入層,右邊***一個(gè)方框代表輸出層。我們通過在cFSMN的記憶模塊(紅色框框表示)之間添加跳轉(zhuǎn)連接(skip connection),從而使得低層記憶模塊的輸出會(huì)被直接累加到高層記憶模塊里。這樣在訓(xùn)練過程中,高層記憶模塊的梯度會(huì)直接賦值給低層的記憶模塊,從而可以克服由于網(wǎng)絡(luò)的深度造成的梯度消失問題,使得可以穩(wěn)定的訓(xùn)練深層的網(wǎng)絡(luò)。我們對(duì)記憶模塊的表達(dá)也進(jìn)行了一些修改,通過借鑒擴(kuò)張(dilation)卷積[3]的思路,在記憶模塊中引入一些步幅(stride)因子,具體的計(jì)算公式如下:
LFR-DFSMN聲學(xué)模型
目前的聲學(xué)模型,輸入的是每幀語音信號(hào)提取的聲學(xué)特征,每幀語音的時(shí)長(zhǎng)通常為10ms,對(duì)于每個(gè)輸入的語音幀信號(hào)會(huì)有相對(duì)應(yīng)的一個(gè)輸出目標(biāo)。最近有研究提出一種低幀率(Low Frame Rate,LFR)建模方案:通過將相鄰時(shí)刻的語音幀進(jìn)行綁定作為輸入,去預(yù)測(cè)這些語音幀的目標(biāo)輸出得到的一個(gè)平均輸出目標(biāo)。具體實(shí)驗(yàn)中可以實(shí)現(xiàn)三幀(或更多幀)拼接而不損失模型的性能。從而可以將輸入和輸出減少到原來的三分之一甚至更多,可以極大的提升語音識(shí)別系統(tǒng)服務(wù)時(shí)聲學(xué)得分的計(jì)算以及解碼的效率。我們結(jié)合LFR和以上提出的DFSMN,構(gòu)建了如圖4的基于LFR-DFSMN的語音識(shí)別聲學(xué)模型,經(jīng)過多組實(shí)驗(yàn)我們最終確定了采用一個(gè)包含10層DFSMN層+2層DNN的DFSMN作為聲學(xué)模型,輸入輸出則采用LFR,將幀率降低到原來的三分之一。
圖 4. LFR-DFSMN聲學(xué)模型結(jié)構(gòu)框圖
實(shí)驗(yàn)結(jié)果
1) 英文識(shí)別
我們?cè)?千小時(shí)的英文FSH任務(wù)上驗(yàn)證所提出的DFSMN模型。我們首先驗(yàn)證了DFSMN的網(wǎng)絡(luò)深度對(duì)性能的影響,我們分別驗(yàn)證了DFSMN包含6,8,10,12個(gè)DFSMN層的情況。最終模型的識(shí)別性能如下表。通過增加網(wǎng)絡(luò)的深度我們可以獲得一個(gè)明顯的性能提升。
我們也和一些主流的聲學(xué)模型進(jìn)行了對(duì)比,結(jié)果如下表。從結(jié)果看DFSMN相比于目前***的BLSTM不僅參數(shù)量更少,而且性能上可以獲得1.5%的絕對(duì)性能提升。
2) 中文識(shí)別
關(guān)于中文識(shí)別任務(wù),我們首先在5000小時(shí)任務(wù)上進(jìn)行實(shí)驗(yàn)。我們分別驗(yàn)證了采用綁定的音素狀態(tài)(CD-State)和綁定的音素(CD-Phone)作為輸出層建模單元。關(guān)于聲學(xué)模型我們對(duì)比了時(shí)延可控的BLSTM(LCBLSTM),cFSMN以及DFSMN。對(duì)于LFR模型,我們采用CD-Phone作為建模單元。詳細(xì)的實(shí)驗(yàn)結(jié)果如下表:
對(duì)于基線LCBSLTM,采用LFR相比于傳統(tǒng)的單幀預(yù)測(cè)在性能上相近,優(yōu)點(diǎn)在效率可以提升3倍。而采用LFR的cFSMN,相比于傳統(tǒng)的單幀預(yù)測(cè)不僅在效率上可以獲得相應(yīng)提升,而且可以獲得更好的性能。這主要是LFR一定程度上破壞了輸入信號(hào)的時(shí)序性,而BLSTM的記憶機(jī)制對(duì)時(shí)序性更加的敏感。進(jìn)一步的我們探索了網(wǎng)絡(luò)深度對(duì)性能的影響,對(duì)于之前的cFSMN網(wǎng)絡(luò),當(dāng)把網(wǎng)絡(luò)深度加深到10層,會(huì)出現(xiàn)一定的性能下降。而對(duì)于我們***提出來的DFSMN,10層的網(wǎng)絡(luò)相比于8層依舊可以獲得性能提升。最終相比于基線的LFR-LCBLSTM模型,我們可以獲得超過20%的相對(duì)性能提升。
下表我們對(duì)比了LFR-DFSMN和LFR-LCBLSTM的訓(xùn)練時(shí)間,以及解碼的實(shí)時(shí)因子(RTF)。從結(jié)果上看我們可以將訓(xùn)練速度提升3倍,同時(shí)可以將實(shí)時(shí)因子降低到原來的接近三分之一。
對(duì)于語音識(shí)別系統(tǒng),另外一個(gè)需要考慮的因素是模型的延遲問題。原始的BLSTM需要等接收整句話后才能得到輸出用于解碼。LCBLSTM是目前的一種改進(jìn)結(jié)構(gòu),可以將解碼的時(shí)延進(jìn)行控制,目前采用的LFR-LCBLSTM的時(shí)延幀數(shù)是40幀。對(duì)于DFSMN,時(shí)延的幀數(shù)可以功過設(shè)計(jì)記憶模塊的濾波器階數(shù)進(jìn)行靈活控制。最終當(dāng)只有5幀延時(shí)時(shí),LFR-DFSMN相比于LFR-LCBLSTM依然可以獲得更好的性能。
Deep-FSMN for Large Vocabulary Continuous Speech Recognition
團(tuán)隊(duì):阿里巴巴語音交互智能團(tuán)隊(duì)
作者:張仕良/Shiliang Zhang,雷鳴/Ming Lei,鄢志杰/Zhijie Yan, 戴禮榮/LiRong Dai
會(huì)議:ICASSP-2018
原文鏈接:Deep-FSMN for Large Vocabulary Continuous Speech Recognition
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】