自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里開(kāi)源自研語(yǔ)音識(shí)別模型DFSMN,準(zhǔn)確率高達(dá)96.04%

新聞 語(yǔ)音識(shí)別
近日,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室開(kāi)源了新一代語(yǔ)音識(shí)別模型 DFSMN,將全球語(yǔ)音識(shí)別準(zhǔn)確率紀(jì)錄提高至 96.04%(這一數(shù)據(jù)測(cè)試基于世界最大的免費(fèi)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù) LibriSpeech)。

 [[232541]]

  近日,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室開(kāi)源了新一代語(yǔ)音識(shí)別模型 DFSMN,將全球語(yǔ)音識(shí)別準(zhǔn)確率紀(jì)錄提高至 96.04%(這一數(shù)據(jù)測(cè)試基于世界***的免費(fèi)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù) LibriSpeech)。

  對(duì)比目前業(yè)界使用最為廣泛的 LSTM 模型,DFSMN 模型訓(xùn)練速度更快、識(shí)別準(zhǔn)確率更高。采用全新 DFSMN 模型的智能音響或智能家居設(shè)備,相比前代技術(shù)深度學(xué)習(xí)訓(xùn)練速度提到了 3 倍,語(yǔ)音識(shí)別速度提高了 2 倍。

  開(kāi)源地址:https://github.com/tramphero/kaldi

  阿里開(kāi)源語(yǔ)音識(shí)別模型DFSMN

  在近期舉行的云棲大會(huì)武漢峰會(huì)上,裝有 DFSMN 語(yǔ)音識(shí)別模型的“AI 收銀員”在與真人店員的 PK 中,在嘈雜環(huán)境下準(zhǔn)確識(shí)別了用戶(hù)的語(yǔ)音點(diǎn)單,在短短 49 秒內(nèi)點(diǎn)了 34 杯咖啡。此外,裝備這一語(yǔ)音識(shí)別技術(shù)的自動(dòng)售票機(jī)也已在上海地鐵“上崗”。

  著名語(yǔ)音識(shí)別專(zhuān)家,西北工業(yè)大學(xué)教授謝磊表示:“阿里此次開(kāi)源的 DFSMN 模型,在語(yǔ)音識(shí)別準(zhǔn)確率上的穩(wěn)定提升是突破性的,是近年來(lái)深度學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域***代表性的成果之一,對(duì)全球?qū)W術(shù)界和 AI 技術(shù)應(yīng)用都有巨大影響。”

  圖:阿里在 GitHub 平臺(tái)上開(kāi)源了自主研發(fā)的 DFSMN 語(yǔ)音識(shí)別模型

  語(yǔ)音識(shí)別聲學(xué)模型

  語(yǔ)音識(shí)別技術(shù)一直都是人機(jī)交互技術(shù)的重要組成部分。有了語(yǔ)音識(shí)別技術(shù),機(jī)器就可以像人類(lèi)一樣聽(tīng)懂說(shuō)話(huà),進(jìn)而能夠思考、理解和反饋。

  近幾年隨著深度學(xué)習(xí)技術(shù)的使用,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)性能獲得了極大的提升,開(kāi)始走向?qū)嵱没??;谡Z(yǔ)音識(shí)別的語(yǔ)音輸入、語(yǔ)音轉(zhuǎn)寫(xiě)、語(yǔ)音檢索和語(yǔ)音翻譯等技術(shù)得到了廣泛的應(yīng)用。

  目前主流的語(yǔ)音識(shí)別系統(tǒng)普遍采用基于深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的聲學(xué)模型,其模型結(jié)構(gòu)如圖 1 所示。聲學(xué)模型的輸入是傳統(tǒng)的語(yǔ)音波形經(jīng)過(guò)加窗、分幀,然后提取出來(lái)的頻譜特征,如 PLP, MFCC 和 FBK 等。而模型的輸出一般采用不同粒度的聲學(xué)建模單元,例如單音素 (mono-phone)、單音素狀態(tài)、綁定的音素狀態(tài) (tri-phonestate) 等。從輸入到輸出之間可以采用不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將輸入的聲學(xué)特征映射得到不同輸出建模單元的后驗(yàn)概率,然后再結(jié)合 HMM 進(jìn)行解碼得到最終的識(shí)別結(jié)果。

  最早采用的網(wǎng)絡(luò)結(jié)構(gòu)是前饋全連接神經(jīng)網(wǎng)路(Feedforward Fully-connected Neural Networks, FNN)。FNN 實(shí)現(xiàn)固定輸入到固定輸出的一對(duì)一映射,其存在的缺陷是沒(méi)法有效利用語(yǔ)音信號(hào)內(nèi)在的長(zhǎng)時(shí)相關(guān)性信息。一種改進(jìn)的方案是采用基于長(zhǎng)短時(shí)記憶單元(Long-Short Term Memory,LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)。LSTM-RNN 通過(guò)隱層的循環(huán)反饋連接,可以將歷史信息存儲(chǔ)在隱層的節(jié)點(diǎn)中,從而可以有效地利用語(yǔ)音信號(hào)的長(zhǎng)時(shí)相關(guān)性。

圖 1. 基于 DNN-HMM 的語(yǔ)音識(shí)別系統(tǒng)框圖

  進(jìn)一步地通過(guò)使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BidirectionalRNN),可以有效地利用語(yǔ)音信號(hào)歷史以及未來(lái)的信息,更有利于語(yǔ)音的聲學(xué)建模?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音聲學(xué)模型相比于前饋全連接神經(jīng)網(wǎng)絡(luò)可以獲得顯著的性能提升。但是循環(huán)神經(jīng)網(wǎng)絡(luò)相比于前饋全連接神經(jīng)網(wǎng)絡(luò)模型更加復(fù)雜,往往包含更多的參數(shù),這會(huì)導(dǎo)致模型的訓(xùn)練以及測(cè)試都需要更多的計(jì)算資源。

  另外基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音聲學(xué)模型,會(huì)面臨很大的時(shí)延問(wèn)題,對(duì)于實(shí)時(shí)的語(yǔ)音識(shí)別任務(wù)不適用?,F(xiàn)有的一些改進(jìn)的模型,例如,基于時(shí)延可控的雙向長(zhǎng)短時(shí)記憶單元(Latency Controlled LSTM,LCBLSTM )[1-2],以及前饋序列記憶神經(jīng)網(wǎng)絡(luò)(Feedforward SequentialMemory Networks,F(xiàn)SMN)[3-5]。去年我們?cè)诠I(yè)界***個(gè)上線了基于 LCBLSTM 的語(yǔ)音識(shí)別聲學(xué)模型。配合阿里的大規(guī)模計(jì)算平臺(tái)和大數(shù)據(jù),采用多機(jī)多卡、16bit 量化等訓(xùn)練和優(yōu)化方法進(jìn)行聲學(xué)模型建模,取得了相比于 FNN 模型約 17-24% 的相對(duì)識(shí)別錯(cuò)誤率下降。

  FSMN 模型的前世今生

  1. FSMN 模型

  FSMN 是近期被提出的一種網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)在 FNN 的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效地對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。FSMN 相比于 LCBLSTM 不僅可以更加方便地控制時(shí)延,而且也能獲得更好的性能,需要的計(jì)算資源也更少。但是標(biāo)準(zhǔn)的 FSMN 很難訓(xùn)練非常深的結(jié)構(gòu),會(huì)由于梯度消失問(wèn)題導(dǎo)致訓(xùn)練效果不好。而深層結(jié)構(gòu)的模型目前在很多領(lǐng)域被證明具有更強(qiáng)的建模能力。因而針對(duì)此我們提出了一種改進(jìn)的 FSMN 模型,稱(chēng)之為深層的 FSMN(DeepFSMN, DFSMN)。進(jìn)一步地我們結(jié)合 LFR(lowframe rate)技術(shù)構(gòu)建了一種高效的實(shí)時(shí)語(yǔ)音識(shí)別聲學(xué)模型,相比于去年我們上線的 LCBLSTM 聲學(xué)模型可以獲得超過(guò) 20% 的相對(duì)性能提升,同時(shí)可以獲得2-3 倍的訓(xùn)練以及解碼的加速,可以顯著地減少我們的系統(tǒng)實(shí)際應(yīng)用時(shí)所需要的計(jì)算資源。

圖 2. FSMN 模型結(jié)構(gòu)以及和 RNN 的對(duì)比

  2. FSMN 到 cFSMN 的發(fā)展歷程

  最早提出的 FSMN 的模型[3]結(jié)構(gòu)如圖 2(a)所示,其本質(zhì)上是一個(gè)前饋全連接神經(jīng)網(wǎng)絡(luò),通過(guò)在隱層旁添加一些記憶模塊(memory block)來(lái)對(duì)周邊的上下文信息進(jìn)行建模,從而使得模型可以對(duì)時(shí)序信號(hào)的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。記憶模塊采用如圖 2(b)所示的抽頭延遲結(jié)構(gòu)將當(dāng)前時(shí)刻以及之前 N 個(gè)時(shí)刻的隱層輸出通過(guò)一組系數(shù)編碼得到一個(gè)固定的表達(dá)。FSMN 的提出是受到數(shù)字信號(hào)處理中濾波器設(shè)計(jì)理論的啟發(fā):任何***響應(yīng)沖擊(Infinite Impulse Response, IIR)濾波器可以采用高階的有限沖擊響應(yīng)(Finite Impulse Response, FIR)濾波器進(jìn)行近似。從濾波器的角度出發(fā),如圖 2(c)所示的 RNN 模型的循環(huán)層就可以看作如圖 2(d)的一階 IIR 濾波器。而 FSMN 采用的采用如圖 2(b)所示的記憶模塊可以看作是一個(gè)高階的 FIR 濾波器。從而 FSMN 也可以像 RNN 一樣有效地對(duì)信號(hào)的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模,同時(shí)由于 FIR 濾波器相比于 IIR 濾波器更加穩(wěn)定,因而 FSMN 相比于 RNN 訓(xùn)練上會(huì)更加簡(jiǎn)單和穩(wěn)定。

  根據(jù)記憶模塊編碼系數(shù)的選擇,可以分為:1)標(biāo)量 FSMN(sFSMN);2)矢量 FSMN(vFSMN)。sFSMN 和 vFSMN 顧名思義就是分別使用標(biāo)量和矢量作為記憶模塊的編碼系數(shù)。sFSMN 和 vFSMN 記憶模塊的表達(dá)分別如下公式:

  以上的 FSMN 只考慮了歷史信息對(duì)當(dāng)前時(shí)刻的影響,我們可以稱(chēng)之為單向的 FSMN。當(dāng)我們同時(shí)考慮歷史信息以及未來(lái)信息對(duì)當(dāng)前時(shí)刻的影響時(shí),我們可以將單向的 FSMN 進(jìn)行擴(kuò)展得到雙向的 FSMN。雙向的 sFSMN 和 vFSMN 記憶模塊的編碼公式如下:

  這里
分別代表回看(look-back)的階數(shù)和向前看(look-ahead)的階數(shù)。我們可以通過(guò)增大階數(shù),也可以通過(guò)在多個(gè)隱層添加記憶模塊來(lái)增強(qiáng) FSMN 對(duì)長(zhǎng)時(shí)相關(guān)性的建模能力。

圖 3. cFSMN 結(jié)構(gòu)框圖

  FSMN 相比于 FNN,需要將記憶模塊的輸出作為下一個(gè)隱層的額外輸入,這樣就會(huì)引入額外的模型參數(shù)。隱層包含的節(jié)點(diǎn)越多,則引入的參數(shù)越多。研究[4]結(jié)合矩陣低秩分解(Low-rank matrix factorization)的思路,提出了一種改進(jìn)的 FSMN 結(jié)構(gòu),稱(chēng)之為簡(jiǎn)潔的 FSMN(CompactFSMN,cFSMN),是一個(gè)第個(gè)隱層包含記憶模塊的 cFSMN 的結(jié)構(gòu)框圖。

  對(duì)于 cFSMN,通過(guò)在網(wǎng)絡(luò)的隱層后添加一個(gè)低維度的線性投影層,并且將記憶模塊添加在這些線性投影層上。進(jìn)一步的,cFSMN 對(duì)記憶模塊的編碼公式進(jìn)行了一些改變,通過(guò)將當(dāng)前時(shí)刻的輸出顯式地添加到記憶模塊的表達(dá)中,從而只需要將記憶模塊的表達(dá)作為下一層的輸入。這樣可以有效得減少模型的參數(shù)量,加快網(wǎng)絡(luò)的訓(xùn)練。具體單向和雙向的 cFSMN 記憶模塊的公式表達(dá)分別如下:

圖 4. Deep-FSMN (DFSMN)模型結(jié)構(gòu)框圖

  LFR-DFSMN 聲學(xué)模型

  1.  Deep-FSMN (DFSMN)網(wǎng)絡(luò)結(jié)構(gòu)  

  如圖 4 是我們進(jìn)一步提出的 Deep-FSMN(DFSMN)的網(wǎng)絡(luò)結(jié)構(gòu)框圖,其中左邊***個(gè)方框代表輸入層,右邊***一個(gè)方框代表輸出層。我們通過(guò)在 cFSMN 的記憶模塊(紅色框框表示)之間添加跳轉(zhuǎn)連接(skip connection),從而使得低層記憶模塊的輸出會(huì)被直接累加到高層記憶模塊里。這樣在訓(xùn)練過(guò)程中,高層記憶模塊的梯度會(huì)直接賦值給低層的記憶模塊,從而可以克服由于網(wǎng)絡(luò)的深度造成的梯度消失問(wèn)題,使得可以穩(wěn)定地訓(xùn)練深層的網(wǎng)絡(luò)。我們對(duì)記憶模塊的表達(dá)也進(jìn)行了一些修改,通過(guò)借鑒擴(kuò)張(dilation)卷積[6]的思路,在記憶模塊中引入一些步幅(stride)因子,具體的計(jì)算公式如下:

  其中表示第
層記憶模塊第t個(gè)時(shí)刻的輸出。S1 和 S2 分別表示歷史和未來(lái)時(shí)刻的編碼步幅因子,例如 S1=2 則表示對(duì)歷史信息進(jìn)行編碼時(shí)每隔一個(gè)時(shí)刻取一個(gè)值作為輸入。這樣在相同的階數(shù)的情況下可以看到更遠(yuǎn)的歷史,從而可以更加有效的對(duì)長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。

  對(duì)于實(shí)時(shí)的語(yǔ)音識(shí)別系統(tǒng)我們可以通過(guò)靈活的設(shè)置未來(lái)階數(shù)來(lái)控制模型的時(shí)延,在極端情況下,當(dāng)我們將每個(gè)記憶模塊的未來(lái)階數(shù)都設(shè)置為0,則我們可以實(shí)現(xiàn)無(wú)時(shí)延的一個(gè)聲學(xué)模型。對(duì)于一些任務(wù),我們可以忍受一定的時(shí)延,我們可以設(shè)置小一些的未來(lái)階數(shù)。

  相比于之前的 cFSMN,我們提出的 DFSMN 優(yōu)勢(shì)在于,通過(guò)跳轉(zhuǎn)連接可以訓(xùn)練很深的網(wǎng)絡(luò)。對(duì)于原來(lái)的 cFSMN,由于每個(gè)隱層已經(jīng)通過(guò)矩陣的低秩分解拆分成了兩層的結(jié)構(gòu),這樣對(duì)于一個(gè)包含 4 層 cFSMN 層以及兩個(gè) DNN 層的網(wǎng)絡(luò),總共包含的層數(shù)將達(dá)到 13 層,從而采用更多的 cFSMN 層,會(huì)使得層數(shù)更多而使得訓(xùn)練出現(xiàn)梯度消失問(wèn)題,導(dǎo)致訓(xùn)練的不穩(wěn)定性。我們提出的 DFSMN 通過(guò)跳轉(zhuǎn)連接避免了深層網(wǎng)絡(luò)的梯度消失問(wèn)題,使得訓(xùn)練深層的網(wǎng)絡(luò)變得穩(wěn)定。需要說(shuō)明的是,這里的跳轉(zhuǎn)連接不僅可以加到相鄰層之間,也可以加到不相鄰層之間。跳轉(zhuǎn)連接本身可以是線性變換,也可以是非線性變換。具體的實(shí)驗(yàn)我們可以實(shí)現(xiàn)訓(xùn)練包含數(shù)十層的 DFSMN 網(wǎng)絡(luò),并且相比于 cFSMN 可以獲得顯著的性能提升。

  從最初的 FSMN 到 cFSMN 不僅可以有效地減少模型的參數(shù),而且可以獲得更好的性能[4]。進(jìn)一步的在 cFSMN 的基礎(chǔ)上,我們提出的 DFSMN,可以更加顯著地提升模型的性能。如下表是在一個(gè) 2000 小時(shí)的英文任務(wù)上基于 BLSTM,cFSMN,DFSMN 的聲學(xué)模型性能對(duì)比。

  Model

  BLSTM

  cFSMN

  DFSMN

  WER%

  10. 9

  10. 8

  9. 4

  從上表中可以看到,在 2000 小時(shí)這樣的任務(wù)上,DFSMN 模型可以獲得比 BLSTM 聲學(xué)模型相對(duì) 14% 的錯(cuò)誤率降低,顯著提高了聲學(xué)模型的性能。

  2. 基于 LFR-DFSMN 的語(yǔ)音識(shí)別聲學(xué)模型

圖 5. LFR-DFSMN 聲學(xué)模型結(jié)構(gòu)框圖

  目前的聲學(xué)模型,輸入的是每幀語(yǔ)音信號(hào)提取的聲學(xué)特征,每幀語(yǔ)音的時(shí)長(zhǎng)通常為 10ms,對(duì)于每個(gè)輸入的語(yǔ)音幀信號(hào)會(huì)有相對(duì)應(yīng)的一個(gè)輸出目標(biāo)。最近有研究提出一種低幀率(LowFrame Rate,LFR)[7]建模方案:通過(guò)將相鄰時(shí)刻的語(yǔ)音幀進(jìn)行綁定作為輸入,去預(yù)測(cè)這些語(yǔ)音幀的目標(biāo)輸出得到的一個(gè)平均輸出目標(biāo)。具體實(shí)驗(yàn)中可以實(shí)現(xiàn)三幀(或更多幀)拼接而不損失模型的性能。從而可以將輸入和輸出減少到原來(lái)的三分之一甚至更多,可以極大地提升語(yǔ)音識(shí)別系統(tǒng)服務(wù)時(shí)聲學(xué)得分的計(jì)算以及解碼的效率。我們結(jié)合 LFR 和以上提出的 DFSMN,構(gòu)建了如圖 5 的基于 LFR-DFSMN 的語(yǔ)音識(shí)別聲學(xué)模型,經(jīng)過(guò)多組實(shí)驗(yàn)我們最終確定了采用一個(gè)包含 10 層 cFSMN 層 +2 層 DNN 的 DFSMN 作為聲學(xué)模型,輸入輸出則采用 LFR,將幀率降低到原來(lái)的三分之一。識(shí)別結(jié)果和去年我們上線的***的 LCBLSTM 基線比較如下表所示。

  CER%

  產(chǎn)品線A

  產(chǎn)品線B

  LFR-LCBLSTM

  18. 92

  10. 21

  LFR-DFSMN

  15. 00(+20.72%)

  8. 04(21.25%)

  通過(guò)結(jié)合 LFR 技術(shù),我們可以獲得三倍的識(shí)別加速。從上表中可以看到,在實(shí)際工業(yè)規(guī)模應(yīng)用上,LFR-DFSMN 模型比 LFR-LCBLSTM 模型可以獲得 20% 的錯(cuò)誤率下降,展示了對(duì)大規(guī)模數(shù)據(jù)更好的建模特性。

  基于多機(jī)多卡的大數(shù)據(jù)聲學(xué)模型訓(xùn)練

  實(shí)際的語(yǔ)音識(shí)別服務(wù)通常會(huì)面對(duì)非常復(fù)雜的語(yǔ)音數(shù)據(jù),語(yǔ)音識(shí)別聲學(xué)模型一定要盡可能地覆蓋各種可能的場(chǎng)景,包括各種對(duì)話(huà)、各種聲道、各種噪音甚至各種口音,這就意味著海量的數(shù)據(jù)。而如何應(yīng)用海量數(shù)據(jù)快速訓(xùn)練聲學(xué)模型并上線服務(wù),就直接關(guān)系到業(yè)務(wù)相應(yīng)速度。

  我們利用阿里的 Max-Compute 計(jì)算平臺(tái)和多機(jī)多卡并行訓(xùn)練工具,在使用 8 機(jī) 16GPU 卡、訓(xùn)練數(shù)據(jù)為 5000 小時(shí)的情況下,關(guān)于 LFR-DFSMN 聲學(xué)模型和 LFR-LCBLSTM 的訓(xùn)練速度如下表:

 

  處理一個(gè) epoch 需要的時(shí)間

  LFR-LCBLSTM

  10. 8 小時(shí)

  LFR-DFSMN

  3. 4 小時(shí)

  相比于基線 LCBLSTM 模型,每個(gè) epoch DFSMN 可以獲得 3 倍的訓(xùn)練速度提升。在 2 萬(wàn)小時(shí)的數(shù)據(jù)量上訓(xùn)練 LFR-DFSMN,模型收斂一般只需要3-4 個(gè) epoch,因此在 16GPU 卡的情況下,我們可以在 2 天左右完成 2 萬(wàn)小時(shí)數(shù)據(jù)量的 LFR-DFSMN 聲學(xué)模型的訓(xùn)練。

  解碼延時(shí)、識(shí)別速度和模型大小

  設(shè)計(jì)更為實(shí)用化的語(yǔ)音識(shí)別系統(tǒng),我們不僅需要盡可能地提升系統(tǒng)的識(shí)別性能,而且需要考慮系統(tǒng)的實(shí)時(shí)性,這樣才能給用戶(hù)提供更好的體驗(yàn)。此外在實(shí)際應(yīng)用中我們還需要考慮服務(wù)成本,因而對(duì)于語(yǔ)音識(shí)別系統(tǒng)的功耗也有一定的要求。傳統(tǒng)的 FNN 系統(tǒng),需要使用拼幀技術(shù),解碼延遲通常在5-10 幀,大約 50-100ms。而去年上線的 LCBLSTM 系統(tǒng),解決了 BLSTM 的整句延遲的問(wèn)題,最終可以將延時(shí)控制在 20 幀左右,大約 200ms。對(duì)于一些對(duì)延時(shí)有更高要求的線上任務(wù),還可以在少量損失識(shí)別性能的情況下(0.2%-0.3% 絕對(duì)值左右),將延遲控制在 100ms,完全可以滿(mǎn)足各類(lèi)任務(wù)的需求。LCBLSTM 相比于***的 FNN 可以獲得超過(guò) 20% 的相對(duì)性能提升,但是相同 CPU 上識(shí)別速度變慢(即功耗高),這主要是由模型的復(fù)雜度導(dǎo)致。

  我們***的 LFR-DFSMN,通過(guò) LFR 技術(shù)可以將識(shí)別速度加速 3 倍以上,進(jìn)一步的 DFSMN 相比于 LCBLSTM 在模型復(fù)雜度上可以再降低 3 倍左右。如下表是我們?cè)谝粋€(gè)測(cè)試集上統(tǒng)計(jì)的不同的模型需要的識(shí)別時(shí)間,時(shí)間越短則表示我們所需要的計(jì)算功耗越低:

  模型

  整個(gè)測(cè)試集識(shí)別所需要的時(shí)間

  LCBLSTM

  956 秒

  DFSMN

  377 秒

  LFR-LCBLSTM

  339 秒

  LFR-DFSMN

  142 秒

  關(guān)于 LFR-DFSMN 的解碼時(shí)延問(wèn)題,我們可以通過(guò)減小記憶模塊濾波器向未來(lái)看的階數(shù)來(lái)減小時(shí)延。具體實(shí)驗(yàn)中我們驗(yàn)證了不同的配置,當(dāng)我們將 LFR-DFSMN 的延時(shí)控制在5-10 幀時(shí),大致只損失相對(duì)3% 的性能。

  此外,相對(duì)于復(fù)雜的 LFR-LCBLSTM 模型,LFR-DFSMN 模型具有模型精簡(jiǎn)的特點(diǎn),雖然有 10 層 DFSMN,但整體模型大小只有 LFR-LCBLSTM 模型的一半,模型大小壓縮了 50%。

  參考文獻(xiàn):

  1.YuZhang, Guoguo Chen, Dong Yu, and Kaisheng Yao, ng Yao,  long short term memory RNNs for distantspeech recognition,, in IEEE International Conference of Acoustics,Speech andSignal Processing (ICASSP), 2016, pp. 5755-5759.

  2.XueS, Yan Z. Improving latency-controlled BLSTM acoustic models for online speech recognition[C]//Acoustics,Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on.IEEE. 2017.

  3.Zhang S, Liu C, Jiang H, et al. Feedforwardsequential memory networks: A new structure to learn long-term dependency[J].arXiv preprint arXiv:1512.08301, 2015.

  4.Zhang S, Jiang H, Xiong S, et al. CompactFeedforward Sequential Memory Networks for Large Vocabulary Continuous SpeechRecognition[C]//INTERSPEECH. 2016: 3389-3393.

  5.Zhang S, Liu C, Jiang H, et al. Non-recurrentNeural Structure for Long-Term Dependency[J]. IEEE/ACM Transactions on Audio,Speech, and Language Processing, 2017, 25(4): 871-884.

  6.Oord A, Dieleman S, Zen H, et al. Wavenet:A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016.

  7.Pundak G, Sainath T N. Lower Frame Rate NeuralNetwork Acoustic Models[C]//INTERSPEECH. 2016: 22-26.

責(zé)任編輯:張燕妮 來(lái)源: 阿里技術(shù)
相關(guān)推薦

2018-06-07 10:34:22

開(kāi)源DFSMN語(yǔ)音識(shí)別

2018-06-07 16:00:28

阿里巴巴語(yǔ)音識(shí)別開(kāi)源

2022-01-10 23:57:36

人工智能語(yǔ)音識(shí)別技術(shù)

2019-01-03 09:04:04

谷歌系統(tǒng)機(jī)器

2023-06-21 09:15:30

AI 技術(shù)神經(jīng)網(wǎng)絡(luò)

2023-05-04 09:39:16

AI模型

2017-07-20 17:25:42

互聯(lián)網(wǎng)

2023-11-08 08:38:43

2020-10-09 08:31:00

AI

2021-01-15 14:40:47

人臉識(shí)別數(shù)據(jù)技術(shù)

2023-10-19 08:30:56

模型搜索

2020-10-29 15:58:43

阿里AI雙11

2023-08-15 14:55:57

2023-08-08 13:54:15

2021-08-10 16:01:18

模型人工智能深度學(xué)習(xí)

2022-05-09 09:30:06

框架開(kāi)源模型

2017-09-26 14:07:16

2020-10-18 12:27:35

人工智能人臉識(shí)別技術(shù)

2020-09-14 14:10:04

開(kāi)發(fā)技能代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)