Facebook 開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++
近日,F(xiàn)acebook 人工智能研究院 ( FAIR ) 宣布開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++。系統(tǒng)基于全卷積方法進(jìn)行語音識(shí)別,訓(xùn)練語音識(shí)別端到端神經(jīng)網(wǎng)絡(luò)的速度是其他框架的 2 倍多。他們?cè)诓┛椭袑?duì)此次開源進(jìn)行了詳細(xì)介紹。
由于端到端語音識(shí)別技術(shù)能夠輕易擴(kuò)展至多種語言,同時(shí)能在多變的環(huán)境下保證識(shí)別質(zhì)量,因此被普遍認(rèn)為是一種高效且穩(wěn)定的語音識(shí)別技術(shù)。雖說遞歸卷積神經(jīng)網(wǎng)絡(luò)在處理具有遠(yuǎn)程依賴性的建模任務(wù)上很占優(yōu)勢(shì),如語言建模、機(jī)器翻譯和語音合成等,然而在端到端語音識(shí)別任務(wù)上,循環(huán)架構(gòu)才是業(yè)內(nèi)的主流。
有鑒于此,F(xiàn)acebook 人工智能研究院 (FAIR) 的語音小組上周推出首個(gè)全卷積語音識(shí)別系統(tǒng),該系統(tǒng)完全由卷積層組成,取消了特征提取步驟,僅憑端到端訓(xùn)練對(duì)音頻波形中的轉(zhuǎn)錄文字進(jìn)行預(yù)測(cè),再通過外部卷積語言模型對(duì)文字進(jìn)行解碼。隨后 Facebook 宣布開源 wav2letter ++——這種高性能框架的出現(xiàn),讓端到端語音識(shí)別技術(shù)得以實(shí)現(xiàn)快速迭代,為技術(shù)將來的優(yōu)化工作和模型調(diào)優(yōu)打下夯實(shí)的基礎(chǔ)。
與 wav2letter++ 一同宣布開源的,還有機(jī)器學(xué)習(xí)庫(kù) Flashlight。Flashlight 是建立在 C++基礎(chǔ)之上的機(jī)器學(xué)習(xí)庫(kù),使用了 ArrayFire 張量庫(kù),并以 C++進(jìn)行實(shí)時(shí)編譯,目標(biāo)是最大化 CPU 與 GPU 后端的效率和規(guī)模,而 wave2letter ++工具包建立在 Flashlight 基礎(chǔ)上,同樣使用 C++進(jìn)行編寫,以 ArrayFire 作為張量庫(kù)。
這里著重介紹一下 ArrayFire,它可以在 CUDA GPU 和 CPU 支持的多種后端上被執(zhí)行,支持多種音頻文件格式(如 wav、flac 等),此外還支持多種功能類型,其中包括原始音頻、線性縮放功率譜、log 梅爾譜 (MFSC) 和 MFCCs 等。
Github 開源地址:
在 Facebook 對(duì)外發(fā)布論文中,wav2letter++被拿來與其他主流開源語音識(shí)別系統(tǒng)進(jìn)行對(duì)比,發(fā)現(xiàn) wav2letter++訓(xùn)練語音識(shí)別端到端神經(jīng)網(wǎng)絡(luò)速度是其他框架的 2 倍還多。其使用了 1 億個(gè)參數(shù)的模型測(cè)試,使用從 1~64 個(gè) GPU,且訓(xùn)練時(shí)間是線性變化的。
圖片來源:Facebook
上面為系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)圖,主要由 4 個(gè)部分組成:
可學(xué)習(xí)前端(Learnable front end):這部分包含寬度為 2 的卷積(用于模擬預(yù)加重流程)和寬度為 25 ms 的復(fù)卷積。在計(jì)算完平方模數(shù)后,由低通濾波器和步長(zhǎng)執(zhí)行抽取任務(wù)。最后應(yīng)用于 log-compression 和 per-channel mean-variance normalization 上。
聲學(xué)模型:這是一款帶有門線性單元(GLU)的卷積神經(jīng)網(wǎng)絡(luò),負(fù)責(zé)處理可學(xué)習(xí)前端的輸出內(nèi)容?;谧詣?dòng)分割準(zhǔn)則,該模型在字母預(yù)測(cè)任務(wù)上進(jìn)行訓(xùn)練。
語言模型:該卷積語言模型一共包含 14 個(gè)卷積殘差塊,并將門線性單元作為激活函數(shù),主要用來對(duì)集束搜索解碼器中語言模型的預(yù)備轉(zhuǎn)錄內(nèi)容進(jìn)行評(píng)分。
集束搜索解碼器(Beam-search decoder):根據(jù)聲學(xué)模型的輸出內(nèi)容生成詞序列。
文章轉(zhuǎn)載自:https://www.leiphone.com/news/201812/t4K6BSfiYXkruwZb.html 作者:黃善清