自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Facebook 開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++

新聞 開源
近日,F(xiàn)acebook 人工智能研究院 ( FAIR ) 宣布開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++。

 近日,F(xiàn)acebook 人工智能研究院 ( FAIR ) 宣布開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++。系統(tǒng)基于全卷積方法進(jìn)行語音識(shí)別,訓(xùn)練語音識(shí)別端到端神經(jīng)網(wǎng)絡(luò)的速度是其他框架的 2 倍多。他們?cè)诓┛椭袑?duì)此次開源進(jìn)行了詳細(xì)介紹。

[[253591]]

由于端到端語音識(shí)別技術(shù)能夠輕易擴(kuò)展至多種語言,同時(shí)能在多變的環(huán)境下保證識(shí)別質(zhì)量,因此被普遍認(rèn)為是一種高效且穩(wěn)定的語音識(shí)別技術(shù)。雖說遞歸卷積神經(jīng)網(wǎng)絡(luò)在處理具有遠(yuǎn)程依賴性的建模任務(wù)上很占優(yōu)勢(shì),如語言建模、機(jī)器翻譯和語音合成等,然而在端到端語音識(shí)別任務(wù)上,循環(huán)架構(gòu)才是業(yè)內(nèi)的主流。

有鑒于此,F(xiàn)acebook 人工智能研究院 (FAIR) 的語音小組上周推出首個(gè)全卷積語音識(shí)別系統(tǒng),該系統(tǒng)完全由卷積層組成,取消了特征提取步驟,僅憑端到端訓(xùn)練對(duì)音頻波形中的轉(zhuǎn)錄文字進(jìn)行預(yù)測(cè),再通過外部卷積語言模型對(duì)文字進(jìn)行解碼。隨后 Facebook 宣布開源 wav2letter ++——這種高性能框架的出現(xiàn),讓端到端語音識(shí)別技術(shù)得以實(shí)現(xiàn)快速迭代,為技術(shù)將來的優(yōu)化工作和模型調(diào)優(yōu)打下夯實(shí)的基礎(chǔ)。

與 wav2letter++ 一同宣布開源的,還有機(jī)器學(xué)習(xí)庫(kù) Flashlight。Flashlight 是建立在 C++基礎(chǔ)之上的機(jī)器學(xué)習(xí)庫(kù),使用了 ArrayFire 張量庫(kù),并以 C++進(jìn)行實(shí)時(shí)編譯,目標(biāo)是最大化 CPU 與 GPU 后端的效率和規(guī)模,而 wave2letter ++工具包建立在 Flashlight 基礎(chǔ)上,同樣使用 C++進(jìn)行編寫,以 ArrayFire 作為張量庫(kù)。

這里著重介紹一下 ArrayFire,它可以在 CUDA GPU 和 CPU 支持的多種后端上被執(zhí)行,支持多種音頻文件格式(如 wav、flac 等),此外還支持多種功能類型,其中包括原始音頻、線性縮放功率譜、log 梅爾譜 (MFSC) 和 MFCCs 等。

Github 開源地址:

https://github.com/facebookresearch/wav2letter/

在 Facebook 對(duì)外發(fā)布論文中,wav2letter++被拿來與其他主流開源語音識(shí)別系統(tǒng)進(jìn)行對(duì)比,發(fā)現(xiàn) wav2letter++訓(xùn)練語音識(shí)別端到端神經(jīng)網(wǎng)絡(luò)速度是其他框架的 2 倍還多。其使用了 1 億個(gè)參數(shù)的模型測(cè)試,使用從 1~64 個(gè) GPU,且訓(xùn)練時(shí)間是線性變化的。

圖片來源:Facebook

上面為系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)圖,主要由 4 個(gè)部分組成:

可學(xué)習(xí)前端(Learnable front end):這部分包含寬度為 2 的卷積(用于模擬預(yù)加重流程)和寬度為 25 ms 的復(fù)卷積。在計(jì)算完平方模數(shù)后,由低通濾波器和步長(zhǎng)執(zhí)行抽取任務(wù)。最后應(yīng)用于 log-compression 和 per-channel mean-variance normalization 上。

聲學(xué)模型:這是一款帶有門線性單元(GLU)的卷積神經(jīng)網(wǎng)絡(luò),負(fù)責(zé)處理可學(xué)習(xí)前端的輸出內(nèi)容?;谧詣?dòng)分割準(zhǔn)則,該模型在字母預(yù)測(cè)任務(wù)上進(jìn)行訓(xùn)練。

語言模型:該卷積語言模型一共包含 14 個(gè)卷積殘差塊,并將門線性單元作為激活函數(shù),主要用來對(duì)集束搜索解碼器中語言模型的預(yù)備轉(zhuǎn)錄內(nèi)容進(jìn)行評(píng)分。

集束搜索解碼器(Beam-search decoder):根據(jù)聲學(xué)模型的輸出內(nèi)容生成詞序列。

文章轉(zhuǎn)載自:https://www.leiphone.com/news/201812/t4K6BSfiYXkruwZb.html 作者:黃善清

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2016-01-27 13:34:07

開源語音識(shí)別CNTK

2017-06-26 15:15:24

開源語音識(shí)別工具包

2021-03-16 14:44:30

工具代碼開發(fā)

2021-01-25 21:01:42

開源技術(shù) 工具

2020-12-21 15:11:33

機(jī)器學(xué)習(xí)工具開源

2016-02-16 13:21:33

2019-05-13 09:22:21

微軟開源機(jī)器學(xué)習(xí)

2009-04-02 17:37:38

dom4jXMLJava

2017-09-06 10:51:22

Facebook

2018-05-03 09:03:16

微軟工具包Windows

2024-06-18 12:26:50

2022-04-09 10:02:59

HTTPLInux開源

2009-04-13 11:27:53

IBMdW

2009-06-18 15:42:15

J2EE架構(gòu)

2024-01-08 19:30:15

AI開源語音識(shí)別

2014-02-26 09:44:59

Facebook開源工具Fbthrift

2016-10-13 09:20:21

FacebookWindows 10osquery

2015-11-11 14:01:26

微軟開源分布式

2022-06-19 14:09:04

開源AdobeCAI

2009-09-16 08:34:17

Windows Emb
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)