自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="zkvmf"><li id="zkvmf"></li></p>

<style id="zkvmf"><kbd id="zkvmf"></kbd></style>

<acronym id="zkvmf"><rt id="zkvmf"></rt></acronym>

^{<blockquote id="zkvmf"><i id="zkvmf"></i></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Facebook 開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++

作者：黃善清 2018-12-27 10:52:10

近日，F(xiàn)acebook 人工智能研究院 ( FAIR ) 宣布開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++。

近日，F(xiàn)acebook 人工智能研究院 ( FAIR ) 宣布開源首個(gè)全卷積語音識(shí)別工具包 wav2letter++。系統(tǒng)基于全卷積方法進(jìn)行語音識(shí)別，訓(xùn)練語音識(shí)別端到端神經(jīng)網(wǎng)絡(luò)的速度是其他框架的 2 倍多。他們?cè)诓┛椭袑?duì)此次開源進(jìn)行了詳細(xì)介紹。

由于端到端語音識(shí)別技術(shù)能夠輕易擴(kuò)展至多種語言，同時(shí)能在多變的環(huán)境下保證識(shí)別質(zhì)量，因此被普遍認(rèn)為是一種高效且穩(wěn)定的語音識(shí)別技術(shù)。雖說遞歸卷積神經(jīng)網(wǎng)絡(luò)在處理具有遠(yuǎn)程依賴性的建模任務(wù)上很占優(yōu)勢(shì)，如語言建模、機(jī)器翻譯和語音合成等，然而在端到端語音識(shí)別任務(wù)上，循環(huán)架構(gòu)才是業(yè)內(nèi)的主流。

有鑒于此，F(xiàn)acebook 人工智能研究院 (FAIR) 的語音小組上周推出首個(gè)全卷積語音識(shí)別系統(tǒng)，該系統(tǒng)完全由卷積層組成，取消了特征提取步驟，僅憑端到端訓(xùn)練對(duì)音頻波形中的轉(zhuǎn)錄文字進(jìn)行預(yù)測(cè)，再通過外部卷積語言模型對(duì)文字進(jìn)行解碼。隨后 Facebook 宣布開源 wav2letter ++——這種高性能框架的出現(xiàn)，讓端到端語音識(shí)別技術(shù)得以實(shí)現(xiàn)快速迭代，為技術(shù)將來的優(yōu)化工作和模型調(diào)優(yōu)打下夯實(shí)的基礎(chǔ)。

與 wav2letter++ 一同宣布開源的，還有機(jī)器學(xué)習(xí)庫(kù) Flashlight。Flashlight 是建立在 C++基礎(chǔ)之上的機(jī)器學(xué)習(xí)庫(kù)，使用了 ArrayFire 張量庫(kù)，并以 C++進(jìn)行實(shí)時(shí)編譯，目標(biāo)是最大化 CPU 與 GPU 后端的效率和規(guī)模，而 wave2letter ++工具包建立在 Flashlight 基礎(chǔ)上，同樣使用 C++進(jìn)行編寫，以 ArrayFire 作為張量庫(kù)。

這里著重介紹一下 ArrayFire，它可以在 CUDA GPU 和 CPU 支持的多種后端上被執(zhí)行，支持多種音頻文件格式（如 wav、flac 等），此外還支持多種功能類型，其中包括原始音頻、線性縮放功率譜、log 梅爾譜 (MFSC) 和 MFCCs 等。

Github 開源地址：

https://github.com/facebookresearch/wav2letter/

在 Facebook 對(duì)外發(fā)布論文中，wav2letter++被拿來與其他主流開源語音識(shí)別系統(tǒng)進(jìn)行對(duì)比，發(fā)現(xiàn) wav2letter++訓(xùn)練語音識(shí)別端到端神經(jīng)網(wǎng)絡(luò)速度是其他框架的 2 倍還多。其使用了 1 億個(gè)參數(shù)的模型測(cè)試，使用從 1~64 個(gè) GPU，且訓(xùn)練時(shí)間是線性變化的。

圖片來源：Facebook

上面為系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)圖，主要由 4 個(gè)部分組成：

可學(xué)習(xí)前端（Learnable front end）：這部分包含寬度為 2 的卷積（用于模擬預(yù)加重流程）和寬度為 25 ms 的復(fù)卷積。在計(jì)算完平方模數(shù)后，由低通濾波器和步長(zhǎng)執(zhí)行抽取任務(wù)。最后應(yīng)用于 log-compression 和 per-channel mean-variance normalization 上。

聲學(xué)模型：這是一款帶有門線性單元（GLU）的卷積神經(jīng)網(wǎng)絡(luò)，負(fù)責(zé)處理可學(xué)習(xí)前端的輸出內(nèi)容?；谧詣?dòng)分割準(zhǔn)則，該模型在字母預(yù)測(cè)任務(wù)上進(jìn)行訓(xùn)練。

語言模型：該卷積語言模型一共包含 14 個(gè)卷積殘差塊，并將門線性單元作為激活函數(shù)，主要用來對(duì)集束搜索解碼器中語言模型的預(yù)備轉(zhuǎn)錄內(nèi)容進(jìn)行評(píng)分。

集束搜索解碼器（Beam-search decoder）：根據(jù)聲學(xué)模型的輸出內(nèi)容生成詞序列。

文章轉(zhuǎn)載自：https://www.leiphone.com/news/201812/t4K6BSfiYXkruwZb.html 作者：黃善清

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

Facebook 開發(fā)開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="a2h45"><tfoot id="a2h45"></tfoot></sub>