自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

純PyTorch語音工具包開源，Kaldi：我壓力有點(diǎn)大

作者：蛋醬 2021-03-16 14:44:30

新聞開發(fā)工具

距離 Mirco Ravanelli 宣布打造新的語音工具包過去了一年多，SpeechBrain 真的如期而至。

距離 Mirco Ravanelli 宣布打造新的語音工具包過去了一年多，SpeechBrain 真的如期而至。

純PyTorch語音工具包開源，Kaldi：我壓力有點(diǎn)大

語音處理技術(shù)的進(jìn)步，是人工智能改變大眾的生活的重要一環(huán)。深度學(xué)習(xí)技術(shù)的興起，也讓這一領(lǐng)域近年來得到了長足的發(fā)展。在過往，該領(lǐng)域的主要方法是為不同的任務(wù)開發(fā)不同的工具包，對于使用者來說，學(xué)習(xí)各個工具包需要大量時間，還可能涉及到學(xué)習(xí)不同的編程語言，熟悉不同的代碼風(fēng)格和標(biāo)準(zhǔn)等?，F(xiàn)在，這些任務(wù)大多可以用深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)。

此前，開發(fā)者常用的語音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等，它們各有各的不足之處。以 Kaldi 為例，它依賴大量的腳本語言，而且核心算法使用 C++ 編寫，再加上可能需要改變各種神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。即便是擁有豐富經(jīng)驗(yàn)的工程師，在調(diào)試的時候也會經(jīng)歷巨大的痛苦。

秉承著讓語音開發(fā)者更輕松的原則，Yoshua Bengio 團(tuán)隊(duì)成員 Mirco Ravanelli 等人曾經(jīng)開發(fā)了一個試圖繼承 Kaldi 的效率和 PyTorch 的靈活性的開源框架——PyTorch-Kaldi，但據(jù)開發(fā)成員本人認(rèn)為「還不夠完善」。

所以，在一年多前， Mirco Ravanelli 宣布要打造一款新的一體化語音工具包 SpeechBrain。該項(xiàng)目于近日正式開源，鑒于上述背景，SpeechBrain 誕生的主要宗旨是：夠簡單、夠靈活、對用戶友好。

純PyTorch語音工具包開源，Kaldi：我壓力有點(diǎn)大

項(xiàng)目地址：https://github.com/speechbrain/speechbrain

作為一個基于 PyTorch 的開源一體化語音工具包，SpeechBrain 可用于開發(fā)最新的語音技術(shù)，包括語音識別、說話者識別、語音增強(qiáng)、多麥克風(fēng)信號處理和語音識別系統(tǒng)等，且擁有相當(dāng)出色的性能。團(tuán)隊(duì)將其特征概況為「易于使用」、「易于定制」、「靈活」、「模塊化」等。

對于機(jī)器學(xué)習(xí)研究者來說，SpeechBrain 可輕松嵌入其他模型，促進(jìn)語音技術(shù)的相關(guān)研究；對于初學(xué)者來說，SpeechBrain 也不難掌握，根據(jù)測試，一般開發(fā)者僅需要幾個小時就能熟悉該工具包的使用。此外，開發(fā)團(tuán)隊(duì)也發(fā)布了很多教程以供參考（https://speechbrain.github.io/tutorial_basics.html）。

總體來說，SpeechBrain 有以下幾大亮點(diǎn)：

開發(fā)團(tuán)隊(duì)與 HuggingFace 集成一些預(yù)訓(xùn)練模型，這些模型具備可運(yùn)行推理的接口。如果 HuggingFace 模型不可用，團(tuán)隊(duì)會提供一個 Google Drive 文件夾，包含所有對應(yīng)的實(shí)驗(yàn)結(jié)果；
使用 PyTorch 數(shù)據(jù)并行或分布式數(shù)據(jù)并行來進(jìn)行多 GPU 訓(xùn)練和推理；
混合精度，加快訓(xùn)練速度；
透明且完全可自定義的數(shù)據(jù)輸入和輸出 pipeline。SpeechBrain 遵循 PyTorch 數(shù)據(jù)加載器和數(shù)據(jù)集樣式，使用戶能夠自定義 I / O pipeline。

快速安裝

目前開發(fā)者可以通過 PyPI 安裝 SpeechBrain，此外還可以使用本地安裝來運(yùn)行實(shí)驗(yàn)和修改 / 自定義工具包。

SpeechBrain 支持基于 Linux 的發(fā)行版和 macOS（且針對 Windows 用戶也提供了相應(yīng)解決方案：https://github.com/speechbrain/speechbrain/issues/512）。
SpeechBrain 支持 CPU 和 GPU，但對于大多數(shù) recipe 而言，訓(xùn)練期間必須使用 GPU。需要注意的是，必須正確安裝 CUDA 才能使用 GPU。

安裝教程地址：https://speechbrain.readthedocs.io/en/latest/installation.html

通過 PyPI 安裝

創(chuàng)建 Python 環(huán)境后，只需輸入以下內(nèi)容即可：

pip install speechbrain

然后可以使用以下命令訪問 SpeechBrain：

import  speech  brain  as  sb

本地安裝

創(chuàng)建 Python 環(huán)境后，只需輸入以下內(nèi)容即可：

git clone https://github.com/speechbrain/speechbrain.gitcd speechbrainpip install -r requirements.txtpip install --editable .

然后可以通過以下方式訪問 SpeechBrain：

import  speechbrain  as  sb

對 speechbrain 軟件包所做的任何修改，將在安裝帶有 --editable 標(biāo)志的軟件包時自動解釋。

SpeechBrain 未附屬于任何機(jī)構(gòu)，團(tuán)隊(duì)成員來自 Mila 研究所、Nuance、杜比實(shí)驗(yàn)室、英偉達(dá)、三星、Viadialog 等實(shí)驗(yàn)室和企業(yè)單位。最初的兩位負(fù)責(zé)人是 Mila 研究所博士后 Mirco Ravanelli 和 Avignon 博士生 Titouan Parcollet。目前，Speechbrain 項(xiàng)目還在完善中，也歡迎更多開發(fā)人員加入。

看到這里，Kaldi 會不會感到壓力有點(diǎn)大了呢？

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

工具代碼開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="y1jdk"></blockquote>}

<p id="y1jdk"></p>