自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="t9ep7"></ruby>

<sub id="t9ep7"><i id="t9ep7"></i></sub><style id="t9ep7"></style>

^{<sub id="t9ep7"><i id="t9ep7"></i></sub>}

<sub id="t9ep7"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

時域音頻分離模型登GitHub熱榜，效果超傳統(tǒng)頻域方法

作者：曉查 2019-12-04 15:00:04

用AI對歌曲音軌的分離研究很多，不過大多數(shù)都是在頻域上進行的。這類方法先把聲音進行傅立葉變換，再從頻譜空間中把人聲、樂曲聲分別抽離出來。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

用AI對歌曲音軌的分離研究很多，不過大多數(shù)都是在頻域上進行的。這類方法先把聲音進行傅立葉變換，再從頻譜空間中把人聲、樂曲聲分別抽離出來。

時域音頻分離模型登GitHub熱榜，效果超傳統(tǒng)頻域方法

比如，上個月在GitHub上大熱的Spleeter，就是這樣。

但是由于要計算頻譜，這類工具存在著延遲較長的缺點。雖然之前也有一些對聲音波形進行處理的方法，但實際效果與頻域處理方法相差甚遠。

最近，F(xiàn)acebook AI研究院提供了兩種波形域方法的PyTorch實現(xiàn)，分別是Demucs和Conv-Tasnet，而且測試結(jié)果均優(yōu)于其他常見的頻域方法，目前登上了GitHub日榜

效果對比

話不多說，我們先來聽聽這段30s音頻的分離實測效果。

vocals.mp3

00:30.069

來自量子位

這兩種方法在MusDB上的訓練結(jié)果已經(jīng)接近了頻域方法的最優(yōu)結(jié)果，加入150首額外的訓練數(shù)據(jù)后，總體信號失真比（overall SDR）達到了6.3，超過了其他所有方法。

時域音頻分離模型登GitHub熱榜，效果超傳統(tǒng)頻域方法

安裝與使用方法

先將代碼下載到本地，根據(jù)自己用CPU還是GPU來選擇不同的安裝環(huán)境：

conda env update -f environment-cpu.yml # if you don’t have GPUs 
conda env update -f environment-cuda.yml # if you have GPUs 
conda activate demucs

在代碼庫的根目錄下運行以下代碼（Windows用戶需將python3換為python.exe）：

python3 -m demucs.separate --dl -n demucs PATH_TO_AUDIO_FILE_1 [PATH_TO_AUDIO_FILE_2 ...] # for Demucs 
python3 -m demucs.separate --dl -n tasnet PATH_TO_AUDIO_FILE_1 ... # for Conv-Tasnet 
# Demucs with randomized equivariant stabilization (10x slower, suitable for GPU, 0.2 extra SDR) 
python3 -m demucs.separate --dl -n demucs --shifts=10 PATH_TO_AUDIO_FILE_1

其中—dl將自動下載預(yù)訓練模型，-n后的參數(shù)代表選用的預(yù)訓練模型類型：

demucs：表示在MusDB上進行訓練的Demucs；
demucs_extra：使用額外數(shù)據(jù)訓練的Demucs；
tasnet：表示在MusDB上進行訓練的Conv-Tasnet；
tasnet_extra：使用額外數(shù)據(jù)訓練的Conv-Tasnet。

在—shifts=SHIFTS執(zhí)行多個預(yù)測與輸入和平均他們的隨機位移（又名隨機等變穩(wěn)定）。這使預(yù)測SHIFTS時間變慢，但將Demucs的精度提高了SDR的0.2點。它對Conv-Tasnet的影響有限，因為該模型本質(zhì)上幾乎是等時的。原始紙張使用10的值，盡管5產(chǎn)生的增益幾乎相同。默認情況下禁用它。

原理簡介

Demucs是Facebook人工智能研究院在今年9月提出的弱監(jiān)督訓練模型，基于受Wave-U-Net和SING啟發(fā)的U-Net卷積架構(gòu)。

研究人員引入了一個簡單的卷積和遞歸模型，使其比Wave-U-Net的比信號失真比提高了1.6個點。

時域音頻分離模型登GitHub熱榜，效果超傳統(tǒng)頻域方法

上圖是Demucs的完整框架結(jié)構(gòu)，右側(cè)是編碼器和解碼器層的詳細表示。

與之前的Wave-U-Net相比，Demucs的創(chuàng)新之處在于編碼器和解碼器中的GLU激活函數(shù)，以及其中的雙向LSTM和倍增的通道數(shù)量。

Conv-TasNet是哥大的一名中國博士生Yi Luo提出的一種端到端時域語音分離的深度學習框架。

Conv-TasNet使用線性編碼器來生成語音波形的表示形式，該波形針對分離單個音軌進行了優(yōu)化。音軌的分離則是通過將一組加權(quán)函數(shù)（mask）用于編碼器輸出來實現(xiàn)。

時域音頻分離模型登GitHub熱榜，效果超傳統(tǒng)頻域方法

然后使用線性解碼器將修改后的編碼器表示形式反轉(zhuǎn)回波形。由卷積的一維擴張卷積塊組成的時間卷積網(wǎng)絡(luò)（TCN）查找mask，使網(wǎng)絡(luò)可以對語音信號的長期依賴性進行建模，同時保持較小的模型尺寸。

Conv-TasNet具有顯著較小的模型尺寸和較短的延遲，是脫機和實時語音分離應(yīng)用程序的合適解決方案。

傳送門

項目地址：
https://github.com/facebookresearch/demucs

測試結(jié)果論文：
https://hal.archives-ouvertes.fr/hal-02379796/document

責任編輯：張燕妮來源：量子位

GitHub 技術(shù)開源

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<sub id="cbjjc"></sub>}

<center id="cbjjc"></center>

<blockquote id="cbjjc"></blockquote>