自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

時域音頻分離模型登GitHub熱榜,效果超傳統(tǒng)頻域方法

新聞 前端
用AI對歌曲音軌的分離研究很多,不過大多數(shù)都是在頻域上進行的。這類方法先把聲音進行傅立葉變換,再從頻譜空間中把人聲、樂曲聲分別抽離出來。

 本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

用AI對歌曲音軌的分離研究很多,不過大多數(shù)都是在頻域上進行的。這類方法先把聲音進行傅立葉變換,再從頻譜空間中把人聲、樂曲聲分別抽離出來。

時域音頻分離模型登GitHub熱榜,效果超傳統(tǒng)頻域方法

比如,上個月在GitHub上大熱的Spleeter,就是這樣。

[[284644]]

但是由于要計算頻譜,這類工具存在著延遲較長的缺點。雖然之前也有一些對聲音波形進行處理的方法,但實際效果與頻域處理方法相差甚遠。

最近,F(xiàn)acebook AI研究院提供了兩種波形域方法的PyTorch實現(xiàn),分別是DemucsConv-Tasnet,而且測試結(jié)果均優(yōu)于其他常見的頻域方法,目前登上了GitHub日榜

效果對比

話不多說,我們先來聽聽這段30s音頻的分離實測效果。

vocals.mp3

00:30.069

來自量子位

這兩種方法在MusDB上的訓練結(jié)果已經(jīng)接近了頻域方法的最優(yōu)結(jié)果,加入150首額外的訓練數(shù)據(jù)后,總體信號失真比(overall SDR)達到了6.3,超過了其他所有方法。

時域音頻分離模型登GitHub熱榜,效果超傳統(tǒng)頻域方法

安裝與使用方法

先將代碼下載到本地,根據(jù)自己用CPU還是GPU來選擇不同的安裝環(huán)境:

  1. conda env update -f environment-cpu.yml # if you don’t have GPUs 
  2. conda env update -f environment-cuda.yml # if you have GPUs 
  3. conda activate demucs 

在代碼庫的根目錄下運行以下代碼(Windows用戶需將python3換為python.exe):

  1. python3 -m demucs.separate --dl -n demucs PATH_TO_AUDIO_FILE_1 [PATH_TO_AUDIO_FILE_2 ...] # for Demucs 
  2. python3 -m demucs.separate --dl -n tasnet PATH_TO_AUDIO_FILE_1 ... # for Conv-Tasnet 
  3. # Demucs with randomized equivariant stabilization (10x slower, suitable for GPU, 0.2 extra SDR) 
  4. python3 -m demucs.separate --dl -n demucs --shifts=10 PATH_TO_AUDIO_FILE_1 

其中—dl將自動下載預(yù)訓練模型,-n后的參數(shù)代表選用的預(yù)訓練模型類型:

demucs:表示在MusDB上進行訓練的Demucs;
demucs_extra:使用額外數(shù)據(jù)訓練的Demucs;
tasnet:表示在MusDB上進行訓練的Conv-Tasnet;
tasnet_extra:使用額外數(shù)據(jù)訓練的Conv-Tasnet。

在—shifts=SHIFTS執(zhí)行多個預(yù)測與輸入和平均他們的隨機位移(又名隨機等變穩(wěn)定)。這使預(yù)測SHIFTS時間變慢,但將Demucs的精度提高了SDR的0.2點。它對Conv-Tasnet的影響有限,因為該模型本質(zhì)上幾乎是等時的。原始紙張使用10的值,盡管5產(chǎn)生的增益幾乎相同。默認情況下禁用它。

原理簡介

Demucs是Facebook人工智能研究院在今年9月提出的弱監(jiān)督訓練模型,基于受Wave-U-Net和SING啟發(fā)的U-Net卷積架構(gòu)。

研究人員引入了一個簡單的卷積和遞歸模型,使其比Wave-U-Net的比信號失真比提高了1.6個點。

時域音頻分離模型登GitHub熱榜,效果超傳統(tǒng)頻域方法

上圖是Demucs的完整框架結(jié)構(gòu),右側(cè)是編碼器和解碼器層的詳細表示。

與之前的Wave-U-Net相比,Demucs的創(chuàng)新之處在于編碼器和解碼器中的GLU激活函數(shù),以及其中的雙向LSTM和倍增的通道數(shù)量。

Conv-TasNet是哥大的一名中國博士生Yi Luo提出的一種端到端時域語音分離的深度學習框架。

Conv-TasNet使用線性編碼器來生成語音波形的表示形式,該波形針對分離單個音軌進行了優(yōu)化。音軌的分離則是通過將一組加權(quán)函數(shù)(mask)用于編碼器輸出來實現(xiàn)。

時域音頻分離模型登GitHub熱榜,效果超傳統(tǒng)頻域方法

然后使用線性解碼器將修改后的編碼器表示形式反轉(zhuǎn)回波形。由卷積的一維擴張卷積塊組成的時間卷積網(wǎng)絡(luò)(TCN)查找mask,使網(wǎng)絡(luò)可以對語音信號的長期依賴性進行建模,同時保持較小的模型尺寸。

Conv-TasNet具有顯著較小的模型尺寸和較短的延遲,是脫機和實時語音分離應(yīng)用程序的合適解決方案。

傳送門

項目地址:
https://github.com/facebookresearch/demucs

測試結(jié)果論文:
https://hal.archives-ouvertes.fr/hal-02379796/document

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-10-20 12:45:00

AI數(shù)據(jù)

2023-02-22 15:02:52

GitHub指南

2024-01-04 14:46:10

AI開發(fā)者GPT

2019-12-26 15:31:17

騰訊框架開源

2023-10-10 07:19:07

Github開源庫系統(tǒng)

2025-02-17 07:00:00

蘋果模型

2024-11-20 14:10:00

搜索AI

2022-09-20 15:24:09

程序員項目

2024-02-21 12:19:00

AI模型

2024-09-04 15:09:58

AI模型

2020-01-03 16:00:28

谷歌GitHub機器學習

2023-04-19 08:14:24

2022-06-07 10:49:32

算法代碼迷宮

2024-02-01 13:02:00

AI模型

2021-12-14 15:54:01

AI 數(shù)據(jù)人工智能

2023-07-10 19:13:19

代數(shù)課程Strang

2019-08-08 16:37:31

開源技術(shù) 數(shù)據(jù)

2021-10-20 11:12:49

工具代碼開發(fā)

2024-04-15 12:28:00

AI模型

2020-04-16 15:10:56

COBOLGitHub編程語言
點贊
收藏

51CTO技術(shù)棧公眾號