自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

一文概覽基于深度學習的監(jiān)督語音分離

作者：劉曉坤 2017-10-25 19:05:18

人工智能深度學習

語音分離是指將目標語音從背景干擾中分離出來的任務。傳統(tǒng)上，語音分離被當作一個信號處理問題。最近出現(xiàn)一種新方法把語音分離作為監(jiān)督學習問題處理，從訓練數(shù)據(jù)中學習語音、說話人和背景噪聲的判別模式(discriminative pattern)。

摘要：語音分離是指將目標語音從背景干擾中分離出來的任務。傳統(tǒng)上，語音分離被當作一個信號處理問題。最近出現(xiàn)一種新方法把語音分離作為監(jiān)督學習問題處理，從訓練數(shù)據(jù)中學習語音、說話人和背景噪聲的判別模式(discriminative pattern)。過去十年內已經(jīng)有很多監(jiān)督分離算法被提出，特別是最近提出的基于深度學習的監(jiān)督語音分離有很多進步之處，在分離任務中的表現(xiàn)有很大的提高。這篇論文對最近幾年基于深度學習的監(jiān)督語音分離的研究進行了概述。我們首先介紹語音分離的背景和監(jiān)督分離的形成。然后我們將討論監(jiān)督分離中的三個主要組成部分：學習機器、訓練目標和聲學特征。本文對監(jiān)督語音分離的概述主要著眼于分離算法，我們將回顧單聲道方法，包括語音增強(語音-非語音分離)、說話人分離(多人談話分離)、語音混響削減(speech dereverberation)，以及麥克風陣列技術(multi-microphone technique)。本文還討論了泛化這一重要問題。本文從歷史視角敘述監(jiān)督語音分離的技術發(fā)展過程。此外，我們還討論了很多概念上的東西，比如目標源的構成。

1. 引言

語音分離的目標是把目標語音從背景干擾中分離出來。在信號處理中，語音分離屬于很基本的任務類型，應用范圍很廣泛，包括聽力假體、移動通信、魯棒的自動語音以及說話人識別。人類聽覺系統(tǒng)能輕易地將一個人的聲音和另一個人的分離開來。即使在雞尾酒會那樣的聲音環(huán)境中，我們似乎也能毫不費力地在其他人的說話聲和環(huán)境噪聲的包圍中聽到一個人的說話內容。因此語音分離問題通常也被叫做「雞尾酒會問題」(cocktail party problem)，該術語由 Cherry 在他 1953 年那篇著名論文中提出 [22]。

人類最重要的交流方式就是語言，對我們來說，從背景干擾中分離出語音是至關重要的。感興趣的演講或者目標談話經(jīng)常被其它來源的多余噪聲和表面反射產生的混響所干擾。雖然人類能輕易地分離語音，但事實證明，在這項基本任務中，構建一個能夠媲美人類聽覺系統(tǒng)的自動化系統(tǒng)是很有挑戰(zhàn)性的。在 Cherry 1953 年出版的書 [23] 中，他觀察到：「目前為止沒有任何機器能解決『雞尾酒會問題』。」很不幸的是，雖然本文提到的近期研究進展已經(jīng)開始解決這個問題，但在我們這個領域中，他的結論一直保持了 60 多年的正確性。

語音分離非常重要，已經(jīng)在信號處理領域被研究了幾十年。根據(jù)傳感器或麥克風的數(shù)量，分離方法可分為單聲道方法(單個麥克風)和陣列方法(多個麥克風)。單聲道分離的兩個傳統(tǒng)方法是語音增強 [95] 和計算聽覺場景分析(CASA)[140]。語音增強方法分析語音和噪聲的全部數(shù)據(jù)，然后經(jīng)過帶噪語音的噪聲估計，進而對清晰語音進行估計 [32][95]。最簡單以及應用最廣泛的增強方法是頻譜相減法(spectral subtraction)[10]，其中估計噪聲的功率譜會從帶噪語音中刪去。為了估計背景噪聲，語音增強技術一般假定背景噪音是穩(wěn)定的，也就是說，其頻譜特性不會隨時間變化，或者至少比語音穩(wěn)定一些。CASA 建立在聽覺場景分析的感知理論基礎上 [12]，利用聚類約束(grouping cue)如基音頻率(pitch)和起音(onset)。例如，tandem 算法通過交換 pitch 估計和基于 pitch 的聚類進行語音分離 [65]。

由兩個或更多的麥克風組成的陣列使用不同的語音分離方法。波束成形，或者說空間濾波器，通過恰當?shù)年嚵薪Y構增強從特定的方向到達的信號，進而削減來自其它方向的干擾 [134][11][7][74]。最簡單的波束成形是一種延遲-疊加技術，能將來自目標方向的多個麥克風的信號以相同的相位相加，并根據(jù)相差削減來自其它方向的信號。噪聲的削減量取決于陣列的間隔、尺寸和結構，通常隨著麥克風數(shù)量和陣列長度的增加，削減量也會增加。顯然，當目標源和干擾源被共置，或者很靠近的時候，空間濾波器是無法應用的。此外，在回聲場景中，波束成形的效用大幅降低，對聲源方向的判定變得模糊不清。

一種最近提出的方法將語音分離當作一個監(jiān)督學習問題。監(jiān)督語音分離的最初形成受 CASA 中時頻掩膜(time-frequency (T-F) masking)概念的啟發(fā) [98][140][138]。CASA 的主要目標是理想二值掩膜(ideal binary mask，IBM)[63]，表示目標信號是否控制混合信號時頻表示中的一個 T-F 單元。聽力研究顯示，理想二值掩膜能夠顯著提高正常聽力者(NH)和聽力受損者(HI)在嘈雜環(huán)境中的語音理解能力 [13][1][91][141]。以 IBM 作為計算目標，則語音分離變成了二值分類問題，這正是監(jiān)督學習的一種基本形式。在這種情況下，IBM 被當做訓練中的目標信號或目標函數(shù)。在測試中，學習機器的目的就是估計 IBM，這也是監(jiān)督語音分離的***訓練目標(參見 Sect. III)。

由于語音分離已經(jīng)變成分類問題，因此數(shù)據(jù)驅動的方法在語音處理領域得到了廣泛研究。在過去的十年內，通過運用大型訓練數(shù)據(jù)和增加計算資源，監(jiān)督語音分離大幅提高了***進性能 [17]。監(jiān)督分離從深度學習的發(fā)展中受益良多，這也是本文的主題。監(jiān)督語音分離算法可以大體上分為以下幾個部分：學習機器、訓練目標和聲學特征。本文，我們首先回顧這三個部分。然后介紹代表性算法，包括單聲道方法和基于陣列的算法。泛化作為監(jiān)督語音分離的特有議題，也將在本文中進行討論。

為避免混淆，我們需要厘清本文使用的幾個相關術語。speech separation 或 speech segregation(語音分離)都指從背景干擾(可能包括非語音噪聲、干擾語音，或者都有，以及室內混響)中分離目標語音的任務。此外，「雞尾酒會問題」(cocktail party problem)也指語音分離(speech separation)。語音增強或去噪(speech enhancement or denoising)指語音和非語音噪聲的分離。如果是多個說話人的語音分離問題，我們使用術語「多說話人分離」(speaker separation)。

本文的結構如下：首先回顧監(jiān)督語音分離的三個主要方面，即學習機器、訓練目標和特征(分別在第二、三、四章進行介紹)。第五章介紹單聲道分離算法，第六章介紹基于陣列的算法。第七章是總結。

圖 1. 對混合了 -5 dB SNR 工廠噪聲的 TIMIT 音頻數(shù)據(jù)使用不同訓練目標圖示。

圖 2. 使用不同訓練目標的訓練結果比較。(a)STOI。(b)PESQ。分別用清晰語音混合信噪比為-5dB、0dB、5dB 的工廠噪聲。可從 http://web.cse.ohio-state.edu/pnl/DNN_toolbox/的 Matlab toolbox 中獲取這張圖的結果和數(shù)據(jù)。

圖 3. DNN 進行特征學習的圖示，使用線性 SVM 對學得的特征進行 IBM 值估計 [147]。

圖 4. 用于語音分離的二階 DNN(two-stage DNN)的圖示 [52]。

圖 5. 語音增強中基于 DNN 的頻譜映射方法圖示 [161]。

圖 6. 配置自動編碼器以進行無監(jiān)督調試的語音增強 DNN 架構 [182]。AE 堆疊在 DNN 的頂部作為純度檢測器，估計來自 DNN 的清晰語音。

圖 7. 基于 LSTM 的語音分離系統(tǒng)的結構展示 [16]。

圖 8. 前饋 DNN 和基于 LSTM 的 RNN 的 STOI 改進。(a)信噪比為-5dB 的經(jīng)訓練說話人的結果。(b)信噪比為-5dB 的未訓練說話人的結果。

圖 9. 基于頻譜映射的語音混響削減 DNN 圖示 [45]。

圖 10. 語音混響削減的混響時間響應 DNN 結構圖示(根據(jù) [156] 重畫)。

圖 11. 基于 DNN 的兩個說話人分離方法圖示。

圖 12. 聽力正常者和聽力受損者傾聽混合干擾語句的目標語句并將目標語句從中分離出來時的平均清晰度得分和標準偏差 [151]。圖中展示了四種不同目標-干擾比率的正確率百分比結果。

圖 14. 雙聲道分離算法的結構圖示 [171]。

圖 15. 單聲道掩膜估計的 MVDR 波束成形器 [34]。

責任編輯：龐桂玉來源： 36大數(shù)據(jù)

深度學習語音分離

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="3pdvk"></cite>