Interspeech 2023 | 火山引擎流媒體音頻技術(shù)之語(yǔ)音增強(qiáng)和AI音頻編碼
背景介紹
為了應(yīng)對(duì)處理各類(lèi)復(fù)雜音視頻通信場(chǎng)景,如多設(shè)備、多人、多噪音場(chǎng)景,流媒體通信技術(shù)漸漸成為人們生活中不可或缺的技術(shù)。為達(dá)到更好的主觀體驗(yàn),使用戶(hù)聽(tīng)得清、聽(tīng)得真,流媒體音頻技術(shù)方案融合了傳統(tǒng)機(jī)器學(xué)習(xí)和基于AI的語(yǔ)音增強(qiáng)方案,利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)方案,在語(yǔ)音降噪、回聲消除、干擾人聲消除和音頻編解碼等方向,為實(shí)時(shí)通信中的音頻質(zhì)量保駕護(hù)航。
作為語(yǔ)音信號(hào)處理研究領(lǐng)域的旗艦國(guó)際會(huì)議,Interspeech一直代表著聲學(xué)領(lǐng)域技術(shù)最前沿的研究方向,Interspeech 2023 收錄了多篇和音頻信號(hào)語(yǔ)音增強(qiáng)算法相關(guān)的文章,其中,火山引擎流媒體音頻團(tuán)隊(duì)共有 4 篇研究論文被大會(huì)接收,論文方向包括語(yǔ)音增強(qiáng)、基于AI編解碼 、回聲消除、無(wú)監(jiān)督自適應(yīng)語(yǔ)音增強(qiáng)。
值得一提的是,在無(wú)監(jiān)督自適應(yīng)語(yǔ)音增強(qiáng)領(lǐng)域,字節(jié)跳動(dòng)與西工大聯(lián)合團(tuán)隊(duì)在今年的CHiME (Computational Hearing in Multisource Environments) 挑戰(zhàn)賽子任務(wù)無(wú)監(jiān)督域自適應(yīng)對(duì)話(huà)語(yǔ)音增強(qiáng)(Unsupervised domain adaptation for conversational speech enhancement, UDASE) 獲得了冠軍(https://www.chimechallenge.org/current/task2/results)。CHiME挑戰(zhàn)賽是由法國(guó)計(jì)算機(jī)科學(xué)與自動(dòng)化研究所、英國(guó)謝菲爾德大學(xué)、美國(guó)三菱電子研究實(shí)驗(yàn)室等知名研究機(jī)構(gòu)所于2011年發(fā)起的一項(xiàng)重要國(guó)際賽事,重點(diǎn)圍繞語(yǔ)音研究領(lǐng)域極具挑戰(zhàn)的遠(yuǎn)場(chǎng)語(yǔ)音處理相關(guān)任務(wù),今年已舉辦到第七屆。歷屆CHiME比賽的參賽隊(duì)伍包括英國(guó)劍橋大學(xué)、美國(guó)卡內(nèi)基梅隆大學(xué)、約翰霍普金斯大學(xué)、日本NTT、日立中央研究院等國(guó)際著名高校和研究機(jī)構(gòu),以及清華大學(xué)、中國(guó)科學(xué)院大學(xué)、中科院聲學(xué)所、西工大、科大訊飛等國(guó)內(nèi)頂尖院校和研究所。
本文將介紹這 4 篇論文解決的核心場(chǎng)景問(wèn)題和技術(shù)方案,分享火山引擎流媒體音頻團(tuán)隊(duì)在語(yǔ)音增強(qiáng),基于AI編碼器,回聲消除和無(wú)監(jiān)督自適應(yīng)語(yǔ)音增強(qiáng)領(lǐng)域的思考與實(shí)踐。
基于可學(xué)習(xí)梳狀濾波器的輕量級(jí)語(yǔ)音諧波增強(qiáng)方法
論文地址:https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html
背景
受限于時(shí)延和計(jì)算資源,實(shí)時(shí)音視頻通信場(chǎng)景下的語(yǔ)音增強(qiáng),通常使用基于濾波器組的輸入特征。通過(guò)梅爾和ERB等濾波器組,原始頻譜被壓縮至維度更低的子帶域。在子帶域上,基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)模型的輸出是子帶的語(yǔ)音增益,該增益代表了目標(biāo)語(yǔ)音能量的占比。然而,由于頻譜細(xì)節(jié)丟失,在壓縮的子帶域上增強(qiáng)的音頻是模糊的,通常需要后處理以增強(qiáng)諧波。RNNoise和PercepNet等使用梳狀濾波器增強(qiáng)諧波,但由于基頻估計(jì)以及梳狀濾波增益計(jì)算和模型解耦,它們無(wú)法被端到端優(yōu)化;DeepFilterNet使用一個(gè)時(shí)頻域?yàn)V波器抑制諧波間噪聲,但并沒(méi)有顯式利用語(yǔ)音的基頻信息。針對(duì)上述問(wèn)題,團(tuán)隊(duì)提出了一種基于可學(xué)習(xí)梳狀濾波器的語(yǔ)音諧波增強(qiáng)方法,該方法融合了基頻估計(jì)和梳狀濾波,且梳狀濾波的增益可以被端到端優(yōu)化。實(shí)驗(yàn)顯示,該方法可以在和現(xiàn)有方法相當(dāng)?shù)挠?jì)算量下實(shí)現(xiàn)更好的諧波增強(qiáng)。
模型框架結(jié)構(gòu)
基頻估計(jì)器(F0 Estimator)
為了降低基頻估計(jì)難度并使得整個(gè)鏈路可以端到端運(yùn)行,將待估計(jì)的目標(biāo)基頻范圍離散化為N個(gè)離散基頻,并使用分類(lèi)器估計(jì)。添加了1維代表非濁音幀,最終模型輸出為N+1維的概率。和CREPE一致,團(tuán)隊(duì)使用高斯平滑的特征作為訓(xùn)練目標(biāo),并使用Binary Cross Entropy作為損失函數(shù):
可學(xué)習(xí)梳狀濾波器(Learnable Comb Filter)
對(duì)上述每一個(gè)離散基頻,團(tuán)隊(duì)均使用類(lèi)似PercepNet的FIR濾波器進(jìn)行梳狀濾波,其可以表示為一個(gè)受調(diào)制的脈沖串:
在訓(xùn)練時(shí)使用二維卷積層(Conv2D)同時(shí)計(jì)算所有離散基頻的濾波結(jié)果,該二維卷積的權(quán)重可以表示為下圖矩陣,該矩陣有N+1維,每一維均使用上述濾波器初始化:
通過(guò)目標(biāo)基頻的獨(dú)熱標(biāo)簽和二維卷積的輸出相乘得到每一幀基頻對(duì)應(yīng)的濾波結(jié)果:
諧波增強(qiáng)后的音頻將和原始音頻加權(quán)相加,并和子帶增益相乘得到最后的輸出:
在推斷時(shí),每一幀僅需要計(jì)算一個(gè)基頻的濾波結(jié)果,因此該方法的計(jì)算消耗較低。
模型結(jié)構(gòu)
團(tuán)隊(duì)使用雙路卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Dual-Path Convolutional Recurrent Network, DPCRN)作為語(yǔ)音增強(qiáng)模型主干,并添加了基頻估計(jì)器。其中Encoder和Decoder使用深度可分離卷積組成對(duì)稱(chēng)結(jié)構(gòu),Decoder有兩個(gè)并行支路分別輸出子帶增益G和加權(quán)系數(shù)R。基頻估計(jì)器的輸入是DPRNN模塊的輸出和線(xiàn)性頻譜。該模型的計(jì)算量約為300 M MACs,其中梳狀濾波計(jì)算量約為0.53M MACs。
模型訓(xùn)練
在實(shí)驗(yàn)中,使用VCTK-DEMAND和DNS4挑戰(zhàn)賽數(shù)據(jù)集進(jìn)行訓(xùn)練,并使用語(yǔ)音增強(qiáng)和基頻估計(jì)的損失函數(shù)進(jìn)行多任務(wù)學(xué)習(xí)。
實(shí)驗(yàn)結(jié)果
流媒體音頻團(tuán)隊(duì)將所提出的可學(xué)習(xí)梳狀濾波模型和使用PercepNet的梳狀濾波以及DeepFilterNet的濾波算法的模型進(jìn)行對(duì)比,它們分別被稱(chēng)作DPCRN-CF、DPCRN-PN和DPCRN-DF。在VCTK測(cè)試集上,本文提出的方法相對(duì)現(xiàn)有方法均顯示出優(yōu)勢(shì)。
同時(shí)團(tuán)隊(duì)對(duì)基頻估計(jì)和可學(xué)習(xí)的濾波器進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,相對(duì)于使用基于信號(hào)處理的基頻估計(jì)算法和濾波器權(quán)重,端到端學(xué)習(xí)得到的結(jié)果更優(yōu)。
基于Intra-BRNN 和GB-RVQ 的端到端神經(jīng)網(wǎng)絡(luò)音頻編碼器
論文地址:https://www.isca-speech.org/archive/pdfs/interspeech_2023/xu23_interspeech.pdf
背景
近年來(lái),許多神經(jīng)網(wǎng)絡(luò)模型被用于低碼率語(yǔ)音編碼任務(wù),然而一些端到端模型未能充分利用幀內(nèi)相關(guān)信息,且引入的量化器有較大量化誤差導(dǎo)致編碼后音頻質(zhì)量偏低。為了提高端到端神經(jīng)網(wǎng)絡(luò)音頻編碼器質(zhì)量,流媒體音頻團(tuán)隊(duì)提出了一種端到端的神經(jīng)語(yǔ)音編解碼器,即CBRC(Convolutional and Bidirectional Recurrent neural Codec)。CBRC使用1D-CNN(一維卷積) 和Intra-BRNN(幀內(nèi)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)) 的交錯(cuò)結(jié)構(gòu)以更有效地利用幀內(nèi)相關(guān)性。此外,團(tuán)隊(duì)在CBRC中使用分組和集束搜索策略的殘差矢量量化器(Group-wise and Beam-search Residual Vector Quantizer,GB-RVQ)來(lái)減少量化噪聲。CBRC以20ms幀長(zhǎng)編碼16kHz音頻,沒(méi)有額外的系統(tǒng)延遲,適用于實(shí)時(shí)通信場(chǎng)景。實(shí)驗(yàn)結(jié)果表明,碼率為3kbps的 CBRC編碼語(yǔ)音質(zhì)量?jī)?yōu)于12kbps的Opus。
模型框架結(jié)構(gòu)
CBRC總體結(jié)構(gòu)
Encoder和Decoder網(wǎng)絡(luò)結(jié)構(gòu)
Encoder采用4個(gè)級(jí)聯(lián)的CBRNBlocks來(lái)提取音頻特征,每個(gè)CBRNBlock由三個(gè)提取特征的ResidualUnit和控制下采樣率的一維卷積構(gòu)成。Encoder中特征每經(jīng)過(guò)一次下采樣則特征通道數(shù)翻倍。在ResidualUnit中由殘差卷積模塊和殘差雙向循環(huán)網(wǎng)絡(luò)構(gòu)成,其中卷積層采用因果卷積,而Intra-BRNN中雙向GRU結(jié)構(gòu)只處理20ms幀內(nèi)音頻特征。Decoder網(wǎng)絡(luò)為Encoder的鏡像結(jié)構(gòu),使用一維轉(zhuǎn)置卷積進(jìn)行上采樣。1D-CNN和Intra-BRNN的交錯(cuò)結(jié)構(gòu)使Encoder和Decoder充分利用20ms音頻幀內(nèi)相關(guān)性而不引入額外的延時(shí)。
CBRNBlock結(jié)構(gòu)
分組和集束搜索殘差矢量量化器 GB-RVQ
CBRC使用殘差矢量量化器(Residual Vector Quantizer,RVQ)將編碼網(wǎng)絡(luò)輸出特征量化壓縮到指定比特率。RVQ以多層矢量量化器(Vector Quantizer,VQ)級(jí)聯(lián)來(lái)壓縮特征,每層VQ對(duì)前一層VQ量化殘差進(jìn)行量化,可顯著降低同等比特率下單層VQ的碼本參數(shù)量。團(tuán)隊(duì)在CBRC中提出了兩種更優(yōu)的量化器結(jié)構(gòu),即分組殘差矢量量化器 (Group-wise RVQ) 和集束搜索殘差矢量量化器(Beam-search RVQ)。
分組殘差矢量量化器 Group-wise RVQ | 集束搜索殘差矢量量化器 Beam-search RVQ |
Group-wise RVQ將Encoder輸出進(jìn)行分組,同時(shí)使用分組的RVQ對(duì)分組后特征進(jìn)行獨(dú)立量化,隨后分組量化輸出拼接輸入Decoder。Group-wise RVQ以分組量化方式降低了量化器的碼本參數(shù)量和計(jì)算復(fù)雜度,同時(shí)降低了CBRC端到端訓(xùn)練難度進(jìn)而提升了CBRC編碼音頻質(zhì)量。
團(tuán)隊(duì)將Beam-search RVQ引入到神經(jīng)音頻編碼器端到端訓(xùn)練中,使用Beam-search算法選擇RVQ中量化路徑誤差最小的碼本組合,以降低量化器的量化誤差。原RVQ算法在每層VQ量化中選擇誤差最小的碼本為輸出,但每層VQ量化最優(yōu)的碼本組合后不一定是全局最優(yōu)碼本組合。團(tuán)隊(duì)使用Beam-search RVQ,在每層VQ中以量化路徑誤差最小準(zhǔn)則保留k個(gè)最優(yōu)的量化路徑,實(shí)現(xiàn)在更大的量化搜索空間中選擇更優(yōu)的碼本組合,降低量化誤差。
Beam-search RVQ算法簡(jiǎn)要過(guò)程: 1、每層VQ輸入前層VQ的個(gè)候選量化路徑,得到個(gè)候選量化路徑。 2、從個(gè)候選量化路徑中選擇個(gè)量化路徑誤差最小的個(gè)量化路徑作為當(dāng)前VQ層輸出。 3、在最后一層VQ中選擇量化路徑誤差最小的路徑作為量化器的輸出。 |
模型訓(xùn)練
在實(shí)驗(yàn)中,使用LibriTTS數(shù)據(jù)集中245小時(shí)的16kHz語(yǔ)音進(jìn)行訓(xùn)練,將語(yǔ)音幅度乘以隨機(jī)增益后輸入模型。訓(xùn)練中損失函數(shù)由頻譜重建多尺度損失,判別器對(duì)抗損失和特征損失,VQ量化損失和感知損失構(gòu)成。
實(shí)驗(yàn)結(jié)果
主客觀得分
為了評(píng)估CBRC編碼語(yǔ)音質(zhì)量,構(gòu)建了10條多語(yǔ)種音頻對(duì)比集,在該對(duì)比集上與其他音頻編解碼器進(jìn)行了對(duì)比。為了降低計(jì)算復(fù)雜的影響,團(tuán)隊(duì)設(shè)計(jì)了輕量化的CBRC-lite,其計(jì)算復(fù)雜度略高于Lyra-V2。由主觀聽(tīng)感比較結(jié)果可知,CBRC在3kbps上語(yǔ)音質(zhì)量超過(guò)了12kbps的Opus,同樣超過(guò)了3.2kbps的Lyra-V2,這表明所提出方法的有效性。https://bytedance.feishu.cn/docx/OqtjdQNhZoAbNoxMuntcErcInmb中提供了CBRC編碼后音頻樣音。
客觀分 | 主觀聽(tīng)感得分 |
消融實(shí)驗(yàn)
團(tuán)隊(duì)設(shè)計(jì)了針對(duì)Intra-BRNN、Group-wise RVQ 和 Beam-search RVQ的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明在Encoder和Decoder使用Intra-BRNN均可明顯提升語(yǔ)音質(zhì)量。此外,團(tuán)隊(duì)統(tǒng)計(jì)了RVQ中碼本使用頻次并計(jì)算熵解碼以對(duì)比不同網(wǎng)絡(luò)結(jié)構(gòu)下碼本使用率。相比于全卷積結(jié)構(gòu),使用Intra-BRNN的CBRC將潛在編碼比特率從4.94kbps提升到5.13kbps。同樣,在 CBRC中使用Group-wise RVQ 和 Beam-search RVQ均能顯著提升編碼語(yǔ)音質(zhì)量,且相比于神經(jīng)網(wǎng)絡(luò)本身的計(jì)算復(fù)雜度, GB-RVQ帶來(lái)的復(fù)雜度增加幾乎可忽略。
樣音
原始音頻
arctic_a0023_16k,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì),5秒
es01_l_16k,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì),10秒
CBRC 3kbps
arctic_a0023_16k_CBRC_3kbps,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì),5秒
es01_l_16k_CBRC_3kbps,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì),10秒
CBRC-lite 3kbps
arctic_a0023_16k_CBRC_lite_3kbps,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì),5秒
es01_l_16k_CBRC_lite_3kbps,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì),10秒
基于兩階段漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的回聲消除方法
論文地址:https://www.isca-speech.org/archive/pdfs/interspeech_2023/chen23e_interspeech.pdf
背景
在免提通信系統(tǒng)中,聲學(xué)回聲是令人煩惱的背景干擾。當(dāng)遠(yuǎn)端信號(hào)從揚(yáng)聲器播放出來(lái),然后由近端麥克風(fēng)記錄時(shí),就會(huì)出現(xiàn)回聲?;芈曄?(AEC) 旨在抑制麥克風(fēng)拾取的不需要的回聲。在現(xiàn)實(shí)世界中,有很多非常需要消除回聲的應(yīng)用,例如實(shí)時(shí)通信、智能教室 、車(chē)載免提系統(tǒng)等等。
最近,采用深度學(xué)習(xí) (DL) 方法的數(shù)據(jù)驅(qū)動(dòng) AEC 模型已被證明更加穩(wěn)健和強(qiáng)大 。這些方法將 AEC 表述為一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題,其中輸入信號(hào)和近端目標(biāo)信號(hào)之間的映射函數(shù)通過(guò)深度神經(jīng)網(wǎng)絡(luò) (DNN) 進(jìn)行學(xué)習(xí)。然而,真實(shí)的回聲路徑極其復(fù)雜,這對(duì) DNN 的建模能力提出了更高的要求。為了減輕網(wǎng)絡(luò)的建模負(fù)擔(dān),大多數(shù)現(xiàn)有的基于 DL 的 AEC 方法采用一個(gè)前置的線(xiàn)性回聲消除(LAEC) 模塊來(lái)抑制大部分回聲的線(xiàn)性分量。但是,LAEC 模塊有兩個(gè)缺點(diǎn):1)不合適的 LAEC 可能會(huì)導(dǎo)致近端語(yǔ)音的一些失真,以及 2)LAEC 收斂過(guò)程使線(xiàn)性回聲抑制性能不穩(wěn)定。由于 LAEC 是自?xún)?yōu)化的,因此 LAEC 的缺點(diǎn)會(huì)給后續(xù)的神經(jīng)網(wǎng)絡(luò)帶來(lái)額外的學(xué)習(xí)負(fù)擔(dān)。
為了避免 LAEC 的影響并保持更好的近端語(yǔ)音質(zhì)量,本文探索了一種新的基于端到端 DL 的兩階段處理模式,并提出了一種由粗粒度 (coarse-stage) 和細(xì)粒度 (fine-stage) 組成的兩階段級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)(TSPNN) 用于回聲消除任務(wù)。大量的實(shí)驗(yàn)結(jié)果表明,所提出的兩階段回聲消除方法能夠達(dá)到優(yōu)于其他主流方法的性能。
模型框架結(jié)構(gòu)
如下圖所示,TSPNN 主要由三個(gè)部分組成:時(shí)延補(bǔ)償模塊 (TDC)、粗粒度處理模塊 (coarse-stage) 和細(xì)粒度處理模塊 (fine-stage)。TDC 負(fù)責(zé)對(duì)輸入的遠(yuǎn)端參考信號(hào) (ref) 和近端麥克風(fēng)信號(hào) (mic) 進(jìn)行對(duì)齊,有利于后續(xù)模型收斂。coarse-stage 負(fù)責(zé)將大部分的回聲 (echo) 和噪聲 (noise) 從 mic 中去除,極大減輕后續(xù) fine-stage 階段模型學(xué)習(xí)負(fù)擔(dān)。同時(shí),coarse-stage 結(jié)合了語(yǔ)音活躍度檢測(cè) (VAD) 任務(wù)進(jìn)行多任務(wù)學(xué)習(xí),強(qiáng)化模型對(duì)近端語(yǔ)音的感知能力,減輕對(duì)近端語(yǔ)音的損傷。fine-stage 負(fù)責(zé)進(jìn)一步消除殘余回聲和噪聲,并結(jié)合鄰居頻點(diǎn)信息來(lái)較好地重構(gòu)出近端目標(biāo)信號(hào)。
為了避免獨(dú)立優(yōu)化每個(gè)階段的模型而導(dǎo)致的次優(yōu)解,本文采用級(jí)聯(lián)優(yōu)化的形式來(lái)同時(shí)優(yōu)化 coarse-stage 和 fine-stage,同時(shí)松弛對(duì) coarse-stage 的約束,避免對(duì)近端語(yǔ)音造成損傷。此外,為了讓模型能夠具有感知近端語(yǔ)音的能力,本發(fā)明引入了 VAD 任務(wù)進(jìn)行多任務(wù)學(xué)習(xí),在損失函數(shù)中加入 VAD 的 Loss。最終損失函數(shù)為:
其中 分別表示目標(biāo)近端信號(hào)復(fù)數(shù)譜、coarse-stage 和 fine-stage 估計(jì)的近端信號(hào)復(fù)數(shù)譜;分別表示coarse-stage估計(jì)的近端語(yǔ)音活躍狀態(tài)、近端語(yǔ)音活躍檢測(cè)標(biāo)簽; 為一個(gè)控制標(biāo)量,主要用于調(diào)節(jié)訓(xùn)練階段對(duì)不同階段的關(guān)注程度。本發(fā)明限制 來(lái)松弛對(duì) coarse-stage 的約束,有效避免 coarse-stage 對(duì)近端的損傷。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)數(shù)據(jù)
火山引擎流媒體音頻團(tuán)隊(duì)所提兩階段回聲消除系統(tǒng)還與其他方法做了比較,實(shí)驗(yàn)結(jié)果表明,所提能夠達(dá)到優(yōu)于其他主流方法的效果。
具體例子
- 實(shí)驗(yàn)結(jié)果 Github 鏈接:https://github.com/enhancer12/TSPNN
- 雙講場(chǎng)景效果表現(xiàn):
CHiME-7 無(wú)監(jiān)督域自適應(yīng)語(yǔ)音增強(qiáng)(UDASE)挑戰(zhàn)賽冠軍方案
論文地址:https://www.chimechallenge.org/current/task2/documents/Zhang_NB.pdf
背景:
近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)的發(fā)展,語(yǔ)音增強(qiáng)技術(shù)的研究逐漸轉(zhuǎn)向基于深度學(xué)習(xí)的方法,越來(lái)越多基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型被提出。然而這些模型大多基于有監(jiān)督學(xué)習(xí),都需要大量的配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。然而在實(shí)際場(chǎng)景中,無(wú)法同時(shí)收錄到嘈雜場(chǎng)景的語(yǔ)音和與之配對(duì)的不受干擾的干凈語(yǔ)音標(biāo)簽,通常采用數(shù)據(jù)仿真的形式,單獨(dú)采集干凈語(yǔ)音與各種各樣的噪聲,將其按照一定信噪比混合得到帶噪音頻。這導(dǎo)致了訓(xùn)練場(chǎng)景與實(shí)際應(yīng)用場(chǎng)景的不匹配,模型性能在實(shí)際應(yīng)用中有所下降。
為了更好的解決以上域不匹配問(wèn)題,利用真實(shí)場(chǎng)景中大量無(wú)標(biāo)簽數(shù)據(jù),無(wú)監(jiān)督、自監(jiān)督語(yǔ)音增強(qiáng)技術(shù)被提出。CHiME挑戰(zhàn)賽賽道2旨在利用未標(biāo)記的數(shù)據(jù)來(lái)克服在人工生成的標(biāo)記數(shù)據(jù)上訓(xùn)練的語(yǔ)音增強(qiáng)模型因訓(xùn)練數(shù)據(jù)與實(shí)際應(yīng)用場(chǎng)景的不匹配導(dǎo)致的性能下降問(wèn)題,研究的重點(diǎn)在于如何借助目標(biāo)域的無(wú)標(biāo)簽數(shù)據(jù)和集外的有標(biāo)簽數(shù)據(jù)來(lái)提升目標(biāo)域的增強(qiáng)結(jié)果。
模型框架結(jié)構(gòu):
無(wú)監(jiān)督域自適應(yīng)語(yǔ)音增強(qiáng)系統(tǒng)流程圖
如上圖所示,所提框架是一個(gè)教師學(xué)生網(wǎng)絡(luò)。首先在域內(nèi)數(shù)據(jù)上使用語(yǔ)音活動(dòng)檢測(cè)、UNA-GAN、仿真房間沖擊響應(yīng)、動(dòng)態(tài)加噪等技術(shù)生成最接近目標(biāo)域的有標(biāo)簽數(shù)據(jù)集,在該域外有標(biāo)簽數(shù)據(jù)集上預(yù)訓(xùn)練教師降噪網(wǎng)絡(luò)Uformer+。接著在域內(nèi)無(wú)標(biāo)簽數(shù)據(jù)上借助該框架更新學(xué)生網(wǎng)絡(luò),即利用預(yù)訓(xùn)練的教師網(wǎng)絡(luò)從帶噪音頻中估計(jì)干凈語(yǔ)音和噪聲作為偽標(biāo)簽,將他們打亂順序重新混合作為學(xué)生網(wǎng)絡(luò)輸入的訓(xùn)練數(shù)據(jù),利用偽標(biāo)簽有監(jiān)督的訓(xùn)練學(xué)生網(wǎng)絡(luò)。使用預(yù)訓(xùn)練的MetricGAN判別器估計(jì)學(xué)生網(wǎng)絡(luò)生成的干凈語(yǔ)音質(zhì)量評(píng)分,并與最高分計(jì)算損失,以指導(dǎo)學(xué)生網(wǎng)絡(luò)生成更高質(zhì)量的干凈音頻。每訓(xùn)練一定步長(zhǎng)后以一定權(quán)重將學(xué)生網(wǎng)絡(luò)的參數(shù)更新到教師網(wǎng)絡(luò)中,以獲取更高質(zhì)量的監(jiān)督學(xué)習(xí)偽標(biāo)簽,如此重復(fù)。
Ufomer+網(wǎng)絡(luò)
Uformer+是在Uformer網(wǎng)絡(luò)基礎(chǔ)上加入MetricGAN改進(jìn)得到的。Uformer是一個(gè)基于 Unet 結(jié)構(gòu)的復(fù)數(shù)實(shí)數(shù)雙路徑conformer網(wǎng)絡(luò),它具有兩條并行的分支,幅度譜分支和復(fù)數(shù)譜分支,網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。幅度分支用于進(jìn)行主要的噪聲抑制功能,能夠有效抑制大部分噪聲。復(fù)數(shù)分支作為輔助,用于補(bǔ)償語(yǔ)譜細(xì)節(jié)和相位偏差等損失。MetricGAN的主要思想是使用神經(jīng)網(wǎng)絡(luò)模擬不可微的語(yǔ)音質(zhì)量評(píng)價(jià)指標(biāo),使其可以被用于網(wǎng)絡(luò)訓(xùn)練中,以減少訓(xùn)練和實(shí)際應(yīng)用時(shí)評(píng)價(jià)指標(biāo)不一致帶來(lái)的誤差。這里團(tuán)隊(duì)使用感知語(yǔ)音質(zhì)量評(píng)價(jià)(PESQ)作為MetricGAN網(wǎng)絡(luò)估計(jì)的目標(biāo)。
Uformer網(wǎng)絡(luò)結(jié)構(gòu)圖
RemixIT-G框架
RemixIT-G是一個(gè)教師學(xué)生網(wǎng)絡(luò),首先在域外有標(biāo)簽數(shù)據(jù)上預(yù)訓(xùn)練教師Uformer+模型,使用該預(yù)訓(xùn)練教師模型解碼域內(nèi)帶噪音頻,估計(jì)噪聲和語(yǔ)音。接下來(lái)在同一批次內(nèi)打亂估計(jì)的噪聲和語(yǔ)音的順序,重新將噪聲和語(yǔ)音按打亂后的順序混合成為帶噪音頻,作為訓(xùn)練學(xué)生網(wǎng)絡(luò)的輸入。由教師網(wǎng)絡(luò)估計(jì)的噪聲和語(yǔ)音作為偽標(biāo)簽。學(xué)生網(wǎng)絡(luò)解碼重混合的帶噪音頻,估計(jì)噪聲和語(yǔ)音,與偽標(biāo)簽計(jì)算損失,更新學(xué)生網(wǎng)絡(luò)參數(shù)。學(xué)生網(wǎng)絡(luò)估計(jì)的語(yǔ)音被送入預(yù)訓(xùn)練的MetricGAN判別器中預(yù)測(cè)PESQ,并與PESQ最大值計(jì)算損失,更新學(xué)生網(wǎng)絡(luò)參數(shù)。
所有訓(xùn)練數(shù)據(jù)完成一輪迭代后根據(jù)如下公式更新教師網(wǎng)絡(luò)的參數(shù):,其中為訓(xùn)練第K輪教師網(wǎng)絡(luò)的參數(shù), 為第K輪學(xué)生網(wǎng)絡(luò)的參數(shù)。即將學(xué)生網(wǎng)絡(luò)的參數(shù)以一定權(quán)重與教師網(wǎng)絡(luò)相加。
數(shù)據(jù)擴(kuò)充方法 UNA-GAN
UNA-GAN結(jié)構(gòu)圖
無(wú)監(jiān)督噪聲自適應(yīng)數(shù)據(jù)擴(kuò)充網(wǎng)絡(luò)UNA-GAN是一種基于生成對(duì)抗網(wǎng)絡(luò)的帶噪音頻生成模型。其目的是在無(wú)法獲取獨(dú)立的噪聲數(shù)據(jù)的情況下,只使用域內(nèi)帶噪音頻,直接將干凈語(yǔ)音轉(zhuǎn)化為帶有域內(nèi)噪聲的帶噪音頻。生成器輸入干凈語(yǔ)音,輸出仿真的帶噪音頻。判別器輸入生成的帶噪音頻或真實(shí)的域內(nèi)帶噪音頻,判斷輸入的音頻來(lái)自真實(shí)場(chǎng)景還是仿真生成。判別器主要根據(jù)背景噪聲的分布來(lái)區(qū)分來(lái)源,在這個(gè)過(guò)程中,人類(lèi)語(yǔ)音被視為無(wú)效信息。通過(guò)執(zhí)行以上對(duì)抗訓(xùn)練的過(guò)程,生成器試圖將域內(nèi)噪聲直接添加在輸入的干凈音頻上,以迷惑判別器;判別器試圖盡力區(qū)分帶噪音頻的來(lái)源。為了避免生成器添加過(guò)多噪聲,覆蓋掉輸入音頻中的人類(lèi)語(yǔ)音,使用了對(duì)比學(xué)習(xí)。在生成的帶噪音頻、和輸入的干凈語(yǔ)音對(duì)應(yīng)位置采樣256個(gè)塊。相同位置的塊的配對(duì)被視為正樣例,不同位置的塊的配對(duì)被視為負(fù)樣例。使用正負(fù)樣例計(jì)算交叉熵?fù)p失。
實(shí)驗(yàn)結(jié)果
結(jié)果表明所提出的Uformer+相比基線(xiàn)Sudo rm-rf具有更強(qiáng)的性能,數(shù)據(jù)擴(kuò)充方法UNA-GAN也具有生成域內(nèi)帶噪音頻的能力。域適應(yīng)框架RemixIT基線(xiàn)在SI-SDR上取得了較大提升,但在DNS-MOS上指標(biāo)較差。團(tuán)隊(duì)提出的改進(jìn)RemixIT-G同時(shí)在兩個(gè)指標(biāo)上都取得了有效提升,并在競(jìng)賽盲測(cè)集上取得了最高的主觀測(cè)聽(tīng)MOS打分。最終測(cè)聽(tīng)結(jié)果如下圖所示。
總結(jié)與展望
上述介紹了火山引擎流媒體音頻團(tuán)隊(duì)基于深度學(xué)習(xí)在特定說(shuō)話(huà)人降噪,AI編碼器,回聲消除和無(wú)監(jiān)督自適應(yīng)語(yǔ)音增強(qiáng)方向做出的一些方案及效果,未來(lái)場(chǎng)景依然面臨著多個(gè)方向的挑戰(zhàn),如怎么樣在各類(lèi)終端上部署運(yùn)行輕量低復(fù)雜度模型及多設(shè)備效果魯棒性,這些挑戰(zhàn)點(diǎn)也將會(huì)是流媒體音頻團(tuán)隊(duì)后續(xù)重點(diǎn)的研究方向。