ICASSP 2024|字節(jié)跳動(dòng)流媒體音頻團(tuán)隊(duì)創(chuàng)新方案解決丟包補(bǔ)償、通用音質(zhì)修復(fù)問題
在本屆ICASSP 2024 各類音頻國(guó)際挑戰(zhàn)賽中,字節(jié)跳動(dòng)流媒體音頻團(tuán)隊(duì)聯(lián)合西北工業(yè)大學(xué)音頻語音與語言處理研究實(shí)驗(yàn)室,在丟包補(bǔ)償(Packet Loss Concealment, PLC)與音質(zhì)修復(fù)(Speech Signal Improvement, SSI)兩個(gè)挑戰(zhàn)賽道中,多項(xiàng)指標(biāo)上表現(xiàn)優(yōu)秀,分別取得第一和第二的成績(jī),達(dá)到國(guó)際領(lǐng)先水平。
ICASSP峰會(huì)上的音頻挑戰(zhàn)賽由國(guó)際音頻頂級(jí)會(huì)議 ICASSP 和微軟聯(lián)合發(fā)起,旨在激發(fā)各研究構(gòu)在音頻效果與音質(zhì)提升上的研究,自第一屆舉辦以來就吸引了亞馬遜、騰訊、阿里巴巴、百度、快手、中科院、西工大等全球諸多知名企業(yè)和科研院所的參與。隨著流媒體領(lǐng)域技術(shù)的不斷發(fā)展,讓聲音聽的清,聽和真,變成音頻技術(shù)行業(yè)發(fā)展必然趨勢(shì)。圍繞著如何讓用戶有更優(yōu)的音頻體驗(yàn),多個(gè)研究團(tuán)隊(duì)對(duì)音頻從采集到轉(zhuǎn)發(fā)進(jìn)行端到端的優(yōu)化,這一過程包含了如何對(duì)音頻采集缺陷,算法處理缺陷,編解碼缺陷,網(wǎng)絡(luò)傳輸缺陷等進(jìn)行一體化修復(fù)。本屆挑戰(zhàn)賽中,字節(jié)跳動(dòng)流媒體音頻團(tuán)隊(duì)結(jié)合真實(shí)的業(yè)務(wù)落地場(chǎng)景,參加了丟包補(bǔ)償與通用音質(zhì)修復(fù)這兩個(gè)挑戰(zhàn)賽道。
ICASSP PLC 挑戰(zhàn)賽旨在解決網(wǎng)絡(luò)IP通話中長(zhǎng)間隔數(shù)據(jù)包丟失和全帶音頻(48k Hz采樣率)處理的問題。該挑戰(zhàn)具有嚴(yán)格的時(shí)延限制,同時(shí)提供了苛刻的數(shù)據(jù)集來反映不利的網(wǎng)絡(luò)條件。主觀評(píng)估將使用P.804多維音頻質(zhì)量評(píng)估方法進(jìn)行,同時(shí)WER也被用于評(píng)估參賽系統(tǒng)生成語音的可懂度。流媒體音頻技術(shù)團(tuán)隊(duì)通過對(duì)模型結(jié)構(gòu)進(jìn)行優(yōu)化,有效降低了丟包補(bǔ)償模型的復(fù)雜度。同時(shí),通過多判別器對(duì)抗訓(xùn)練與多任務(wù)學(xué)習(xí),使丟包補(bǔ)償模型可以以高質(zhì)量、高可懂度恢復(fù)丟包片段,最終取得第一的成績(jī)。
ICASSP SSI 挑戰(zhàn)賽旨在解決通信系統(tǒng)中語音信號(hào)面臨的頻率響應(yīng)失真、不連續(xù)失真、響度失真、噪聲和混響這五類問題。該挑戰(zhàn)賽在嚴(yán)格設(shè)置模型時(shí)延以及因果性的前提下,使用ITU-TP.804標(biāo)準(zhǔn)下的主觀意見分和語音識(shí)別率綜合評(píng)判名次。流媒體技術(shù)團(tuán)隊(duì)使用兩階段模型結(jié)構(gòu)將復(fù)雜的修復(fù)問題簡(jiǎn)化為多個(gè)子任務(wù),在第一階段主要修復(fù)頻率響應(yīng)失真、不連續(xù)失真以及響度失真,并進(jìn)行初步降噪與去混響;在第二階段進(jìn)一步去除第一階段生成的偽影以及殘余噪聲。最終,團(tuán)隊(duì)在實(shí)時(shí)賽道取得第二名的成績(jī)。
丟包補(bǔ)償系統(tǒng)
為解決48kHz全帶音頻處理復(fù)雜度的問題,在丟包補(bǔ)償系統(tǒng)中使用了頻域模型,并根據(jù)頻率將音頻分為0-8kHz,8-24kHz兩個(gè)子帶并行處理。將主要計(jì)算量集中在對(duì)聽感影響更大的0-8kHz頻段,實(shí)現(xiàn)了低復(fù)雜度、高質(zhì)量的丟包補(bǔ)償。為了應(yīng)對(duì)長(zhǎng)間隔丟包問題,在編解碼器每層后添加了時(shí)頻擴(kuò)張卷積模塊(TFDCM),在保持小尺寸卷積核同時(shí)通過時(shí)間和頻率維度逐層膨脹的因果擴(kuò)張卷積捕獲長(zhǎng)時(shí)歷史信息與頻率相關(guān)性。
為了更高質(zhì)量的補(bǔ)償音頻,結(jié)合使用頻域多分辨率判別器、時(shí)域多周期判別器與MetricGAN,進(jìn)行生成對(duì)抗訓(xùn)練,使得生成音頻聽感優(yōu)秀。對(duì)于長(zhǎng)間隔丟包以及可懂度的問題,采用多任務(wù)學(xué)習(xí)框架。除了通常的語音信號(hào)相似度學(xué)習(xí),還引入了基頻預(yù)測(cè)與基于whisper的語義理解損失函數(shù)。模型最長(zhǎng)能夠以高質(zhì)量恢復(fù)超過100ms的丟包片段,且恢復(fù)音頻可懂度較高,詞正確率(WAcc)指標(biāo)領(lǐng)先所有參賽隊(duì)伍,總體評(píng)估得分并列第一。
丟包補(bǔ)償模型結(jié)構(gòu)示意圖
音質(zhì)修復(fù)系統(tǒng)
為了修復(fù)同時(shí)受多種失真影響的音頻,構(gòu)建系統(tǒng)中使用了兩階段模型架構(gòu),在不同階段著重對(duì)不同失真進(jìn)行處理。一階段模型使用映射(Mapping)的方式直接預(yù)測(cè)修復(fù)后音頻的復(fù)數(shù)譜,從而使模型同時(shí)具備生成音頻缺失成分與消除干擾信號(hào)的能力,同時(shí)為了提升模型的長(zhǎng)時(shí)捕獲信息的能力,在編碼器和解碼器中引入了時(shí)頻卷積模塊(Time-Frequency Convlution Module,TFCM);由于映射法的不穩(wěn)定性,可能產(chǎn)生偽影,因此引入使用掩蔽(Mask)方式的二階段模型,并采用子帶-全帶建模的方式對(duì)頻帶進(jìn)行細(xì)粒度建模,從而進(jìn)一步消除一階段模型生成的偽影與殘余噪聲。
為了提升生成的音頻成分的自然度,引入生成式對(duì)抗網(wǎng)絡(luò)框架,使用多分辨率判別器、分子帶多分辨率判別器輔助模型進(jìn)行訓(xùn)練。同時(shí)為了多階段模型在訓(xùn)練時(shí)更容易收斂,首先在降噪和去混響任務(wù)上對(duì)二階段模型進(jìn)行預(yù)訓(xùn)練,然后凍結(jié)已訓(xùn)練完成的一階段模型的參數(shù),并將其與預(yù)訓(xùn)練的二階段模型級(jí)聯(lián)進(jìn)行聯(lián)合訓(xùn)練,從而加快模型收斂。
音質(zhì)修復(fù)模型結(jié)構(gòu)示意圖
團(tuán)隊(duì)介紹
字節(jié)跳動(dòng)流媒體音頻團(tuán)隊(duì),致力于提供全球互聯(lián)網(wǎng)范圍內(nèi)高質(zhì)量、低延時(shí)的實(shí)時(shí)音視頻通信能力,幫助開發(fā)者快速構(gòu)建語音通話、視頻通話、互動(dòng)直播、轉(zhuǎn)推直播等豐富場(chǎng)景功能,目前已覆蓋互娛、教育、會(huì)議、游戲、汽車、金融、IoT 等實(shí)時(shí)音視頻互動(dòng)場(chǎng)景,服務(wù)數(shù)億用戶。