150萬條多語種音頻數(shù)據(jù)!浙大清華發(fā)布語音偽造檢測框架SafeEar,兼顧隱私保護(hù)|CCS 2024
近年來,語音合成和語音轉(zhuǎn)換等技術(shù)取得快速發(fā)展,基于相關(guān)技術(shù)能夠合成逼真、自然的音頻。然而,攻擊者可利用該技術(shù)進(jìn)行語音偽造,即「克隆」特定對象語音,為用戶隱私安全與社會穩(wěn)定帶來嚴(yán)重威脅。
目前,已有較多基于卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等的偽造檢測方法取得了優(yōu)越的檢測效果。但現(xiàn)有工作通常需要采用音頻波形或頻譜特征作為輸入,即需要訪問語音完整信息,在該過程中存在語音隱私泄露問題。同時,已有研究證實音色、響度等聲學(xué)特征在語音偽造檢測上的重要性[1,2],這為僅基于聲學(xué)特征進(jìn)行深度偽造檢測帶來潛在可能。
針對此問題,浙江大學(xué)智能系統(tǒng)安全實驗室(USSLAB)與清華大學(xué)聯(lián)合提出SafeEar,一種內(nèi)容隱私保護(hù)的語音偽造檢測方法。
論文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf
論文主頁:https://safeearweb.github.io/Project/
代碼地址:https://github.com/LetterLiGo/SafeEar
CVoiceFake數(shù)據(jù)集地址:https://zenodo.org/records/11124319
SafeEar的核心思路是,設(shè)計基于神經(jīng)音頻編解碼器(Neural Audio Codec)的解耦模型,該模型能夠?qū)⒄Z音的聲學(xué)信息與語義信息分離,并且僅利用聲學(xué)信息進(jìn)行偽造檢測(如圖1),從而實現(xiàn)了內(nèi)容隱私保護(hù)的語音偽造檢測。
該框架針對各類音頻偽造技術(shù)展現(xiàn)良好的檢測能力與泛化能力,檢測等錯誤率(EER)可低至2.02%,與基于完整語音信息進(jìn)行偽造檢測的SOTA性能接近。同時實驗證明攻擊者無法基于該聲學(xué)信息恢復(fù)語音內(nèi)容,基于人耳與機(jī)器識別方法的單詞錯誤率(WER)均高于93.93%。
圖1 SafeEar原理示意圖
方法概述
SafeEar采用一種串行檢測器結(jié)構(gòu),對輸入語音獲取目標(biāo)離散聲學(xué)特征,進(jìn)而輸入后端檢測器,主要框架如圖2所示。
圖2 SafeEar框架示意圖。(虛線方框內(nèi)的④Real-world Augmentation僅在訓(xùn)練時出現(xiàn),推理階段僅有①②③模塊)
主要包括以下四個部分:
1. 基于神經(jīng)音頻編解碼器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)
受SpeechTokenizer[3]等前期工作的啟發(fā),該部分基于神經(jīng)音頻編解碼器結(jié)構(gòu),在語音特征分離與重建的過程中實現(xiàn)語音特征解耦。如圖3所示,包括編碼器(Encoder)、多層殘差向量量化器(Residual Vector Quantizers, RVQs)、解碼器(Decoder)、鑒別器(Discriminator)四個核心部分。
其中,RVQs主要包括級聯(lián)的八層量化器,在第一層量化器中以Hubert特征作為監(jiān)督信號分離語義特征,后續(xù)各層量化器輸出特征累加即為聲學(xué)特征。
圖3 基于神經(jīng)音頻編解碼器的解耦模型示意圖。
2. 瓶頸層和混淆層(Bottleneck & Shuffle)
如圖4所示,瓶頸層被用于特征降維表征和正則化處理?;煜龑訉β晫W(xué)特征進(jìn)行固定時間窗范圍內(nèi)的隨機(jī)打亂重置,從而提升特征復(fù)雜度,確保內(nèi)容竊取攻擊者即便借助SOTA的語音識別(ASR)模型,也無法從聲學(xué)特征中強(qiáng)行提取出語義信息。最終,經(jīng)過解纏和混淆雙重保護(hù)的音頻可以有效抵御人耳或者模型兩方面的惡意語音內(nèi)容竊取。
圖4 瓶頸層和混淆層示意圖
3. 偽造檢測器(Deepfake Detector)
最近研究表明Transformer分類器在偽造檢測方面的潛力[4],SafeEar框架的偽造音頻檢測后端設(shè)計了一種僅基于聲學(xué)輸入的Transformer-based分類器,采用正弦、余弦函數(shù)交替形式對語音信號在時域和頻域上進(jìn)行位置編碼。該分類器的主要結(jié)構(gòu)如圖5所示,包括編碼器、池化層和全連接層等部分。
圖5 基于聲學(xué)特征的語音偽造檢測分類器。
4. 真實環(huán)境增強(qiáng)(Real-world Augment)
鑒于現(xiàn)實世界的信道多樣性,采用具有代表性的音頻編解碼器(如G.711、G.722、gsm、vorbis、ogg)進(jìn)行數(shù)據(jù)增強(qiáng),模擬實際環(huán)境中帶寬、碼率的多樣性,以推廣到不可見通信場景。
實驗結(jié)果
偽造檢測效果
本文選擇了八個代表性的基線方法,其中包括端到端檢測器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行檢測器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer),測試數(shù)據(jù)集采用語音偽造檢測代表性數(shù)據(jù)集ASVspoof2019[11]和ASVspoof2021[12],實驗結(jié)果如表1所示。
SafeEar在信息損失的情況下,仍能實現(xiàn)較為優(yōu)越的檢測效果,在同類型的串行檢測器中達(dá)到最低等錯誤率(3.10%),且優(yōu)于部分端到端檢測器。
表1 整體偽造檢測效果對比
隱私保護(hù)效果
對于隱私保護(hù)效果,本文討論了具有不同能力的三類主要攻擊者,包括Naive content recovery adversary(CRA1)、Knowledgeable content adversary(CRA2)和Adaptive content adversary(CRA3),通過語音識別(具有代表性的ASR模型和開源ASR API)準(zhǔn)確率評價隱私保護(hù)的效果。
由于解耦出的聲學(xué)特征具有信息損失性,攻擊者無法有效恢復(fù)或重建語音內(nèi)容,從而證明該方法具有隱私保護(hù)能力。同時,論文通過用戶測試體現(xiàn)出人耳與機(jī)器在內(nèi)容隱私恢復(fù)上均具有較高難度。部分實驗結(jié)果如下。
圖6 訓(xùn)練過程中驗證集上詞錯誤率變化曲線(CRA1)。可見ASR模型(Conformer、Bi-LSTM)對于SafeEar保護(hù)后的語音始終無法識別,WER曲線保持過高數(shù)值且震蕩;而對于完整音頻,ASR模型可迅速收斂并在驗證集上取得極低的WER
圖7 真實的用戶調(diào)研表明,ASR模型被認(rèn)為能夠有效識別完整音頻(高達(dá)Original: 8.99),而對于SafeEar面對不同攻擊者等級下的識別效果始終很差(低至CRA2: 1.31、CRA3: 1.31);同理人耳聽感的清晰度分別為Original: 9.38、CRA2: 1.10、CRA3: 1.60。當(dāng)用戶模擬攻擊者嘗試恢復(fù)語音內(nèi)容時,在SafeEar保護(hù)下的WER始終高于96.37%
總結(jié)與展望
本文在保護(hù)語音內(nèi)容隱私的同時實現(xiàn)了語音深度偽造檢測,該方法可被應(yīng)用于實時語音通話環(huán)境,具有優(yōu)越的檢測準(zhǔn)確性和泛化能力。
同時,該工作構(gòu)建了涉及五種主流語言(英語、中文、德語、法語、意大利語)、多聲碼器(Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave)的語音偽造檢測數(shù)據(jù)集CVoiceFake,最新數(shù)據(jù)集涵蓋150萬個語音樣本及其對應(yīng)轉(zhuǎn)錄文本,可作為語音偽造檢測和內(nèi)容恢復(fù)攻擊的基準(zhǔn)數(shù)據(jù)集。
SafeEar也提供了一種新穎的隱私保護(hù)串行檢測框架,能夠在其他相關(guān)任務(wù)中沿用和拓展,進(jìn)而推進(jìn)智能語音服務(wù)安全化發(fā)展。