清華團隊新算法玩轉(zhuǎn)頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！

作者：機器之心 2025-02-17 07:00:00

蒸餾模型的性能可以量化估算了。

在嘈雜的環(huán)境中，人類能夠?qū)Ｗ⒂谔囟ǖ恼Z音信號，這種現(xiàn)象被稱為「雞尾酒會效應(yīng)」。對于機器來說，如何從混合的音頻信號中準確分離出不同的聲源是一個重要的挑戰(zhàn)。

語音分離（Speech Separation）能夠有效提高語音識別的準確性，通常作為識別的前置步驟。因此，語音分離模型不僅需要在真實音頻上輸出分離良好的結(jié)果，同時還要滿足低延遲的需求。

近年來，深度學習在語音分離任務(wù)中的應(yīng)用受到了廣泛關(guān)注。盡管許多高性能的語音分離方法被提出，但仍有兩個關(guān)鍵問題未能得到充分解決：一是許多模型計算復(fù)雜度太高，未充分考慮實際應(yīng)用場景的需求；二是常用的語音分離數(shù)據(jù)集與真實場景存在較大差距，導致模型在真實數(shù)據(jù)上的泛化能力不足。

為了解決這些問題，清華大學的研究團隊設(shè)計了一種名為 TIGER（Time-frequency Interleaved Gain Extraction and Reconstruction network）的輕量級語音分離模型，并提出了一個新的數(shù)據(jù)集 EchoSet，旨在更真實地模擬復(fù)雜聲學環(huán)境中的語音分離任務(wù)。

實驗結(jié)果表明，TIGER 在壓縮 94.3% 參數(shù)量和 95.3% 計算量的同時，性能與當前最先進的模型 TF-GridNet [1] 相當。

論文標題：TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
論文鏈接：https://arxiv.org/pdf/2410.01469
項目主頁：https://cslikai.cn/TIGER
GitHub 鏈接：https://github.com/JusperLee/TIGER
數(shù)據(jù)鏈接：https://huggingface.co/datasets/JusperLee/EchoSet

方法

語音分離任務(wù)的核心是從混合的音頻信號中恢復(fù)出每個說話者的清晰語音。傳統(tǒng)的語音分離模型通常直接在時域或頻域進行處理，但往往忽略了時間和頻率維度之間的交互信息。為了更高效地提取語音特征，TIGER 模型采用了時頻交叉建模的策略，結(jié)合頻帶切分和多尺度注意力機制，顯著提升了分離效果。

TIGER 模型的整體流程可以分為五個主要部分：編碼器、頻帶切分模塊、分離器、頻帶恢復(fù)模塊和解碼器。首先，通過短時傅里葉變換（STFT）將混合音頻信號轉(zhuǎn)換為時頻表示。接著，將整個頻帶劃分為多個子帶，每個子帶通過一維卷積轉(zhuǎn)換為統(tǒng)一的特征維度。分離器由多個時頻交叉建模模塊（FFI）組成，用于提取每個說話者的聲學特征。最后，頻帶恢復(fù)模塊將子帶恢復(fù)到全頻帶范圍，并通過逆短時傅里葉變換（iSTFT）生成每個說話者的清晰語音信號。

TIGER 整體流程

頻帶切分

語音信號的能量分布在不同頻帶上并不均勻，中低頻帶通常包含更多的語音信息，而高頻帶則包含更多的噪聲和細節(jié)信息。為了減少計算量并提升模型對關(guān)鍵頻帶的關(guān)注，TIGER 采用了頻帶切分策略，根據(jù)重要性將頻帶劃分為不同寬度的子帶。這種策略不僅減少了計算量，還能讓模型更專注于重要的頻帶，從而提升分離效果。

分離器

語音信號的時間和頻率維度之間存在復(fù)雜的交互關(guān)系。為了更高效地建模這種交互關(guān)系，TIGER 引入了時頻交叉建模模塊（FFI）。為了減少參數(shù)，分離器由多個共享參數(shù)的 FFI 模塊構(gòu)成。每個 FFI 模塊包含兩個路徑：頻率路徑和幀路徑。

每個路徑都包含兩個關(guān)鍵子模塊：多尺度選擇性注意力模塊（MSA）和全頻 / 幀注意力模塊（F3A）。通過交替處理時間和頻率信息，F(xiàn)FI 模塊能夠有效地整合時頻特征，提升語音分離的效果。

FFI 模塊內(nèi)部細節(jié)

多尺度選擇性注意力模塊（MSA）

為了增強模型對多尺度特征的提取能力，TIGER 引入了 MSA，通過多尺度卷積層和選擇性注意力機制，融合局部和全局信息。MSA 模塊分為三個階段：編碼、融合和解碼。

以頻率路徑為例，在編碼階段，通過多個一維卷積層逐步下采樣頻率維度，提取多尺度的聲學特征。在融合階段，使用選擇性注意力機制將局部特征和全局特征進行融合，生成包含多尺度信息的特征。在解碼階段，通過上采樣和卷積操作逐步恢復(fù)頻率維度，最終輸出增強后的頻率特征。

MSA 模塊內(nèi)部細節(jié)（以頻率路徑為例）

全頻 / 幀注意力模塊（F3A）

為了捕捉長距離依賴關(guān)系，TIGER 采用了全 / 頻幀注意力模塊（F3A）。同樣以頻率路徑為例，首先采用二維卷積將輸入特征轉(zhuǎn)換為查詢（Query）、鍵（Key）和值（Value），然后將特征維度和時間維度合并，得到每個頻帶對應(yīng)的全幀信息。

通過自注意機制計算頻率維度上的注意力權(quán)重，用于加強頻帶間關(guān)系的捕捉，提升語音分離的效果。

F3A 模塊內(nèi)部細節(jié)（以頻率路徑為例）

EchoSet：更接近真實聲學場景

的語音分離數(shù)據(jù)集

現(xiàn)有的語音分離數(shù)據(jù)集往往與真實世界的聲學環(huán)境存在較大差距，導致模型在實際應(yīng)用中的泛化能力不足。為了更真實地模擬復(fù)雜聲學環(huán)境中的語音分離任務(wù)，研究團隊提出了 EchoSet 數(shù)據(jù)集，該數(shù)據(jù)集不僅包含噪聲，還模擬了真實的混響效果（如考慮物體遮擋和材料特性），并且說話人之間語音重疊比例是隨機的。

不同數(shù)據(jù)集特性對比

EchoSet 數(shù)據(jù)集的構(gòu)建基于 SoundSpaces 2.0 平臺 [2] 和 Matterport3D 場景數(shù)據(jù)集 [3]，能夠模擬不同聲學環(huán)境中的語音混響效果。通過隨機采樣語音和噪聲，并考慮房間的幾何形狀和材料特性，EchoSet 數(shù)據(jù)集生成了包含 20,268 條訓練語音、4,604 條驗證語音和 2,650 條測試語音的高保真數(shù)據(jù)集。

實驗表明，使用 EchoSet 訓練的模型在真實世界數(shù)據(jù)上的泛化能力顯著優(yōu)于其他數(shù)據(jù)集訓練的模型，驗證了 EchoSet 的實用價值。

常見語音分離模型在不同數(shù)據(jù)集上訓練后，在真實世界采集數(shù)據(jù)上的泛化性能比較

實驗

研究團隊在多個數(shù)據(jù)集上對 TIGER 進行了全面評估，包括 Libri2Mix、LRS2-2Mix 和 EchoSet。實驗結(jié)果顯示，隨著數(shù)據(jù)集的復(fù)雜性增加，TIGER 的性能優(yōu)勢越加顯著。在 EchoSet 數(shù)據(jù)集上，TIGER 的性能比 TF-GridNet 提升了約 5%，同時參數(shù)量和計算量分別減少了 94.3% 和 95.3%。在真實世界采集的數(shù)據(jù)上（見上圖），TIGER 同樣表現(xiàn)出了最佳的分離性能。

常見語音分離模型性能和效率比較

研究團隊通過進一步壓縮參數(shù)，探索了 TIGER 的輕量化潛力。在 100K 的參數(shù)規(guī)模下，TIGER（tiny）在 Echoset 上的性能顯著優(yōu)于基 GC3 方法 [4] 壓縮的 SudoRM-RF 模型 [5]，表明 TIGER 在參數(shù)量和計算成本較低的情況下，仍能提供卓越的語音分離性能。

SudoRM-RF + GC3 與 TIGER (tiny) 的性能和效率比較

此外，TIGER 在電影音頻分離任務(wù)中也表現(xiàn)出了強大的泛化能力。實驗結(jié)果顯示，TIGER 在分離電影音頻中的語音、音樂和音效時，在保持輕量的情況下，性能顯著優(yōu)于其他模型，進一步驗證了其在復(fù)雜聲學環(huán)境中的適用性。

TIGER 在電影音頻分離任務(wù)上的性能和效率

責任編輯：張燕妮來源：機器之心

蘋果模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華團隊新算法玩轉(zhuǎn)頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！

方法

EchoSet：更接近真實聲學場景

的語音分離數(shù)據(jù)集

實驗

清華團隊新算法玩轉(zhuǎn)頻域時域，壓縮95%計算量實現(xiàn)語音分離新SOTA！