語音合成突破:F5R-TTS首次實(shí)現(xiàn)非自回歸模型的GRPO優(yōu)化,零樣本克隆性能顯著提升
在人工智能技術(shù)日新月異的今天,語音合成(TTS)領(lǐng)域正經(jīng)歷著一場(chǎng)前所未有的技術(shù)革命。最新一代文本轉(zhuǎn)語音系統(tǒng)不僅能夠生成媲美真人音質(zhì)的高保真語音,更實(shí)現(xiàn)了「只聽一次」就能完美復(fù)刻目標(biāo)音色的零樣本克隆能力。這一突破性進(jìn)展的背后,是大規(guī)模語音數(shù)據(jù)的積累和大模型技術(shù)的快速發(fā)展。
同時(shí)在技術(shù)前沿,DeepSeek 系列憑借其 GRPO 算法(群體相對(duì)策略優(yōu)化),正以強(qiáng)化學(xué)習(xí)引領(lǐng)大語言模型(LLM)研究的新趨勢(shì)。目前,強(qiáng)化學(xué)習(xí)已擴(kuò)展至自回歸 TTS 系統(tǒng)。然而,由于非自回歸架構(gòu)與大型語言模型(LLMs)存在根本性的結(jié)構(gòu)差異,此前非自回歸 TTS 系統(tǒng)尚未出現(xiàn)成功的強(qiáng)化學(xué)習(xí)集成案例,這一技術(shù)難題仍有待可行的研究解決方案。
近日,騰訊PCG社交線的研究團(tuán)隊(duì)針對(duì)這一挑戰(zhàn)提出了 F5R-TTS 系統(tǒng),首創(chuàng)性地通過將模型輸出轉(zhuǎn)化為概率表征,打通了非自回歸 TTS 模型強(qiáng)化學(xué)習(xí)的「任督二脈」。
- 論文標(biāo)題:F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization
- 論文鏈接:https://arxiv.org/abs/2504.02407
- 項(xiàng)目主頁:https://frontierlabs.github.io/F5R/
F5R-TTS 的創(chuàng)新架構(gòu)
F5R-TTS 通過模型架構(gòu)創(chuàng)新,有效融合了強(qiáng)化學(xué)習(xí)。這項(xiàng)研究的主要貢獻(xiàn)體現(xiàn)在三個(gè)方面:
- 概率化輸出轉(zhuǎn)換:研究團(tuán)隊(duì)創(chuàng)新性地將 flow-matching 的 TTS 模型輸出轉(zhuǎn)化為概率表征。這一轉(zhuǎn)換使得強(qiáng)化學(xué)習(xí)在非自回歸模型中的應(yīng)用成為可能,為后續(xù)的優(yōu)化奠定了基礎(chǔ)。
- GRPO 優(yōu)化方法:首次成功將 GRPO 方法應(yīng)用于非自回歸 TTS 模型,采用詞錯(cuò)誤率(WER)和說話人相似度(SIM)作為獎(jiǎng)勵(lì)信號(hào),有效引導(dǎo)模型優(yōu)化方向。
- 零樣本語音克隆驗(yàn)證:在零樣本語音克隆場(chǎng)景中,F(xiàn)5R-TTS 模型展現(xiàn)出顯著優(yōu)勢(shì)。相較于傳統(tǒng)非自回歸 TTS 基線模型,在可懂度(WER 相對(duì)降低 29.5%)和說話人一致性(SIM 相對(duì)提升 4.6%)兩方面均實(shí)現(xiàn)顯著提升。
F5R-TTS 的訓(xùn)練流程分為兩個(gè)關(guān)鍵階段:第一階段基于 flow-matching 損失函數(shù)進(jìn)行預(yù)訓(xùn)練;第二階段采用 GRPO 算法對(duì)模型進(jìn)行精細(xì)優(yōu)化。這種兩階段訓(xùn)練策略既保證了模型的初始性能,又通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了針對(duì)性優(yōu)化。
概率化改造:強(qiáng)化學(xué)習(xí)的基礎(chǔ)
我們選用了當(dāng)前效果領(lǐng)先的非自回歸 TTS——F5-TTS 作為骨架。為了使非自回歸模型適配 GRPO 框架,F(xiàn)5R-TTS 進(jìn)行了關(guān)鍵的概率化改造。具體而言,模型被設(shè)計(jì)為預(yù)測(cè)每一步輸出時(shí)的分布概率,而非直接預(yù)測(cè)確定性的輸出值。這一改造使得模型輸出具有了概率分布特性,為強(qiáng)化學(xué)習(xí)中的策略梯度計(jì)算提供了必要條件。
在第一階段預(yù)訓(xùn)練中,目標(biāo)函數(shù)仍采用 flow-matching 的形式,其核心思想是將標(biāo)準(zhǔn)正態(tài)分布 x0 的概率路徑匹配到近似真實(shí)數(shù)據(jù) x1 的分布上。模型在最后一層預(yù)測(cè)高斯分布的均值與方差,并通過優(yōu)化參數(shù)以最大化 x1 ?x0 的對(duì)數(shù)似然函數(shù)。這一過程可以形式化為以下目標(biāo)函數(shù):
簡(jiǎn)化后,模型使用下式作為預(yù)訓(xùn)練的目標(biāo)函數(shù)
GRPO 強(qiáng)化
在 GRPO 階段,預(yù)訓(xùn)練模型作為策略模型進(jìn)行微調(diào),同時(shí)以預(yù)訓(xùn)練參數(shù)初始化參考模型。
具體實(shí)現(xiàn)上,策略模型的前向運(yùn)算需要執(zhí)行類似推理過程的采樣操作 —— 從標(biāo)準(zhǔn)高斯分布初始輸入開始,逐步計(jì)算每一步的輸出概率分布,并進(jìn)行采樣。采樣結(jié)果既用于計(jì)算獎(jiǎng)勵(lì)信號(hào),也需要與參考模型輸出比較以計(jì)算 KL 散度損失,確保優(yōu)化過程的穩(wěn)定性。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是 GRPO 階段的核心。研究團(tuán)隊(duì)選擇了詞錯(cuò)誤率(WER)和說話人相似度(SIM)作為主要獎(jiǎng)勵(lì)指標(biāo),分別對(duì)應(yīng)語音克隆任務(wù)中最關(guān)鍵的兩個(gè)方面:語義準(zhǔn)確性和音色保真度。
最終,GRPO 階段的目標(biāo)函數(shù)定義如下:
實(shí)驗(yàn)
研究團(tuán)隊(duì)設(shè)計(jì)了全面的實(shí)驗(yàn)來驗(yàn)證 F5R-TTS 的有效性。實(shí)驗(yàn)設(shè)置包括:
- 預(yù)訓(xùn)練階段:采用 7226 小時(shí)開源數(shù)據(jù)集 WenetSpeech4TTS Basic
- GRPO 微調(diào):隨機(jī)選取 100 小時(shí)高質(zhì)量語音數(shù)據(jù)
- 評(píng)估體系:基于 Seed-TTS 測(cè)試標(biāo)準(zhǔn),構(gòu)建包含 2560 個(gè)測(cè)試樣本(含 400 個(gè)高難度樣本、140 個(gè)帶噪樣本)的評(píng)估集,計(jì)算 WER 和 SIM
研究團(tuán)隊(duì)首先采用 t-SNE 技術(shù)對(duì)說話人相似度進(jìn)行二維空間可視化。結(jié)果如圖 4 顯示,對(duì)比其他方法,F(xiàn)5R-TTS 模型的合成結(jié)果能夠更準(zhǔn)確地按照目標(biāo)說話人實(shí)現(xiàn)聚類。這一可視化結(jié)果直觀地證明了 F5R-TTS 模型在說話人相似度方面的優(yōu)越表現(xiàn)。
其次,采用全局方差(Global Variance, GV)指標(biāo)進(jìn)行頻譜分析。如圖 5 所示,F(xiàn)5R 模型的曲線與真實(shí)語音的曲線吻合度最高,再次驗(yàn)證 F5-R 模型的合成語音在頻譜特性上與真實(shí)語音具有更高的相似性。
客觀測(cè)評(píng)指標(biāo)表明,采用 WER 和 SIM 作為獎(jiǎng)勵(lì)信號(hào)的 GRPO 方法,使 F5R-TTS 相較于基線在語義準(zhǔn)確性和說話人相似度兩個(gè)維度均獲得提升。在說話人相關(guān)獎(jiǎng)勵(lì)的引導(dǎo)下,F(xiàn)5R 能夠通過上下文學(xué)習(xí)更精準(zhǔn)地克隆目標(biāo)說話人的聲學(xué)特征。
值得注意的是,在困難測(cè)試集上,F(xiàn)5R 在 WER 指標(biāo)上的相對(duì)優(yōu)勢(shì)更為顯著 —— 這得益于 WER 相關(guān)獎(jiǎng)勵(lì)組件有效增強(qiáng)了模型的語義保持能力。另外,為驗(yàn)證所提方法的泛化能力,實(shí)驗(yàn)還用在內(nèi)部數(shù)據(jù)集上進(jìn)行了重復(fù)驗(yàn)證,結(jié)果表明 GRPO 方法在不同數(shù)據(jù)集上都能持續(xù)提升模型性能。
同時(shí),三個(gè)模型在困難測(cè)試集上的性能均出現(xiàn)下降,這表明文本復(fù)雜度的增加通常會(huì)導(dǎo)致模型穩(wěn)定性降低。該現(xiàn)象將成為后續(xù)優(yōu)化研究的重要切入點(diǎn)。
未來展望
F5R-TTS 首次成功將 GRPO 整合到非自回歸 TTS 系統(tǒng)中,突破了非自回歸模型難以應(yīng)用強(qiáng)化學(xué)習(xí)的技術(shù)瓶頸。實(shí)驗(yàn)證明該方法能同時(shí)提升語義準(zhǔn)確性和音色保真度,為零樣本語音克隆提供了更優(yōu)解決方案。文章提出的概率化輸出轉(zhuǎn)換策略為其他生成模型的強(qiáng)化學(xué)習(xí)優(yōu)化提供了可借鑒的思路。這項(xiàng)研究不僅推動(dòng)了語音合成技術(shù)本身的發(fā)展,也為其他生成式 AI 模型的優(yōu)化提供了新思路。
展望未來,研究團(tuán)隊(duì)計(jì)劃從三個(gè)方向繼續(xù)深入探索:
- 強(qiáng)化學(xué)習(xí)算法擴(kuò)展:探索將 PPO、DDPO 等其他強(qiáng)化學(xué)習(xí)算法整合到非自回歸語音合成系統(tǒng)的可行性,尋求更高效的優(yōu)化路徑。
- 獎(jiǎng)勵(lì)函數(shù)優(yōu)化:設(shè)計(jì)更精細(xì)、多層次的獎(jiǎng)勵(lì)函數(shù),進(jìn)一步提升模型在自然、個(gè)性化和表現(xiàn)力等方面的效果。
- 大規(guī)模數(shù)據(jù)驗(yàn)證:在更大規(guī)模、更多樣化的訓(xùn)練數(shù)據(jù)上驗(yàn)證方法的擴(kuò)展性,探索數(shù)據(jù)規(guī)模與模型性能的量化關(guān)系。
隨著技術(shù)的不斷成熟,期待未來出現(xiàn)更加自然、個(gè)性化和富有表現(xiàn)力的語音合成系統(tǒng),為智能交互、內(nèi)容創(chuàng)作、輔助技術(shù)等領(lǐng)域帶來全新可能。