僅用1/4數(shù)據(jù)量還原真人語音100%細節(jié),火山語音上新超自然對話語音合成技術(shù)!
數(shù)星星盼月亮,萬千杰迷苦等6年,不久之前終于等到周董發(fā)新專輯啦!一經(jīng)上線引爆全網(wǎng)討論。
正當大家沉浸在對那時青蔥歲月的美好追憶時,發(fā)布爆火音頻的小伙伴表示:這段對話居然是語音合成的!
提到“語音合成”,你腦海中可能會出現(xiàn)這樣的種種:
? 導航中種類豐富但語氣機械的“前方路口左轉(zhuǎn)”
? 接電話時,對面笨拙無感情的“您好,這里是xx信用卡中心”
? 視頻網(wǎng)站上,十個解說視頻九個聲音相同,看到就想趕快劃走的“注意看,這個男人叫小帥”…...
而如今直接顛覆了許多人的刻板印象,語音合成技術(shù)已經(jīng)能做到像上面那段音頻一樣完美自然的效果了。這段音頻的發(fā)布者——火山語音,字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊,又通過兩段音頻更好地向大眾解密里面的技術(shù)亮點。
這幾句輸入的文本完全相同,即 “南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ,但合成的音頻效果卻有明顯差異,即第二段音頻來源于火山語音團隊本次上新的超自然對話語音合成技術(shù)。
回想一下人在日常表達時的狀態(tài),大腦處理信息是需要思考時間的。體現(xiàn)到語言上,人就會不由自主的出現(xiàn)一些猶豫、拖音、倒裝,甚至是說了一半改口、結(jié)巴重復的情況,也會刻意加重讀音強調(diào)想表達的重點信息。這就帶來了大量難以觀測的細微表達。這些現(xiàn)象在傳統(tǒng)的TTS中難以被捕捉還原。而這些細微之處的完美復現(xiàn)正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。
具體來說,火山語音團隊最新發(fā)布的超自然對話語音合成技術(shù)相較傳統(tǒng)TTS更加真實自然,即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節(jié)統(tǒng)統(tǒng)被完美復現(xiàn),而且只需常規(guī)音庫1/4數(shù)據(jù),就可完美還原真人說話細微的韻律特點、發(fā)音口癖,讓合成效果更加真實。有專業(yè)評測結(jié)果顯示,火山語音的這項新技術(shù)與真人錄音對比基本沒有差距,難以被評測者分辨出來。此外這項技術(shù)目前已在視頻配音、電話客服等多個場景投入應用,近日即將上線火山引擎語音技術(shù)官網(wǎng)對外露出。
這么厲害的技術(shù),究竟是怎么辦到的?
據(jù)介紹,上述這些在實際交流中經(jīng)常出現(xiàn)的倒吸氣、吞音、思考時不由自主的拖長字音、低笑等表現(xiàn)被稱為副語言現(xiàn)象(paralanguage),盡管這是人腦思考、表達過程中最真實的表現(xiàn),但由于傳統(tǒng)的語音合成技術(shù)框架無法對分布稀疏的副語言現(xiàn)象進行有效建模,所以在說話時的韻律還原度表現(xiàn)有限、過于“正確”。
基于上述難點,火山語音超自然語音合成技術(shù)分別從文本和語音建模兩個層面進行突破,具體來說:
? 在文本層面,火山語音采用了生成式的風格遷移模型,模仿真人說話的方式對文本進行可控的口語化轉(zhuǎn)寫,讓文本更好地擁抱口語化,避免最終效果太過書面。
? 在語音層面,團隊則是通過文本分析模型的突破,在TTS的輸入側(cè)額外增加了副語言預測,模仿真人的發(fā)音特點來實現(xiàn)自然自發(fā)的語音效果。
值得一提的是,團隊通過使用無監(jiān)督特征的TTS建模方案,有效提高了模型的穩(wěn)定性與表現(xiàn)力,僅僅使用常規(guī)音庫1/4的數(shù)據(jù)規(guī)模,就可以實現(xiàn)十分自然多變的韻律效果,很贊吧?
致力文本口語化 讓“擬真人表達”躍然紙上
文本作為語音合成技術(shù)的輸入,其風格是否貼近真人的表達方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語習慣,大多數(shù)合成前的文本并不夠自然,或者需要投入大量精力不斷調(diào)整,費時費力。為了解決此類問題,火山語音團隊采用了兩階段方案并取得了不錯的效果:
? 階段一:采用自監(jiān)督方法,使用偽數(shù)據(jù)對口語化模型進行預訓練,降低了數(shù)據(jù)量的需求;同時在模型中引入了指針網(wǎng)絡結(jié)構(gòu),增強了文本可控性。
? 階段二:利用少量優(yōu)質(zhì)的人工標注數(shù)據(jù),對預訓練好的口語化模型進行微調(diào),最終實現(xiàn)可控的、自然的口語化文本效果。
原始文本 | 自動化預測后的文本 |
南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料 | 嗯,南方菜系的話,超級偏愛用蘸料啊什么的,就比如說我第一次呃,第一次去上海的時候,才知道這個燒烤里的蔬菜也得配著蘸料 |
像我們上街去買白菜,南方人說我要半顆白菜,北方人說我來半車白菜 | 嗯這跟我們上街買白菜差不多吧,南方人說我要半棵白菜,然后那個北方人說我來半車 |
其實南方菜系更偏重吃調(diào)料的味道,即廚師用調(diào)料去發(fā)揮他的功力 | 對,其實南方菜系更偏重的是吃它這個調(diào)料的味道,也就是說,廚師這個,用調(diào)料去發(fā)揮他的功力 |
副語言建模+韻律多樣性可圈可點 語音真實感全面升級
為了更好地還原真人,區(qū)別于傳統(tǒng)的語音合成技術(shù),火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面,團隊推出的合成技術(shù)實現(xiàn)了聲學模型對自然表達中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語言現(xiàn)象建模,并且結(jié)合文本的語義信息自動插入副語言現(xiàn)象。在插入過程中同時考慮合理性與隨機性,表現(xiàn)更加自然真實。
文本 | 超自然 |
我覺得這樣<吸氣>其實對身體特別好。 | 音頻C.wav |
你看像我們現(xiàn)在這個工作,早上<延長>基本上就不怎么吃早餐了。 | 音頻D.wav |
像我們早上基本上<卡頓>就是豆?jié){油條包子。 | 音頻E.wav |
他肯定是<口誤修正>,很想吃肉。 | ParalangTest_is_000008_npy_01_new2的副本.wav |
“在韻律多樣化的探究中,我們結(jié)合無監(jiān)督表征學習技術(shù),自主研發(fā)了高表現(xiàn)力的聲學模型框架,通過發(fā)音、韻律、音色解耦等方式,不但降低了數(shù)據(jù)量的需求,實現(xiàn)對出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模;同時使用無監(jiān)督表征特征并結(jié)合音素級別的基頻、能量信息等,實現(xiàn)了韻律的自然多變,促成高質(zhì)量對話語音生成?!被鹕秸Z音團隊總結(jié)道。
火山語音,字節(jié)跳動AI Lab Speech&Audio智能語音與音頻團隊,長期以來面向抖音、剪映、番茄小說、飛書等業(yè)務提供領(lǐng)先的AI語音技術(shù)能力及全棧語音產(chǎn)品解決方案,并通過火山引擎向外部企業(yè)開放技術(shù)服務。