火山語(yǔ)音TTS技術(shù)實(shí)力獲國(guó)檢中心認(rèn)證 MOS評(píng)分高達(dá)4.64
日前,火山引擎語(yǔ)音合成產(chǎn)品獲得國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心(以下簡(jiǎn)稱“AI國(guó)檢中心”)頒發(fā)的語(yǔ)音合成增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書,在語(yǔ)音合成的基本要求以及擴(kuò)展要求上已達(dá)AI國(guó)檢中心的最高等級(jí)標(biāo)準(zhǔn)。本次評(píng)測(cè)從中文普通話、多方言、多語(yǔ)種、混合語(yǔ)種、多音色、個(gè)性化等維度進(jìn)行評(píng)測(cè),產(chǎn)品的技術(shù)支持團(tuán)隊(duì)-火山語(yǔ)音團(tuán)隊(duì)提供了豐富的音庫(kù),經(jīng)評(píng)測(cè)其音色MOS評(píng)分最高可達(dá)4.64分,處行業(yè)領(lǐng)先水平。
作為我國(guó)質(zhì)檢系統(tǒng)在人工智能領(lǐng)域的首家、也是唯一的國(guó)家級(jí)語(yǔ)音及圖像產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)機(jī)構(gòu),AI 國(guó)檢中心一直致力于推動(dòng)智能語(yǔ)音產(chǎn)業(yè)的健康發(fā)展。本次獲得AI國(guó)檢中心的權(quán)威認(rèn)證,也充分表明了火山語(yǔ)音的語(yǔ)音合成技術(shù)能力已達(dá)到行業(yè)領(lǐng)先水平。
感受火山語(yǔ)音合成的效果:??https://lf3-speech.bytetos.com/obj/speech-tts-external/20221025-155948.mp4??
更多音色體驗(yàn):??https://www.volcengine.com/product/tts??
長(zhǎng)期以來(lái),火山語(yǔ)音面向字節(jié)跳動(dòng)各大業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場(chǎng)景,提供行業(yè)領(lǐng)先的AI語(yǔ)音技術(shù)能力以及卓越的全棧語(yǔ)音產(chǎn)品解決方案。目前團(tuán)隊(duì)的語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言,涵蓋音視頻、有聲閱讀、語(yǔ)音交互、游戲、廣告等多種應(yīng)用場(chǎng)景,為抖音、剪映、飛書、番茄小說、Pico等核心業(yè)務(wù)提供了領(lǐng)先的語(yǔ)音能力。
據(jù)了解,本次參評(píng)的火山引擎語(yǔ)音合成產(chǎn)品為火山語(yǔ)音團(tuán)隊(duì)自主研發(fā),使用了業(yè)內(nèi)領(lǐng)先的生成式神經(jīng)網(wǎng)絡(luò)技術(shù),主要由前端文本分析、聲學(xué)模型、聲碼器三大模塊構(gòu)成,具體介紹如下:
- 前端文本分析:主要負(fù)責(zé)可懂度,比如文本正則化(例如將數(shù)字轉(zhuǎn)成年份讀、號(hào)碼讀等)、字音轉(zhuǎn)換(例如中文注音,尤其是解決多音字問題)以及分詞和韻律預(yù)測(cè)等。目前火山語(yǔ)音團(tuán)隊(duì)依托多任務(wù)模型及神經(jīng)網(wǎng)絡(luò)正則化,可做到同時(shí)支持12種主流小語(yǔ)種,效果顯著。
- 聲學(xué)模型:主要負(fù)責(zé)語(yǔ)言學(xué)特征到聲學(xué)特征的建模。數(shù)據(jù)顯示,火山語(yǔ)音TTS的后端準(zhǔn)確率可達(dá)到99.90%。與此同時(shí),模型還能支持多情感多風(fēng)格的精細(xì)化控制、不同音色之間的風(fēng)格互相遷移、以及僅用單一語(yǔ)種的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)多語(yǔ)種合成效果。
- 聲碼器模塊:主要負(fù)責(zé)聲學(xué)特征到音頻信號(hào)的建模。如今火山語(yǔ)音團(tuán)隊(duì)自研了基于對(duì)抗神經(jīng)網(wǎng)絡(luò)建模的聲碼器,其準(zhǔn)確率可達(dá)99.95%,依托于輕量化的模型設(shè)計(jì)及工程優(yōu)化,云端實(shí)時(shí)率可達(dá)百倍以上。
火山引擎語(yǔ)音合成產(chǎn)品聽感真實(shí)自然、演繹生動(dòng)、風(fēng)格多樣,同時(shí)細(xì)粒度還原了真人韻律,實(shí)現(xiàn)了笑聲等多種副語(yǔ)言現(xiàn)象,給人帶來(lái)沉浸式的聽感體驗(yàn)。近期火山語(yǔ)音團(tuán)隊(duì)發(fā)布的超自然對(duì)話語(yǔ)音合成技術(shù)既是如此,相較傳統(tǒng)TTS將語(yǔ)氣詞、吸氣聲、猶豫時(shí)的停頓以及字音拖長(zhǎng)等細(xì)節(jié)統(tǒng)統(tǒng)完美復(fù)現(xiàn),而且只需常規(guī)音庫(kù)1/4數(shù)據(jù)。 此外之前風(fēng)靡網(wǎng)絡(luò)的“音色復(fù)刻技術(shù)”,也出自火山語(yǔ)音團(tuán)隊(duì)之手。 不同于傳統(tǒng)語(yǔ)音合成技術(shù)對(duì)于數(shù)據(jù)的高門檻要求,火山語(yǔ)音音色復(fù)刻技術(shù)對(duì)數(shù)據(jù)量的需求僅為傳統(tǒng)方法的0.3%,普通人在相對(duì)安靜的開放環(huán)境錄制2分鐘以上即可達(dá)到音色空間建模的標(biāo)準(zhǔn),生成專屬音色的AI模型,便捷又高效。
目前火山語(yǔ)音將打磨多年的語(yǔ)音技術(shù)能力面向市場(chǎng)并通過火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場(chǎng)景,并助力如合眾汽車、追書神器等多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI 語(yǔ)音能力的應(yīng)用與拓展,未來(lái)火山語(yǔ)音將不斷探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合,持續(xù)為用戶體驗(yàn)和業(yè)務(wù)增長(zhǎng)注入創(chuàng)新勢(shì)能,以實(shí)現(xiàn)更大價(jià)值。