自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

火山語(yǔ)音TTS技術(shù)實(shí)力獲國(guó)檢中心認(rèn)證 MOS評(píng)分高達(dá)4.64

2022-10-26 18:31:15

火山引擎語(yǔ)音合成產(chǎn)品聽感真實(shí)自然、演繹生動(dòng)、風(fēng)格多樣，同時(shí)細(xì)粒度還原了真人韻律，實(shí)現(xiàn)了笑聲等多種副語(yǔ)言現(xiàn)象，給人帶來(lái)沉浸式的聽感體驗(yàn)。

日前，火山引擎語(yǔ)音合成產(chǎn)品獲得國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心（以下簡(jiǎn)稱“AI國(guó)檢中心”）頒發(fā)的語(yǔ)音合成增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書，在語(yǔ)音合成的基本要求以及擴(kuò)展要求上已達(dá)AI國(guó)檢中心的最高等級(jí)標(biāo)準(zhǔn)。本次評(píng)測(cè)從中文普通話、多方言、多語(yǔ)種、混合語(yǔ)種、多音色、個(gè)性化等維度進(jìn)行評(píng)測(cè)，產(chǎn)品的技術(shù)支持團(tuán)隊(duì)-火山語(yǔ)音團(tuán)隊(duì)提供了豐富的音庫(kù)，經(jīng)評(píng)測(cè)其音色MOS評(píng)分最高可達(dá)4.64分，處行業(yè)領(lǐng)先水平。

作為我國(guó)質(zhì)檢系統(tǒng)在人工智能領(lǐng)域的首家、也是唯一的國(guó)家級(jí)語(yǔ)音及圖像產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)機(jī)構(gòu)，AI 國(guó)檢中心一直致力于推動(dòng)智能語(yǔ)音產(chǎn)業(yè)的健康發(fā)展。本次獲得AI國(guó)檢中心的權(quán)威認(rèn)證，也充分表明了火山語(yǔ)音的語(yǔ)音合成技術(shù)能力已達(dá)到行業(yè)領(lǐng)先水平。

感受火山語(yǔ)音合成的效果：??https://lf3-speech.bytetos.com/obj/speech-tts-external/20221025-155948.mp4??

更多音色體驗(yàn)：??https://www.volcengine.com/product/tts??

長(zhǎng)期以來(lái)，火山語(yǔ)音面向字節(jié)跳動(dòng)各大業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場(chǎng)景，提供行業(yè)領(lǐng)先的AI語(yǔ)音技術(shù)能力以及卓越的全棧語(yǔ)音產(chǎn)品解決方案。目前團(tuán)隊(duì)的語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言，涵蓋音視頻、有聲閱讀、語(yǔ)音交互、游戲、廣告等多種應(yīng)用場(chǎng)景，為抖音、剪映、飛書、番茄小說、Pico等核心業(yè)務(wù)提供了領(lǐng)先的語(yǔ)音能力。

據(jù)了解，本次參評(píng)的火山引擎語(yǔ)音合成產(chǎn)品為火山語(yǔ)音團(tuán)隊(duì)自主研發(fā)，使用了業(yè)內(nèi)領(lǐng)先的生成式神經(jīng)網(wǎng)絡(luò)技術(shù)，主要由前端文本分析、聲學(xué)模型、聲碼器三大模塊構(gòu)成，具體介紹如下：

前端文本分析：主要負(fù)責(zé)可懂度，比如文本正則化（例如將數(shù)字轉(zhuǎn)成年份讀、號(hào)碼讀等）、字音轉(zhuǎn)換（例如中文注音，尤其是解決多音字問題）以及分詞和韻律預(yù)測(cè)等。目前火山語(yǔ)音團(tuán)隊(duì)依托多任務(wù)模型及神經(jīng)網(wǎng)絡(luò)正則化，可做到同時(shí)支持12種主流小語(yǔ)種，效果顯著。
聲學(xué)模型：主要負(fù)責(zé)語(yǔ)言學(xué)特征到聲學(xué)特征的建模。數(shù)據(jù)顯示，火山語(yǔ)音TTS的后端準(zhǔn)確率可達(dá)到99.90%。與此同時(shí)，模型還能支持多情感多風(fēng)格的精細(xì)化控制、不同音色之間的風(fēng)格互相遷移、以及僅用單一語(yǔ)種的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)多語(yǔ)種合成效果。
聲碼器模塊：主要負(fù)責(zé)聲學(xué)特征到音頻信號(hào)的建模。如今火山語(yǔ)音團(tuán)隊(duì)自研了基于對(duì)抗神經(jīng)網(wǎng)絡(luò)建模的聲碼器，其準(zhǔn)確率可達(dá)99.95%，依托于輕量化的模型設(shè)計(jì)及工程優(yōu)化，云端實(shí)時(shí)率可達(dá)百倍以上。

火山引擎語(yǔ)音合成產(chǎn)品聽感真實(shí)自然、演繹生動(dòng)、風(fēng)格多樣，同時(shí)細(xì)粒度還原了真人韻律，實(shí)現(xiàn)了笑聲等多種副語(yǔ)言現(xiàn)象，給人帶來(lái)沉浸式的聽感體驗(yàn)。近期火山語(yǔ)音團(tuán)隊(duì)發(fā)布的超自然對(duì)話語(yǔ)音合成技術(shù)既是如此，相較傳統(tǒng)TTS將語(yǔ)氣詞、吸氣聲、猶豫時(shí)的停頓以及字音拖長(zhǎng)等細(xì)節(jié)統(tǒng)統(tǒng)完美復(fù)現(xiàn)，而且只需常規(guī)音庫(kù)1/4數(shù)據(jù)。此外之前風(fēng)靡網(wǎng)絡(luò)的“音色復(fù)刻技術(shù)”，也出自火山語(yǔ)音團(tuán)隊(duì)之手。 不同于傳統(tǒng)語(yǔ)音合成技術(shù)對(duì)于數(shù)據(jù)的高門檻要求，火山語(yǔ)音音色復(fù)刻技術(shù)對(duì)數(shù)據(jù)量的需求僅為傳統(tǒng)方法的0.3%，普通人在相對(duì)安靜的開放環(huán)境錄制2分鐘以上即可達(dá)到音色空間建模的標(biāo)準(zhǔn)，生成專屬音色的AI模型，便捷又高效。

目前火山語(yǔ)音將打磨多年的語(yǔ)音技術(shù)能力面向市場(chǎng)并通過火山引擎開放給外部企業(yè)，已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場(chǎng)景，并助力如合眾汽車、追書神器等多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI 語(yǔ)音能力的應(yīng)用與拓展，未來(lái)火山語(yǔ)音將不斷探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合，持續(xù)為用戶體驗(yàn)和業(yè)務(wù)增長(zhǎng)注入創(chuàng)新勢(shì)能，以實(shí)現(xiàn)更大價(jià)值。

責(zé)任編輯：張燕妮

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="og5rk"><rp id="og5rk"><pre id="og5rk"></pre></rp></cite>