自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

火山引擎虛擬數(shù)字人平臺(tái)獲得中國信通院首批數(shù)字人系統(tǒng)基礎(chǔ)能力認(rèn)證

新聞 元宇宙
首批數(shù)字人系統(tǒng)基礎(chǔ)能力評(píng)測結(jié)果,火山引擎虛擬數(shù)字人平臺(tái)榜上有名,在技術(shù)、工程化、安全保障等方面均滿足評(píng)測要求。

6月21日,由內(nèi)容科技產(chǎn)業(yè)推進(jìn)方陣、中國信通院云計(jì)算與大數(shù)據(jù)研究所、中國通信標(biāo)準(zhǔn)化協(xié)會(huì)TC602聯(lián)合主辦的“2022內(nèi)容科技成果發(fā)布會(huì)”落地線上。會(huì)上公布了首批數(shù)字人系統(tǒng)基礎(chǔ)能力評(píng)測結(jié)果,火山引擎虛擬數(shù)字人平臺(tái)榜上有名,在技術(shù)、工程化、安全保障等方面均滿足評(píng)測要求。

作為中國信通院為進(jìn)一步推動(dòng)產(chǎn)業(yè)界對(duì)數(shù)字人概念達(dá)成共識(shí),提升其工程化落地能力而啟動(dòng)的首屆評(píng)測,該評(píng)測共計(jì)48個(gè)測試項(xiàng),主要通過“采用人員訪談、系統(tǒng)操作演示和材料審查”相結(jié)合的方法,分別從基礎(chǔ)技術(shù)能力、基礎(chǔ)工程化能力、基礎(chǔ)安全保障能力三大維度、綜合涵蓋語音技術(shù)能力、交互技術(shù)能力、易用可靠性以及形象版權(quán)保障、內(nèi)容風(fēng)險(xiǎn)控制等在內(nèi)的多項(xiàng)指標(biāo)對(duì)參評(píng)數(shù)字人系統(tǒng)進(jìn)行全面評(píng)估。

此次參與評(píng)測的火山引擎虛擬數(shù)字人平臺(tái)屬于火山語音“AI虛擬員工解決方案”的核心產(chǎn)品,方案以人機(jī)交互為核心,涵蓋語音識(shí)別、語義理解、對(duì)話交互、語音合成以及雙工控制等多項(xiàng)業(yè)界領(lǐng)先的核心技術(shù),打造從形象、感知、理解、表達(dá)能力都趨近于真人的數(shù)字員工,為企業(yè)提供高度擬人化的客戶服務(wù)。此次平臺(tái)成功獲得信通院評(píng)測的權(quán)威認(rèn)證,也充分表明火山語音支持下的數(shù)字人技術(shù)能力和產(chǎn)品成熟度獲得了業(yè)界認(rèn)可。

深入了解火山引擎數(shù)字人,從形象類型劃分主要涵蓋2D、3D卡通、3D超寫實(shí),其中2D數(shù)字人是由真人在專業(yè)錄影棚錄制的視頻訓(xùn)練而成,AI驅(qū)動(dòng)效果與真人幾乎無異,適用于嚴(yán)謹(jǐn)專業(yè)的業(yè)務(wù)場景;而3D卡通數(shù)字人則因其卡通化的外形,更能展現(xiàn)生動(dòng)活潑的數(shù)字人個(gè)性,常用在輕松娛樂的場景;3D超寫實(shí)數(shù)字人介于兩者之間,一方面依托于快速突破的3D建模技術(shù),外觀形象高度還原真人發(fā)膚,另一方面又保留了3D空間感和信息載體優(yōu)勢,適用于對(duì)形象空間感、3D特效或XR等信息載體要求較高的創(chuàng)新場景。

火山引擎數(shù)字人形象矩陣

除了形象特征的千差萬別,2D數(shù)字人和3D數(shù)字人的技術(shù)實(shí)現(xiàn)路徑也大有不同。2D數(shù)字人通過行業(yè)領(lǐng)先的非自回歸模型的唇形生成網(wǎng)絡(luò),合成與輸入文本或語音完全匹配的唇形,有效減小誤差累積,準(zhǔn)確率高達(dá)98.55%。“此外還通過頭部姿態(tài)與唇形的解耦實(shí)現(xiàn)頭部姿態(tài)的靈活控制,并借助光流插幀實(shí)現(xiàn)語義相關(guān)的肢體動(dòng)作的自然過渡。讓火山引擎數(shù)字人具備業(yè)內(nèi)領(lǐng)先的自然表現(xiàn)力,目前整體自然度MOS可達(dá)3.8以上?!被鹕秸Z音團(tuán)隊(duì)總結(jié)道。

對(duì)比而言,3D數(shù)字人則通過原畫、建模、綁定、AI訓(xùn)練、渲染等流程制作,自研基于IPA的細(xì)粒度唇形驅(qū)動(dòng)方案來實(shí)現(xiàn)高精度的唇形、表情驅(qū)動(dòng),目前唇形自然度MOS可達(dá)4.0;通過不斷打磨的Pose Matching算法實(shí)現(xiàn)同級(jí)動(dòng)作的自然打斷與切換,靈活的圖層控制策略支持3D渲染結(jié)果的后期處理,整體自然度MOS可達(dá)3.8以上。

從場景適配出發(fā),目前火山引擎數(shù)字人包括“播報(bào)型數(shù)字人”和“交互型數(shù)字人”兩種類型。其中播報(bào)型數(shù)字人,即輸入文本或語音,就可生成自然生動(dòng)的數(shù)字人播報(bào)視頻;交互數(shù)字人作為播報(bào)型數(shù)字人的形態(tài)升級(jí),依托于火山語音長期積累的成熟語音交互技術(shù),讓數(shù)字人“善聽”、“會(huì)說”、“能想”,與用戶面對(duì)面實(shí)時(shí)交互。

具體來說在語音識(shí)別方面,火山語音通過業(yè)內(nèi)領(lǐng)先的端到端語音識(shí)別模型,以及長期深耕金融、汽車、泛互等行業(yè)所積累的數(shù)據(jù)經(jīng)驗(yàn),在數(shù)十個(gè)領(lǐng)域中、真實(shí)場景數(shù)據(jù)反饋下,字準(zhǔn)均可達(dá)到 92% 以上;語音合成方面,憑借行業(yè)優(yōu)勢的端到端交互式合成技術(shù),細(xì)粒度還原真人韻律、笑聲、副語言等,對(duì)象感極強(qiáng),測聽人員已無法分辨出合成的語音與真人錄音。綜合而言,目前交互數(shù)字人集成了全雙工語音交互鏈路,前向兼容語音以及文本輸入,后向兼容2D與3D數(shù)字人表現(xiàn)力,整體端到端交互延遲在500ms左右,性能效果達(dá)到業(yè)內(nèi)領(lǐng)先水平。未來火山引擎數(shù)字人還將集成火山視覺“可看”的能力,實(shí)現(xiàn)數(shù)字人語音交互向多模態(tài)交互的升級(jí)。

多模態(tài)交互數(shù)字人技術(shù)環(huán)路

如今火山語音“AI虛擬數(shù)字員工解決方案”已具備標(biāo)準(zhǔn)平臺(tái)的快速交付能力,面向金融、大消費(fèi)、泛互等行業(yè)為客戶提供涵蓋“金融客服”、“智慧導(dǎo)覽”、“智能助理”、“虛擬直播”等場景細(xì)分解決方案,為用戶帶來全新的互動(dòng)服務(wù)和便捷體驗(yàn)。

火山引擎虛擬數(shù)字人平臺(tái)

在“激發(fā)無限創(chuàng)意,提升業(yè)務(wù)增長”的目標(biāo)驅(qū)動(dòng)下,火山引擎AI基于多年沉淀的人工智能技術(shù),將音視頻、直播、AR等多種內(nèi)容形態(tài)下的創(chuàng)作能力,靈活高效地賦能企業(yè)內(nèi)部工具以及用戶產(chǎn)品中,持續(xù)為用戶體驗(yàn)和業(yè)務(wù)增長注入創(chuàng)新勢能。未來,以此為基,火山語音在持續(xù)提供全球領(lǐng)先的語音AI技術(shù)能力以及卓越的全棧語音產(chǎn)品解決方案的同時(shí),將繼續(xù)深耕AI數(shù)字人技術(shù),不斷探索前沿科技與業(yè)務(wù)場景的高效結(jié)合,以實(shí)現(xiàn)更大的用戶價(jià)值。


責(zé)任編輯:黃顯東
相關(guān)推薦

2021-03-19 09:27:17

中國信息通信研究院

2022-07-18 11:20:58

存儲(chǔ)

2021-04-21 11:36:46

數(shù)字化

2023-01-10 17:36:59

2022-08-17 10:39:44

AI阿里達(dá)摩院文檔智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)