自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="ex6va"></p>

<sup id="ex6va"></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌開源AI能區(qū)分聲音準確率達92%

作者：佚名 2018-11-14 10:01:30

新聞人工智能 CIOAge

據(jù) VentureBeat 報道，Google 人工智能研究部門在語音識別方面取得了新的進展，能從嘈雜的環(huán)境中分辨聲音，準確率高達 92%。

據(jù) VentureBeat 報道，Google 人工智能研究部門在語音識別方面取得了新的進展，能從嘈雜的環(huán)境中分辨聲音，準確率高達 92%。Google 人工智能研究部門在一篇名為《Fully Super vised Speaker Diarization》的論文中描述了這一新的 AI 系統(tǒng)，稱它“能以一種更有效的方式識別聲音”。

這套強大的 AI 系統(tǒng)涉及到 Speaker diarization 任務(wù)，需要標注出“誰”從“什么時候”到“什么時候”在說話，將語音樣本分割成獨特的、同構(gòu)片段的過程。還能將新的演講者發(fā)音與它以前從未遇到過的語音片段關(guān)聯(lián)起來。

其核心算法已經(jīng)開源可用。它實現(xiàn)了一個在線二值化錯誤率(DER)，在NIST SRE 2000 CALLHOME基準上是7.6%，這對于實時應(yīng)用來說已經(jīng)足夠低了，而谷歌之前使用的方法DER為8.8%。

谷歌研究人員的新方法是通過遞歸神經(jīng)網(wǎng)絡(luò)(RNN)模擬演講者的嵌入(如詞匯和短語的數(shù)學(xué)表示），遞歸神經(jīng)網(wǎng)絡(luò)是一種機器學(xué)習(xí)模型，它可以利用內(nèi)部狀態(tài)來處理輸入序列。每個演講者都從自己的RNN實例開始，該實例不斷更新給定新嵌入的RNN狀態(tài)，使系統(tǒng)能夠?qū)W習(xí)發(fā)言者共享的高級知識。

研究人員在論文中寫道:“由于該系統(tǒng)的所有組件都可以在監(jiān)督環(huán)境下學(xué)習(xí)，所以在有高質(zhì)量時間標記演講者標簽訓(xùn)練數(shù)據(jù)的情況下，它比無監(jiān)督系統(tǒng)更受青睞。我們的系統(tǒng)受到全面監(jiān)督，能夠從帶有時間戳的演講者標簽例子中學(xué)習(xí)。”

在未來的工作中，研究團隊計劃改進模型，使其能夠集成上下文信息來執(zhí)行脫機解碼，他們希望這將進一步減少DER。研究人員還希望能夠直接對聲學(xué)特征進行建模，這樣整個Speaker diarization系統(tǒng)就可以進行端到端訓(xùn)練。

責(zé)任編輯：張燕妮來源：網(wǎng)易科技

谷歌開源機器學(xué)習(xí)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<bdo id="fs9s0"><ruby id="fs9s0"></ruby></bdo>

<cite id="fs9s0"></cite>

<ruby id="fs9s0"></ruby>