自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="6wrzl"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

語(yǔ)音識(shí)別的下一攀登高峰是“人文境界”?

作者：李佳惠 2017-10-31 10:26:00

自從深度學(xué)習(xí)大熱，廣泛應(yīng)用于語(yǔ)音識(shí)別以來，字幕中的單詞錯(cuò)誤率急劇下降。盡管如此，語(yǔ)音識(shí)別并沒有達(dá)到人文水平，它仍會(huì)出現(xiàn)一些故障。承認(rèn)這些然后采取措施來解決這些問題對(duì)于語(yǔ)音識(shí)別的進(jìn)步至關(guān)重要。這是唯一的從可以識(shí)別一些人的ASR到識(shí)別任何時(shí)間任何人的ASR的方式。

自從深度學(xué)習(xí)大熱，廣泛應(yīng)用于語(yǔ)音識(shí)別以來，字幕中的單詞錯(cuò)誤率急劇下降。盡管如此，語(yǔ)音識(shí)別并沒有達(dá)到人文水平，它仍會(huì)出現(xiàn)一些故障。承認(rèn)這些然后采取措施來解決這些問題對(duì)于語(yǔ)音識(shí)別的進(jìn)步至關(guān)重要。這是唯一的從可以識(shí)別一些人的ASR到識(shí)別任何時(shí)間任何人的ASR的方式。

在近期的Switchboard語(yǔ)音識(shí)別基準(zhǔn)測(cè)試中，單詞的錯(cuò)誤率得到改進(jìn)。Switchboard集其實(shí)是在2000年收集的，它是由兩個(gè)隨機(jī)的以英語(yǔ)為母語(yǔ)的人之間的40個(gè)電話對(duì)話組成。

可以說目前我們已經(jīng)在會(huì)話式語(yǔ)音識(shí)別上達(dá)到“人類”水平，但僅僅只是在Switchboard方面。這個(gè)結(jié)果就像是在一個(gè)陽(yáng)光燦爛的日子里的某城市中，只有一個(gè)人駕駛著自動(dòng)駕駛汽車進(jìn)行測(cè)試。最近在這方面取得的進(jìn)步令人驚訝，但是，關(guān)于達(dá)到“人類”水平的說法還是太過寬泛，以下是一些仍需要改進(jìn)的幾個(gè)方面。

口音和噪音

語(yǔ)音識(shí)別中最明顯的缺陷之一是處理口音和背景噪聲。最直接的原因是，大多數(shù)訓(xùn)練數(shù)據(jù)是由具有高信噪比的美國(guó)口音的英語(yǔ)組成。

但是，更多的訓(xùn)練數(shù)據(jù)可能并不能自行解決這個(gè)問題?，F(xiàn)實(shí)生活中，也有許多方言和口音。因此，用標(biāo)注數(shù)據(jù)去應(yīng)對(duì)所有情況是不可行的。構(gòu)建一個(gè)高質(zhì)量的語(yǔ)音識(shí)別器，轉(zhuǎn)錄了5000多小時(shí)的音頻難道只是為了以英語(yǔ)為母語(yǔ)的人?

將轉(zhuǎn)錄器與百度的深度語(yǔ)音識(shí)別系統(tǒng)Deep Speech 2 比較后發(fā)現(xiàn)在轉(zhuǎn)錄非美國(guó)口音時(shí)情況更糟糕?？赡苁怯捎诿绹?guó)人在轉(zhuǎn)錄時(shí)的偏見。

在背景有噪音的情況下，移動(dòng)汽車的信噪比低至5DB并不罕見。這種環(huán)境下，人們也能夠很好的聽清彼此。另一方面，語(yǔ)音識(shí)別器在噪聲方面的降解速度更快。在上圖中，可以清楚看到人力和模型誤差率之間的差距，從低信噪比急劇上升到高信噪比。

語(yǔ)義錯(cuò)誤

在語(yǔ)音識(shí)別系統(tǒng)中，單詞錯(cuò)誤率通常不是實(shí)際的目標(biāo)，語(yǔ)義錯(cuò)誤率才是我們關(guān)注的重點(diǎn)。因?yàn)?，語(yǔ)義正確與否關(guān)系到對(duì)他人話語(yǔ)的理解程度。

一個(gè)語(yǔ)義錯(cuò)誤的例子是，如果有人說“讓我們?cè)谛瞧诙娒?rdquo;，但是語(yǔ)音識(shí)別器識(shí)別為“我們今天就見面”。這是出現(xiàn)了單詞錯(cuò)誤卻沒有語(yǔ)義錯(cuò)誤，當(dāng)然，情況也可能反過來。

使用錯(cuò)誤率作為代理服務(wù)時(shí)，必須謹(jǐn)慎。先舉一個(gè)最壞的例子來說明原因。一個(gè)5%的回答可能相當(dāng)于每20個(gè)單詞就漏掉一個(gè)。那么，如果一句話只有20 個(gè)單詞的話，那么這句話的錯(cuò)誤率可能就是100%。

當(dāng)將模型與人類進(jìn)行比較時(shí)，檢查錯(cuò)誤的本質(zhì)是非常重要的，而不僅僅是將答案視為一個(gè)確定的數(shù)字。就經(jīng)驗(yàn)來看，人類的轉(zhuǎn)錄要比語(yǔ)音識(shí)別器產(chǎn)生更少的語(yǔ)義錯(cuò)誤。

微軟的研究人員最近比較了人類轉(zhuǎn)錄及其人類語(yǔ)言識(shí)別器所犯的錯(cuò)誤，發(fā)現(xiàn)的一個(gè)差異在于，該模型混淆了“uh”和“uh huh”。這兩個(gè)詞有完全不同的語(yǔ)義。模型和人力都犯了很多相同類型的錯(cuò)誤。

單通道，多個(gè)揚(yáng)聲器

由于每個(gè)揚(yáng)聲器都使用單獨(dú)的麥克風(fēng)進(jìn)行錄音，所以 Switchboard會(huì)話任務(wù)也更容易。同一音頻流中，多個(gè)揚(yáng)聲器沒有重疊。另一方面，人類可以很好的理解多個(gè)揚(yáng)聲器有時(shí)在同一時(shí)間進(jìn)行的通話的內(nèi)容。

一個(gè)好的會(huì)話語(yǔ)音識(shí)別器必須能夠根據(jù)誰(shuí)在說話(diarisation)來分割音頻。它也應(yīng)該能夠使用重疊的揚(yáng)聲器(音源分離)來理解音頻。這是可行的，不需要麥克風(fēng)每一個(gè)揚(yáng)聲器，以便會(huì)話語(yǔ)音可以在任意位置都能工作。

域的變化

口音和背景噪聲是語(yǔ)音識(shí)別器的兩個(gè)重要的因素，這里還有一些：

混響聲音環(huán)境變化
來自硬件的artefacts
用于音頻和壓縮的artefacts
采樣率
說話人的年齡

大多數(shù)人甚至不會(huì)注意到mp3和普通wav文件之間的區(qū)別。在聲明人力性能之前，語(yǔ)音識(shí)別器也需要對(duì)這些變化的來源進(jìn)行強(qiáng)大的支持。

上下文

你會(huì)發(fā)現(xiàn)，像“開關(guān)板”這樣的單詞的錯(cuò)誤率實(shí)際上會(huì)很高，如果你和一個(gè)朋友交談，他們誤解了每20個(gè)字中的1個(gè)，那么你就會(huì)很難溝通。

其中的一個(gè)原因是評(píng)估是在上下文中完成的。在現(xiàn)實(shí)生活中，我們會(huì)使用許多其他線索、結(jié)合語(yǔ)境來幫助我們了解某人在說什么。但語(yǔ)音識(shí)別器不能識(shí)別這些：

對(duì)話的歷史和討論的話題
關(guān)于我們正在說話的人的視覺暗示包括表情和唇部運(yùn)動(dòng)
說話的人的背景

目前，Android的語(yǔ)音識(shí)別器已經(jīng)掌握你的聯(lián)系人列表，因此它可以識(shí)別你的朋友的姓名。地圖產(chǎn)品中的語(yǔ)音搜索可以使用地理定位來縮小你可能想要瀏覽的感興趣的地點(diǎn)。當(dāng)使用這種類型的信號(hào)時(shí)，ASR系統(tǒng)的精度肯定會(huì)提高。

部署

當(dāng)要部署一個(gè)新的算法的時(shí)候，可以考慮延遲和算法，因?yàn)樵黾佑?jì)算的算法往往會(huì)增加延遲，但為了簡(jiǎn)單起見，接下來將分別討論。

延遲：完成轉(zhuǎn)錄之后，低延遲是十分常見的，它會(huì)顯著影響用戶的體驗(yàn)。因此，幾十毫秒內(nèi)的延遲要求對(duì)于ASR系統(tǒng)來說并不少見。雖然這可能聽起來會(huì)有些極端，但這通常是一系列昂貴計(jì)算的***步，所以，必須謹(jǐn)慎。

將未來信息有效地納入語(yǔ)音識(shí)別的好方法到目前為止仍然是一個(gè)開放的問題，有待討論。

計(jì)算：記錄話語(yǔ)所需的計(jì)算能力是一種經(jīng)濟(jì)約束。我們必須考慮到對(duì)語(yǔ)音識(shí)別器的每一個(gè)精度的改進(jìn)。如果改進(jìn)不符合經(jīng)濟(jì)閾值，則無(wú)法部署。

一個(gè)從未被部署的持續(xù)改進(jìn)的經(jīng)典例子是集成。1%或2%的誤差降低可能會(huì)達(dá)到2-8倍的計(jì)算增長(zhǎng)，現(xiàn)代的RNN語(yǔ)言模型通常也屬于這一類。

實(shí)際上，并不建議在很大的計(jì)算成本上提高準(zhǔn)確性，已經(jīng)有“先慢但準(zhǔn)確，然后加速”的工作模式。但關(guān)鍵在于，直到改進(jìn)足夠快，它仍是不可用的。

未來五年

語(yǔ)音識(shí)別中還存在許多開放性和挑戰(zhàn)性的問題。這些包括：

·擴(kuò)大新領(lǐng)域，口音和遠(yuǎn)場(chǎng)，低信噪比

·將更多的上下文融入識(shí)別過程

·Diarisation和源分離

·超低延遲和高效推理

期待在今后的五年在這些方面都能取得進(jìn)展

責(zé)任編輯：武曉燕來源： IT168網(wǎng)站

語(yǔ)音識(shí)別深度學(xué)習(xí)ASR

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="vspdj"></style>

<legend id="vspdj"><track id="vspdj"><dfn id="vspdj"></dfn></track></legend>

<cite id="vspdj"><rp id="vspdj"></rp></cite>