自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="z0oqr"><table id="z0oqr"></table></bdo>

<cite id="z0oqr"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

深度學(xué)習(xí)也解決不掉語(yǔ)音識(shí)別問(wèn)題

作者：Awni Hannun 2017-12-05 15:32:44

人工智能深度學(xué)習(xí) 語(yǔ)音識(shí)別

自從深度學(xué)習(xí)被引入語(yǔ)音識(shí)別后，誤字率迅速下降。不過(guò)，雖然你可能讀到過(guò)一些相關(guān)文章，但其實(shí)語(yǔ)言識(shí)別仍然還沒(méi)有達(dá)到人類水準(zhǔn)。語(yǔ)音識(shí)別已經(jīng)有了很多失敗的模式。而要將 ASR（自動(dòng)語(yǔ)音識(shí)別）從僅在大部分時(shí)間適用于一部分人發(fā)展到在任何時(shí)候適用于任何人，唯一的方法就是承認(rèn)這些失敗并采取措施解決它們。

自從深度學(xué)習(xí)被引入語(yǔ)音識(shí)別后，誤字率迅速下降。不過(guò)，雖然你可能讀到過(guò)一些相關(guān)文章，但其實(shí)語(yǔ)言識(shí)別仍然還沒(méi)有達(dá)到人類水準(zhǔn)。語(yǔ)音識(shí)別已經(jīng)有了很多失敗的模式。而要將 ASR（自動(dòng)語(yǔ)音識(shí)別）從僅在大部分時(shí)間適用于一部分人發(fā)展到在任何時(shí)候適用于任何人，唯一的方法就是承認(rèn)這些失敗并采取措施解決它們。

在交換臺(tái)通話（Switchboard conversational）語(yǔ)音識(shí)別標(biāo)準(zhǔn)測(cè)試中誤字率方面的進(jìn)展。這個(gè)數(shù)據(jù)集采集于 2000 年，它由四十個(gè)電話通話組成，這些通話分別屬于隨機(jī)的兩個(gè)以英語(yǔ)為母語(yǔ)的人。

僅僅基于交換臺(tái)通話的結(jié)果就聲稱已經(jīng)達(dá)到人類水準(zhǔn)的語(yǔ)音識(shí)別，就如同在某個(gè)天氣晴朗、沒(méi)有車流的小鎮(zhèn)成功測(cè)試自動(dòng)駕駛就聲稱已經(jīng)達(dá)到人類駕駛水準(zhǔn)一樣。近期語(yǔ)音識(shí)別領(lǐng)域的發(fā)展確實(shí)非常震撼。但是，關(guān)于那些聲稱達(dá)到人類水準(zhǔn)的說(shuō)法就太寬泛了。下面是一些還有待提升的領(lǐng)域。

口音和噪聲

語(yǔ)音識(shí)別中最明顯的一個(gè)缺陷就是對(duì)口音 [1] 和背景噪聲的處理。最直接的原因是大部分的訓(xùn)練數(shù)據(jù)都是高信噪比、美式口音的英語(yǔ)。比如在交換臺(tái)通話的訓(xùn)練和測(cè)試數(shù)據(jù)集中只有母語(yǔ)為英語(yǔ)的通話者（大多數(shù)為美國(guó)人），并且背景噪聲很少。

而僅憑訓(xùn)練數(shù)據(jù)自身是無(wú)法解決這個(gè)問(wèn)題的。在許許多多的語(yǔ)言中又擁有著大量的方言和口音，我們不可能針對(duì)所有的情況收集到足夠的加注數(shù)據(jù)。單是為美式口音英語(yǔ)構(gòu)建一個(gè)高質(zhì)量的語(yǔ)音識(shí)別器就需要 5000 小時(shí)以上的轉(zhuǎn)錄音頻。

人工轉(zhuǎn)錄和百度的 Deep Speech 2 模型在各類語(yǔ)音中的比較 [2] 。注意人工在轉(zhuǎn)錄非美式口音時(shí)總表現(xiàn)得更差，這可能要?dú)w咎于轉(zhuǎn)錄員群體中的美國(guó)偏見。我更期望為各地區(qū)安排本土的轉(zhuǎn)錄員，讓地區(qū)口音的錯(cuò)誤率更低。

關(guān)于背景噪聲，像在移動(dòng)的汽車中信噪比（SRN）低至 -5dB 的情況并不罕見。在這樣的環(huán)境中人們并非難以交流，而另一方面，噪聲環(huán)境中語(yǔ)音識(shí)別能力卻急速下降。上圖中可以看到從高信噪比到低信噪比，人與模型只見的錯(cuò)誤率差距急劇擴(kuò)大。

語(yǔ)義錯(cuò)誤

通常語(yǔ)音識(shí)別系統(tǒng)的實(shí)際目標(biāo)并不是誤字率。我們更關(guān)心的是語(yǔ)義錯(cuò)誤率，就是被誤解的那部分話語(yǔ)。

舉個(gè)語(yǔ)義錯(cuò)誤的例子，比如某人說(shuō)“let’s meet up Tuesday”，但語(yǔ)音識(shí)別預(yù)測(cè)為“let’s meet up today”。我們也可能在單詞錯(cuò)誤的情況下保持語(yǔ)義正確，比如語(yǔ)音識(shí)別器漏掉了“up”而預(yù)測(cè)為“let’s meet Tuesday”，這樣話語(yǔ)的語(yǔ)義是不變的。

在使用誤字率作為指標(biāo)時(shí)必須要小心。舉一個(gè)最壞的例子，5% 的誤字率大概相當(dāng)于每 20 個(gè)單詞漏掉 1 個(gè)。如果每個(gè)語(yǔ)句有 20 個(gè)單詞（大約是英語(yǔ)語(yǔ)句平均值），那么語(yǔ)句錯(cuò)誤率可能高達(dá) 100%。希望錯(cuò)誤的單詞不會(huì)改變句子的語(yǔ)義，否則即便只有 5% 的誤字率也可能會(huì)導(dǎo)致每個(gè)句子都被誤讀。

將模型與人工進(jìn)行比較時(shí)的重點(diǎn)是查找錯(cuò)誤的本質(zhì)，而不僅僅是將誤字率作為一個(gè)決定性的數(shù)字。在我的經(jīng)歷里，人工轉(zhuǎn)錄會(huì)比語(yǔ)音識(shí)別更少產(chǎn)生極端語(yǔ)義錯(cuò)誤。

最近微軟的研究人員將他們的人工級(jí)語(yǔ)音識(shí)別器的錯(cuò)誤與人類進(jìn)行了比較 [3]。他們發(fā)現(xiàn)的一個(gè)差異是該模型比人更頻繁地混淆“uh”和“uh huh”。而這兩條術(shù)語(yǔ)的語(yǔ)義大不相同：“uh”只是個(gè)填充詞，而“uh huh”是一個(gè)反向確認(rèn)。這個(gè)模型和人出現(xiàn)了許多相同類型的錯(cuò)誤。

單通道和多人會(huì)話

由于每個(gè)通話者都由單獨(dú)的麥克風(fēng)進(jìn)行記錄，所以交換臺(tái)通話任務(wù)也變得更加簡(jiǎn)單。在同一個(gè)音頻流里沒(méi)有多個(gè)通話者的重疊。而另一方面，人類卻可以理解有時(shí)同時(shí)發(fā)言的多個(gè)會(huì)話者。

一個(gè)好的會(huì)話語(yǔ)音識(shí)別器必須能夠根據(jù)誰(shuí)在說(shuō)話對(duì)音頻進(jìn)行劃分（Diarisation），還應(yīng)該能弄清重疊的會(huì)話（聲源分離）。它不只在每個(gè)會(huì)話者嘴邊都有麥克風(fēng)的情況下可行，進(jìn)一步才能良好地應(yīng)對(duì)發(fā)生在任何地方的會(huì)話。

領(lǐng)域變化

口音和背景噪聲只是語(yǔ)音識(shí)別有待強(qiáng)化的兩個(gè)方面。這還有一些其他的：

來(lái)自聲環(huán)境變化的混響
硬件造成的偽影
音頻的編解碼器和壓縮偽影
采樣率
會(huì)話者的年齡

大多數(shù)人甚至都不會(huì)注意 mp3 和 wav 文件的區(qū)別。但在聲稱達(dá)到人類水準(zhǔn)的性能之前，語(yǔ)音識(shí)別還需要進(jìn)一步增強(qiáng)對(duì)文件來(lái)源多樣化的處理。

上下文

你會(huì)注意到像交換臺(tái)這樣人類水準(zhǔn)誤字率的基準(zhǔn)實(shí)際上是非常高的。如果你在跟一個(gè)朋友交流時(shí)，他每 20 個(gè)單詞就誤解其中一個(gè)，溝通會(huì)很艱難。

一個(gè)原因在于這樣的評(píng)估是上下文無(wú)關(guān)的。而實(shí)際生活中我們會(huì)使用許多其他的線索來(lái)輔助理解別人在說(shuō)什么。列舉幾個(gè)人類使用上下文而語(yǔ)音識(shí)別器沒(méi)有的情況：

歷史會(huì)話和討論過(guò)的話題
說(shuō)話人的視覺(jué)暗示，包括面部表情和嘴唇動(dòng)作
關(guān)于會(huì)話者的先驗(yàn)知識(shí)

目前，Android 的語(yǔ)音識(shí)別器已經(jīng)掌握了你的聯(lián)系人列表，它能識(shí)別出你朋友的名字 [4]。地圖產(chǎn)品的語(yǔ)音搜索則通過(guò)地理定位縮小你想要導(dǎo)航的興趣點(diǎn)范圍 [5]。

當(dāng)加入這些信號(hào)時(shí)，ASR 系統(tǒng)肯定會(huì)有所提高。不過(guò)，關(guān)于可用的上下文類型以及如何使用它，我們才剛剛觸及皮毛。

部署

在會(huì)話語(yǔ)音方面的最新進(jìn)展都還不能展開部署。如果要解決新語(yǔ)音算法的部署，需要考慮延遲和計(jì)算量這兩個(gè)方面。這兩者之間是有關(guān)聯(lián)的，算法計(jì)算量的增加通常都導(dǎo)致延遲增加。不過(guò)簡(jiǎn)單起見，我將它們分開討論。

延遲：關(guān)于延遲，這里我指的是用戶說(shuō)完到轉(zhuǎn)錄完成的時(shí)間。低延遲是 ASR 中一個(gè)普遍的產(chǎn)品約束，它明顯影響到用戶體驗(yàn)。對(duì)于 ASR 系統(tǒng)來(lái)說(shuō)，10 毫秒的延遲要求并不少見。這聽起來(lái)可能有點(diǎn)極端，但是請(qǐng)記住文字轉(zhuǎn)錄通常只是一系列復(fù)雜計(jì)算的第一步。例如在語(yǔ)音搜索中，實(shí)際的網(wǎng)絡(luò)搜索只能在語(yǔ)音識(shí)別之后進(jìn)行。

一個(gè)關(guān)于延遲方面難以改進(jìn)的例子是雙向循環(huán)層。當(dāng)前所有最先進(jìn)的會(huì)話語(yǔ)音識(shí)別都在使用它。其問(wèn)題在于我們無(wú)法在第一層計(jì)算任何東西，而必須要等到用戶說(shuō)完。所以這里的延遲跟話語(yǔ)時(shí)長(zhǎng)有關(guān)。

上圖：只有一個(gè)前向循環(huán)，可以在轉(zhuǎn)錄時(shí)進(jìn)行計(jì)算。

下圖：在雙向循環(huán)的情況下，必須要等待全部話語(yǔ)說(shuō)完才能計(jì)算轉(zhuǎn)錄。

在語(yǔ)音識(shí)別中如何有效結(jié)合未來(lái)信息仍然是一個(gè)開放問(wèn)題。

計(jì)算：轉(zhuǎn)錄語(yǔ)音所需的計(jì)算能力是一個(gè)經(jīng)濟(jì)約束。我們必須考慮語(yǔ)音識(shí)別器每次精度改進(jìn)的性價(jià)比。如果改進(jìn)達(dá)不到一個(gè)經(jīng)濟(jì)門檻，那它就無(wú)法部署。

一個(gè)從未部署的持續(xù)改進(jìn)的典型案例就是集成。1% 或者 2% 的誤差減少很少值得 2-8 倍的計(jì)算量增長(zhǎng)。新一代 RNN 語(yǔ)言模型也屬于這一類，因?yàn)樗鼈冇迷谑阉鲿r(shí)代價(jià)昂貴，不過(guò)預(yù)計(jì)未來(lái)會(huì)有所改變。

需要說(shuō)明的是，我并不認(rèn)為研究如何在巨大計(jì)算成本上提高精度是無(wú)用的。我們已經(jīng)看到過(guò)“先慢而準(zhǔn)，然后提速”模式的成功。要提的一點(diǎn)是在改進(jìn)到足夠快之前，它還是不可用的。

未來(lái)五年

語(yǔ)音識(shí)別領(lǐng)域仍然存在許多開放性和挑戰(zhàn)性的問(wèn)題：

在新地區(qū)、口音、遠(yuǎn)場(chǎng)和低信噪比語(yǔ)音方面的能力擴(kuò)展
在識(shí)別過(guò)程中引入更多的上下文
Diarisation 和聲源分離
評(píng)價(jià)語(yǔ)音識(shí)別的語(yǔ)義錯(cuò)誤率和創(chuàng)新方法
超低延遲和高效推理

我期待著今后 5 年在以上以及其他方面取得的進(jìn)展。

責(zé)任編輯：龐桂玉來(lái)源： 36大數(shù)據(jù)

深度學(xué)習(xí)語(yǔ)音識(shí)別

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="np41a"><p id="np41a"></p></blockquote>

<blockquote id="np41a"><p id="np41a"></p></blockquote>

<cite id="np41a"></cite>