自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

IBM宣稱人類語音識(shí)別詞錯(cuò)率實(shí)際應(yīng)為5.1%

人工智能 語音識(shí)別
去年十月,微軟人工智能與研究部門的一個(gè)研究者和工程師團(tuán)隊(duì)報(bào)告他們的語音識(shí)別系統(tǒng)實(shí)現(xiàn)了和專業(yè)速錄員相當(dāng)甚至更低的詞錯(cuò)率(WER)——達(dá)到了 5.9%。但 IBM 官方博客今日發(fā)文宣稱人類的水平實(shí)際上應(yīng)該是 5.1%。

去年十月,微軟人工智能與研究部門的一個(gè)研究者和工程師團(tuán)隊(duì)報(bào)告他們的語音識(shí)別系統(tǒng)實(shí)現(xiàn)了和專業(yè)速錄員相當(dāng)甚至更低的詞錯(cuò)率(WER)——達(dá)到了 5.9%。但 IBM 官方博客今日發(fā)文宣稱人類的水平實(shí)際上應(yīng)該是 5.1%,而同時(shí)該文章還表示 IBM 的系統(tǒng)的詞錯(cuò)率已經(jīng)超越了之前微軟報(bào)告的***水平,達(dá)到了 5.5%。IBM 宣稱這是一個(gè)全新的突破,但相關(guān)研究論文似乎仍未發(fā)布(我們未能找到),機(jī)器之心將繼續(xù)保持關(guān)注,期待能在***時(shí)間向讀者分享這一成果的技術(shù)細(xì)節(jié)。

以下內(nèi)容編譯自 IBM 博客:

微軟語音識(shí)別實(shí)現(xiàn)歷史性突破:語音轉(zhuǎn)錄達(dá)到專業(yè)速錄員水平

此篇博客日期與標(biāo)題

在交談中,人聽到的每 20 個(gè)詞之中便會(huì)漏聽 1 至 2 個(gè)。5 分鐘的對(duì)話里,我們有可能漏聽 80 個(gè)單詞。但是,這并不妨礙交談。試想一下,這種情況換成計(jì)算機(jī)會(huì)怎樣?

去年,IBM 宣布在會(huì)話語音識(shí)別方面取得重大進(jìn)展,把語音識(shí)別的詞錯(cuò)率降至 6.9%。自此之后,詞錯(cuò)率一降再降,直至今天的 5.5%。

詞錯(cuò)率的測(cè)定來自一個(gè)困難的語音識(shí)別任務(wù):記錄人們之間日常的諸如買車之類的話題交談。這個(gè)被記錄的語料庫稱之為 SWITCHBOARD,20 多年來一直是語音識(shí)別系統(tǒng)的檢測(cè)標(biāo)準(zhǔn)。

IBM 集中擴(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 詞錯(cuò)率的突破。我們結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語言模型。這 3 個(gè)使用的聲學(xué)模型中,前兩個(gè)是 6 層雙向 LSTM,其中一個(gè)具有多特征輸入,另一個(gè)則通過說話者-對(duì)抗多任務(wù)學(xué)習(xí)進(jìn)行訓(xùn)練。第 3 個(gè)模型的獨(dú)特之處在于可以從正負(fù)兩個(gè)樣本中進(jìn)行學(xué)習(xí)。因此 IBM 的系統(tǒng)變得越來越聰明,尤其是在相似語音模式重復(fù)之處,表現(xiàn)更佳。

達(dá)到像人一樣交談的詞錯(cuò)率,長(zhǎng)久以來一直是業(yè)界的最終目標(biāo)。其中一些宣稱實(shí)現(xiàn)了與人持平的 5.9% 的詞錯(cuò)率。作為今天成就的一部分,我們重新確定了人的實(shí)際詞錯(cuò)率為 5.1%,比之前達(dá)到的還要低。

我們的合作者 Appen 提供了語音和搜索技術(shù)服務(wù),幫助我們最終確定了人的真實(shí)詞錯(cuò)率。實(shí)現(xiàn) 5.5% 的詞錯(cuò)率是一個(gè)大突破,但人類實(shí)際詞錯(cuò)率的確定表明我們還沒有達(dá)到最終目標(biāo)。

作為研究努力的一部分,我們聯(lián)合其他業(yè)界專家獲得了他們的語音數(shù)據(jù)。蒙特利爾大學(xué) MILA 實(shí)驗(yàn)室*** Yoshua Bengio 認(rèn)為,要達(dá)到像人一樣,我們?nèi)匀灰冻龈嗯Γ?/p>

「盡管近些年來有這些了不起的進(jìn)展,但要在語音識(shí)別和目標(biāo)識(shí)別等人工智能任務(wù)中實(shí)現(xiàn)人類水平的表現(xiàn)仍然是一項(xiàng)***挑戰(zhàn)性的科學(xué)難題。實(shí)際上,標(biāo)準(zhǔn)基準(zhǔn)并不總是可以體現(xiàn)真實(shí)數(shù)據(jù)的多樣化和復(fù)雜性。比如說,不同的數(shù)據(jù)集可能對(duì)一個(gè)任務(wù)的不同方面有更多或更少的敏感度,而且其結(jié)果嚴(yán)重依賴于人類表現(xiàn)被評(píng)估的方式,比如在語音識(shí)別的案例中使用技能嫻熟的轉(zhuǎn)錄員?!笲engio 說,「IBM 通過將神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)應(yīng)用于聲學(xué)和語言模型,一直在語音識(shí)別上取得顯著進(jìn)展?!?/p>

我們還意識(shí)到要在整個(gè)行業(yè)領(lǐng)域找到一種標(biāo)準(zhǔn)的測(cè)試人類表現(xiàn)的方法比預(yù)想的要復(fù)雜得多。除了 SWITCHBOARD,這個(gè)行業(yè)的另一個(gè)語料庫 CallHome 提供了另一組可供測(cè)試的語言數(shù)據(jù),這個(gè)數(shù)據(jù)集是根據(jù)家庭成員在沒有預(yù)先固定主題上進(jìn)行的更加口語化的對(duì)話而創(chuàng)建的。比起 SWITCHBOARD,來自 CallHome 數(shù)據(jù)的對(duì)話對(duì)機(jī)器而言更難以轉(zhuǎn)錄,這使得在其上的突破更難以實(shí)現(xiàn)。(在這個(gè)語料庫上我們實(shí)現(xiàn)了 10.3% 的詞錯(cuò)率——這是另一個(gè)行業(yè)記錄;但同樣,通過 Appen 的幫助,在同樣情形下的人類的準(zhǔn)確度是 6.8%)。

此外,在 SWITCHBOARD 測(cè)試時(shí),在測(cè)試說話者數(shù)據(jù)中一些同樣的人類聲音也被包含在了用于訓(xùn)練該聲學(xué)和語言模型的訓(xùn)練數(shù)據(jù)集中。因?yàn)?CallHome 沒有這樣的重疊,所以其語音識(shí)別模型沒有接觸到測(cè)試說話者的數(shù)據(jù)。因?yàn)檫@個(gè)原因,就沒有重演(repetition),這會(huì)導(dǎo)致人類表現(xiàn)和機(jī)器表現(xiàn)之間出現(xiàn)更大的差距。隨著我們繼續(xù)努力向人類水平進(jìn)軍,我們?cè)谀軌蚶眠@些重演的深度學(xué)習(xí)技術(shù)上的進(jìn)展在幫助我們最終攻克這些難題上發(fā)揮了***的重要作用。

哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系教授兼主席 Julia Hirschberg 對(duì)一直以來語音識(shí)別上的復(fù)雜挑戰(zhàn)評(píng)論說:

要達(dá)到和人類一樣的識(shí)別語音的能力是一個(gè)持續(xù)性的挑戰(zhàn),因?yàn)槿祟愓Z音,尤其是在自發(fā)性的對(duì)話(spontaneous conversation)中的人類語音,是非常復(fù)雜的。而且我們也很難定義人類的表現(xiàn),因?yàn)槿祟愒诶斫馄渌说恼Z音上的能力會(huì)各有不同。當(dāng)我們將自動(dòng)識(shí)別和人類表現(xiàn)進(jìn)行比較時(shí),需要考慮兩件很重要的事情:在被評(píng)估的同樣的語音上識(shí)別器的表現(xiàn)和人類的表現(xiàn)。因此,IBM 最近在 SWIRCHBOARD 和 CallHome 數(shù)據(jù)上的成就是非常了不起的。而且 IBM 一直以來都在努力想要更好地理解人類理解這兩個(gè)得到廣泛引用的語料庫的能力,這也讓我印象深刻。這項(xiàng)科學(xué)成就在當(dāng)前 ASR 技術(shù)上的表現(xiàn)是很了不起的,也表明我們?nèi)匀挥幸环N讓機(jī)器比肩人類語音理解的方法。

今天的成就是我們?cè)谡Z音技術(shù)上的新里程碑。之前,比如說去年 12 月份,我們?yōu)?Watson 語音轉(zhuǎn)文本服務(wù)增加了語者分類(diarization)功能,這是在區(qū)分對(duì)話中的個(gè)體方面的一項(xiàng)進(jìn)步。這些語音進(jìn)展構(gòu)建于數(shù)十年的研究的基礎(chǔ)之上,而且實(shí)現(xiàn)人類水平的語音識(shí)別是一項(xiàng)復(fù)雜的任務(wù)。我們將繼續(xù)努力創(chuàng)造未來有一天能夠達(dá)到人類所聽、所說和所想的復(fù)雜度的技術(shù)。盡管我們?yōu)槲覀兊倪M(jìn)展而鼓舞,但我們的工作還依賴于未來的研究——而且更重要的是,要致力于實(shí)現(xiàn)可能的***標(biāo)準(zhǔn)的準(zhǔn)確度。

原文:https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2017-10-22 06:05:28

語音識(shí)別深度學(xué)習(xí)ASR

2022-02-15 13:14:37

人工智能神經(jīng)網(wǎng)絡(luò)

2017-08-28 09:16:27

識(shí)別水平人類

2020-10-23 14:14:54

語音識(shí)別ASR錯(cuò)誤率

2018-06-12 07:15:18

阿里巴巴技術(shù)語音識(shí)別

2010-02-05 17:17:08

IBM Power

2020-10-29 15:58:43

阿里AI雙11

2014-05-04 13:39:15

人臉識(shí)別算法

2011-05-31 16:38:47

Android 實(shí)現(xiàn)語音

2016-02-17 10:39:18

語音識(shí)別語音合成語音交互

2022-01-10 23:57:36

人工智能語音識(shí)別技術(shù)

2016-10-21 20:45:55

商用辦公

2009-08-21 15:28:23

C#英文

2016-12-09 13:45:21

RNN大數(shù)據(jù)深度學(xué)習(xí)

2011-02-17 09:50:02

IBM超級(jí)電腦人機(jī)大戰(zhàn)

2021-12-24 10:34:11

鴻蒙HarmonyOS應(yīng)用

2022-12-01 07:03:22

語音識(shí)別人工智能技術(shù)

2011-01-18 11:52:25

Linux語音識(shí)別

2021-05-06 11:13:06

人工智能語音識(shí)別

2021-05-06 11:18:23

人工智能語音識(shí)別
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)