從技術(shù)角度出發(fā) 回顧2016年語(yǔ)音識(shí)別的發(fā)展
得益于深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,語(yǔ)音識(shí)別在2016年取得了一系列突破性的進(jìn)展,在產(chǎn)品應(yīng)用上也越來(lái)越成熟。作為語(yǔ)音交互領(lǐng)域中極其重要的一環(huán),語(yǔ)音識(shí)別一直是科技巨頭研究的重點(diǎn),國(guó)內(nèi)外也涌現(xiàn)出了一批優(yōu)秀的創(chuàng)業(yè)公司。
今年年初,機(jī)器之心發(fā)布來(lái)自ACM中文版的文章《深度 | 四十年的難題與榮耀——從歷史視角看語(yǔ)音識(shí)別發(fā)展》,文中微軟首席語(yǔ)音科學(xué)家黃學(xué)東為我們深入解讀了語(yǔ)音識(shí)別的歷史以及發(fā)展難題。
長(zhǎng)久以來(lái),人與機(jī)器交談一直是人機(jī)交互領(lǐng)域內(nèi)的一個(gè)夢(mèng)想。語(yǔ)音識(shí)別做為很基礎(chǔ)的技術(shù)在這一年中再次有了更大的發(fā)展。
一年中,機(jī)器之心拜訪(fǎng)過(guò)科大訊飛,接觸過(guò)云知聲、思必馳等創(chuàng)業(yè)公司,在微軟的英語(yǔ)語(yǔ)音識(shí)別取得突破后更是深度專(zhuān)訪(fǎng)了微軟的黃學(xué)東、俞棟,不久之前的百度語(yǔ)音開(kāi)發(fā)平臺(tái)三周年的主題活動(dòng)上我們也向百度首席科學(xué)家吳恩達(dá)了解過(guò)百度的語(yǔ)音識(shí)別發(fā)展。我們希望從機(jī)器之心文章中梳理出的線(xiàn)索,能為接下來(lái)語(yǔ)音識(shí)別的發(fā)展提供一絲洞見(jiàn)。
在這篇文章中,我們會(huì)依次梳理2016年機(jī)器之心關(guān)注到的語(yǔ)音識(shí)別領(lǐng)域的突破性研究、未來(lái)待解決的難題、語(yǔ)音識(shí)別發(fā)展歷史中較為重要的時(shí)間點(diǎn)。
一、2016 年語(yǔ)音識(shí)別有哪些突破?
這一部分盤(pán)點(diǎn)了 2016 年機(jī)器之心所關(guān)注到的在語(yǔ)音識(shí)別準(zhǔn)確率上取得的突破,主要涉及的公司包括百度、IBM 和微軟等。根據(jù)這些突破,我們梳理出了一條語(yǔ)音識(shí)別技術(shù)發(fā)展的線(xiàn)路。
1. 百度 Deep Speech 2 的短語(yǔ)識(shí)別的詞錯(cuò)率降到了 3.7%
發(fā)生時(shí)間:2016 年 2 月
Deep Speech 2 于 2015 年 12 月首次發(fā)布時(shí),首席科學(xué)家吳恩達(dá)表示其識(shí)別的精度已經(jīng)超越了 Google Speech API、wit.ai、微軟的 Bing Speech 和蘋(píng)果的 Dictation 至少 10 個(gè)百分點(diǎn)。到今年 2 月份時(shí),Deep Speech 2 的短語(yǔ)識(shí)別的詞錯(cuò)率已經(jīng)降到了 3.7%
不久之前,百度又將 Deep CNN 應(yīng)用于語(yǔ)音識(shí)別研究,使用了 VGGNet,以及包含 Residual 連接的深層 CNN 等結(jié)構(gòu),并將 LSTM 和 CTC 的端對(duì)端語(yǔ)音識(shí)別技術(shù)相結(jié)合,使得識(shí)別錯(cuò)誤率相對(duì)下降了 10%(原錯(cuò)誤率的 90%)以上。
據(jù)百度語(yǔ)音技術(shù)部識(shí)別技術(shù)負(fù)責(zé)人、Deep Speech 中文研發(fā)負(fù)責(zé)人李先剛博士介紹說(shuō),百度正在努力推進(jìn) Deep Speech 3,這項(xiàng)研究不排除將會(huì)是 Deep Speech 3 的核心組成部分。
技術(shù)提升基礎(chǔ):1. 端到端深度學(xué)習(xí)方法;2. 深層卷積神經(jīng)網(wǎng)絡(luò)技術(shù)(Deep CNN)應(yīng)用于語(yǔ)音識(shí)別聲學(xué)建模中,與基于長(zhǎng)短時(shí)記憶單元(LSTM)和連接時(shí)序分類(lèi)(CTC)的端對(duì)端語(yǔ)音識(shí)別技術(shù)相結(jié)合。
2.IBM Watson 會(huì)話(huà)詞錯(cuò)率低至 6.9%
發(fā)生時(shí)間:2016 年 5 月
2015 年,IBM Watson 公布了英語(yǔ)會(huì)話(huà)語(yǔ)音識(shí)別領(lǐng)域的一個(gè)重大里程碑:系統(tǒng)在非常流行的評(píng)測(cè)基準(zhǔn) Switchboard 數(shù)據(jù)庫(kù)中取得了 8% 的詞錯(cuò)率(WER)。到了今年 5 月份,IBM Watson 團(tuán)隊(duì)再次宣布在同樣的任務(wù)中他們的系統(tǒng)創(chuàng)造了 6.9% 的詞錯(cuò)率新紀(jì)錄。
技術(shù)提升基礎(chǔ):聲學(xué)和語(yǔ)言建模兩方面技術(shù)的提高
3. 微軟新系統(tǒng)英語(yǔ)語(yǔ)音識(shí)別詞錯(cuò)率低至 6.3%
發(fā)生時(shí)間:2016 年 9 月
在產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語(yǔ)音識(shí)別任務(wù)上,微軟研究者取得了產(chǎn)業(yè)中最低的 6.3% 的詞錯(cuò)率(WER)。
技術(shù)提升基礎(chǔ):基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)和語(yǔ)言模型的發(fā)展,數(shù)個(gè)聲學(xué)模型的結(jié)合,把 ResNet 用到語(yǔ)音識(shí)別。
4. 微軟英語(yǔ)語(yǔ)音識(shí)別詞錯(cuò)率達(dá)到了 5.9%,媲美人類(lèi)
發(fā)生時(shí)間:2016 年 10 月
微軟人工智能與研究部門(mén)的團(tuán)隊(duì)報(bào)告出他們的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了和專(zhuān)業(yè)速錄員相當(dāng)甚至更低的詞錯(cuò)率(WER),達(dá)到了 5.9%。5.9% 的詞錯(cuò)率已經(jīng)等同于人速記同樣一段對(duì)話(huà)的水平,而且這是目前行業(yè)標(biāo)準(zhǔn) Switchboard 語(yǔ)音識(shí)別任務(wù)中的最低記錄。這個(gè)里程碑意味著,一臺(tái)計(jì)算機(jī)在識(shí)別對(duì)話(huà)中的詞上第一次能和人類(lèi)做得一樣好。
技術(shù)提升基礎(chǔ):系統(tǒng)性地使用了卷積和 LSTM 神經(jīng)網(wǎng)絡(luò),并結(jié)合了一個(gè)全新的空間平滑方法(spatial smoothing method)和 lattice-free MMI 聲學(xué)訓(xùn)練。
雖然在準(zhǔn)確率的突破上都給出了數(shù)字基準(zhǔn),但百度與微軟、IBM(switchboard 上測(cè)試)有較大的不同。微軟的研究更加學(xué)術(shù),是在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)——口語(yǔ)數(shù)據(jù)庫(kù) switchboard 上面完成的,這個(gè)數(shù)據(jù)庫(kù)只有 2000 小時(shí)。
微軟研究院的研究關(guān)注點(diǎn)是基于 switchboard 數(shù)據(jù)庫(kù),語(yǔ)音識(shí)別最終能做到什么樣的性能。而據(jù)百度語(yǔ)音識(shí)別技術(shù)負(fù)責(zé)人李先剛介紹,他們的關(guān)注點(diǎn)是語(yǔ)音技術(shù)能夠深入到大家的日常應(yīng)用中,他們用的數(shù)據(jù)長(zhǎng)達(dá)數(shù)萬(wàn)小時(shí)。
黃學(xué)東在之前接受機(jī)器之心專(zhuān)訪(fǎng)時(shí)也表示他們的這個(gè)語(yǔ)音識(shí)別系統(tǒng)里面沒(méi)有 bug,因?yàn)橐跇?biāo)準(zhǔn)數(shù)據(jù)上做到這樣的水平,實(shí)際上體現(xiàn)了工程的完美。
就各項(xiàng)突破的技術(shù)提升基礎(chǔ),我們可以很明晰的梳理出一條線(xiàn):
1. 之前 LSTM 這樣的模型開(kāi)始成功應(yīng)用于語(yǔ)音識(shí)別,今年的后續(xù)研究不斷提升 LSTM 的模型效果。
2. 另外一個(gè)比較大的進(jìn)展是 Deep CNN。Deep CNN 比起雙向 LSTM(雙向效果比較好)有一個(gè)好處——時(shí)延。所以在實(shí)時(shí)系統(tǒng)里會(huì)更傾向于用 Deep CNN 而不是雙向 LSTM。
3. 端到端學(xué)習(xí),這也是百度首席科學(xué)家吳恩達(dá)在 NIPS 2016 上重點(diǎn)提到的。比如語(yǔ)音識(shí)別,輸入的是語(yǔ)音,輸出的是文本,這是比較純粹的端對(duì)端學(xué)習(xí)。但是它也有缺點(diǎn)——需要足夠大的訓(xùn)練集。
圖:吳恩達(dá) NIPS 2016 ppt
這方面現(xiàn)在的研究工作主要集中在兩類(lèi)模型上。一類(lèi)就是 CTC 模型,包括 Johns Hopkins 大學(xué)的 Dan Povey 博士從 CTC 發(fā)展出來(lái)的 lattice-free MMI;還有一類(lèi)是基于注意的序列到序列模型。今天它們的表現(xiàn)也還是比混合模型遜色,訓(xùn)練的穩(wěn)定性也更差,但是這些模型有比較大的潛力(參考機(jī)器之心對(duì)俞棟老師的專(zhuān)訪(fǎng))。
國(guó)內(nèi)還有其他幾家做語(yǔ)音識(shí)別的公司,這里對(duì)科大訊飛、搜狗、云知聲的語(yǔ)音識(shí)別系統(tǒng)做個(gè)簡(jiǎn)單介紹。
去年年底,科大訊飛提出了以前饋型序列記憶網(wǎng)絡(luò)(FSMN, Feed-forward Sequential Memory Network)為代表的新一代語(yǔ)音識(shí)別系統(tǒng)。
今年,科大訊飛又推出了全新的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network, DFCNN)語(yǔ)音識(shí)別框架,使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,更好的表達(dá)了語(yǔ)音的長(zhǎng)時(shí)相關(guān)性。據(jù)介紹,該框架的表現(xiàn)比學(xué)術(shù)界和工業(yè)界最好的雙向 RNN 語(yǔ)音識(shí)別系統(tǒng)識(shí)別率提升了 15% 以上。其結(jié)構(gòu)圖如下:
科大訊飛 DFCNN 的結(jié)構(gòu)圖
同時(shí),我也附上搜狗、云知聲提供的各自的語(yǔ)音識(shí)別系統(tǒng)的流程,以供大家學(xué)習(xí)、比較、參考:
語(yǔ)音識(shí)別系統(tǒng)流程:語(yǔ)音信號(hào)經(jīng)過(guò)前端信號(hào)處理、端點(diǎn)檢測(cè)等處理后,逐幀提取語(yǔ)音特征,傳統(tǒng)的特征類(lèi)型包括 MFCC、PLP、FBANK 等特征,提取好的特征送至解碼器,在聲學(xué)模型、語(yǔ)言模型以及發(fā)音詞典的共同指導(dǎo)下,找到最為匹配的詞序列作為識(shí)別結(jié)果輸出。
搜狗 CNN 語(yǔ)音識(shí)別系統(tǒng)建模流程
云知聲語(yǔ)音識(shí)別系統(tǒng)
二、難題與前沿方向
在語(yǔ)音識(shí)別高速發(fā)展的一年,我們?cè)鴮?zhuān)訪(fǎng)過(guò)黃學(xué)東、俞棟等多位領(lǐng)域內(nèi)的專(zhuān)家,不可避免的探討了未來(lái)語(yǔ)音識(shí)別領(lǐng)域所面臨的方向、挑戰(zhàn)、抑或是難題?,F(xiàn)如今整理如下,希望能對(duì)大家接下來(lái)的語(yǔ)音識(shí)別研究有所幫助:
1. 語(yǔ)義理解
黃學(xué)東認(rèn)為,要做好語(yǔ)音識(shí)別需要更好的語(yǔ)義理解,二者相輔相成?!溉说聂敯粜苑浅:茫粋€(gè)新的課題過(guò)來(lái),他可以通過(guò)會(huì)話(huà)的方式跟你溝通,也能得到很好的結(jié)果。而機(jī)器對(duì)噪音的抗噪性不夠強(qiáng),對(duì)新的課題會(huì)話(huà)溝通能力比較差。最重要的一點(diǎn)是,語(yǔ)音識(shí)別并沒(méi)有理解你的語(yǔ)義。理解語(yǔ)義是人工智能下一個(gè)需要攻克的難題,這也是我們團(tuán)隊(duì)花很多時(shí)間和精力正在做的事情?!?/p>
2. 值得關(guān)注的四大方向
在之前機(jī)器之心對(duì)俞棟的專(zhuān)訪(fǎng)中,他為我們指出了語(yǔ)音識(shí)別領(lǐng)域的幾大前沿:
在安靜環(huán)境下并使用近距麥克風(fēng)的場(chǎng)合,語(yǔ)音識(shí)別的識(shí)別率已越過(guò)了實(shí)用的門(mén)檻;但是在某些場(chǎng)景下效果還不是那么好,這就是我們這個(gè)領(lǐng)域的 frontier?,F(xiàn)在大家主攻幾點(diǎn):
首先,是不是能夠進(jìn)一步提升在遠(yuǎn)場(chǎng)識(shí)別尤其是有人聲干擾情況下的識(shí)別率。目前一般遠(yuǎn)場(chǎng)識(shí)別的錯(cuò)誤率是近場(chǎng)識(shí)別錯(cuò)誤率的兩倍左右,所以在很多情況下語(yǔ)音識(shí)別系統(tǒng)還不盡如人意。遠(yuǎn)場(chǎng)識(shí)別至少目前還不能單靠后端的模型加強(qiáng)來(lái)解決?,F(xiàn)在大家的研究集中在結(jié)合多通道信號(hào)處理(例如麥克風(fēng)陣列)和后端處理從拾音源頭到識(shí)別系統(tǒng)全程優(yōu)化來(lái)增強(qiáng)整個(gè)系統(tǒng)的表現(xiàn)。
另外,大家還在研究更好的識(shí)別算法。這個(gè)「更好」有幾個(gè)方面:一個(gè)方面是能不能更簡(jiǎn)單。現(xiàn)在的模型訓(xùn)練過(guò)程還是比較復(fù)雜的,需要經(jīng)過(guò)很多步驟。如果沒(méi)有 HTK 和 Kaldi 這樣的開(kāi)源軟件和 recipe 的話(huà),很多團(tuán)隊(duì)都要用很長(zhǎng)時(shí)間才能搭建一個(gè)還 OK 的系統(tǒng),即使 DNN 的使用已經(jīng)大幅降低了門(mén)檻?,F(xiàn)在因?yàn)橛辛碎_(kāi)源軟件和 recipe,包括像 CNTK 這樣的深度學(xué)習(xí)工具包,事情已經(jīng)容易多了,但還有繼續(xù)簡(jiǎn)化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary?,F(xiàn)在的研究主要還是基于 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預(yù)處理的部分去掉。雖然目前效果還不能超越傳統(tǒng)的 hybrid system,但是已經(jīng)接近 hybrid system 的 performance 了。
另外一個(gè)方面,最近的幾年里大家已經(jīng)從一開(kāi)始使用簡(jiǎn)單的 DNN 發(fā)展到了后來(lái)相對(duì)復(fù)雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現(xiàn)得還不夠好。所以一個(gè)研究方向是尋找一些特殊的網(wǎng)絡(luò)結(jié)構(gòu)能夠把我們想要 model 的那些東西都放在里面。我們之前做過(guò)一些嘗試,比如說(shuō)人在跟另外一個(gè)人對(duì)話(huà)的過(guò)程中,他會(huì)一直做 prediction,這個(gè) prediction 包括很多東西,不單是包括你下一句想要說(shuō)什么話(huà),還包括根據(jù)你的口音來(lái)判斷你下面說(shuō)的話(huà)會(huì)是怎樣等等。我們?cè)鴩L試把這些現(xiàn)象建在模型里以期提升識(shí)別性能。很多的研究人員也在往這個(gè)方向走。
還有一個(gè)方向是快速自適應(yīng)的方法—就是快速的不需要人工干預(yù)的自適應(yīng)方法(unsupervised adaptation)。現(xiàn)在雖然已經(jīng)有一些自適應(yīng)的算法了,但是它們相對(duì)來(lái)說(shuō)自適應(yīng)的速度比較慢,或者需要較多的數(shù)據(jù)。有沒(méi)有辦法做到更快的自適應(yīng)?就好像第一次跟一個(gè)口音很重的人說(shuō)話(huà)的時(shí)候,你可能開(kāi)始聽(tīng)不懂,但兩三句話(huà)后你就可以聽(tīng)懂了。大家也在尋找像這種非常快還能夠保證良好性能的自適應(yīng)方法。快速自適應(yīng)從實(shí)用的角度來(lái)講還是蠻重要的。因?yàn)樽赃m應(yīng)確實(shí)在很多情況下能夠提升識(shí)別率。
三、語(yǔ)音識(shí)別歷史的梳理
在這一部分我簡(jiǎn)單的梳理了一下語(yǔ)音識(shí)別歷史上比較關(guān)鍵的一些時(shí)間點(diǎn),至于詳細(xì)的語(yǔ)音識(shí)別技術(shù)研究歷史可參考之前提到的黃學(xué)東老師寫(xiě)的《四十年的難題與榮耀——從歷史視角看語(yǔ)音識(shí)別發(fā)展》。
-
1952 年,貝爾實(shí)驗(yàn)室 Davis 等人研制了世界上第一個(gè)能識(shí)別 10 個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),但只能識(shí)別一人的發(fā)音。
-
1962 年,IBM 展示了 Shoebox。Shoebox 能理解 16 個(gè)口語(yǔ)單詞以及 0-9 的英文數(shù)字。
-
1969 年,貝爾實(shí)驗(yàn)室的 John Pierce 預(yù)言成熟的語(yǔ)音識(shí)別在數(shù)十年內(nèi)不會(huì)成為現(xiàn)實(shí),因?yàn)樗枰斯ぶ悄堋?/p>
-
1970 年,普林斯頓大學(xué)的 Lenny Baum 發(fā)明隱馬爾可夫模型(Hidden Markov Model)。
-
20 世紀(jì) 70 年代,卡耐基梅隆大學(xué)研發(fā) harpy speech recognition system,能夠識(shí)別 1011 個(gè)單詞,相當(dāng)于 3 歲兒童的詞匯量。
-
20 世紀(jì) 80 年代,語(yǔ)音識(shí)別引入了隱馬爾可夫模型(Hidden Markov Model)。
-
20 世紀(jì) 90 年代出現(xiàn)首個(gè)消費(fèi)級(jí)產(chǎn)品 DragonDictate,由國(guó)際語(yǔ)音識(shí)別公司 Nuance 發(fā)布。
-
2007 年,Dag Kittlaus 和 Adam Cheyer 創(chuàng)立 Siri.Inc。后被蘋(píng)果收購(gòu)并于 2011 年首次出現(xiàn)在 iPhone 4s 上。
-
2009 年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
-
2011 年微軟率先取得突破,使用深度神經(jīng)網(wǎng)絡(luò)模型之后,語(yǔ)音識(shí)別錯(cuò)誤率降低 30%。
-
2015 年,IBM Watson 公布了英語(yǔ)會(huì)話(huà)語(yǔ)音識(shí)別領(lǐng)域的一個(gè)重大里程碑:系統(tǒng)在非常流行的評(píng)測(cè)基準(zhǔn) Switchboard 數(shù)據(jù)庫(kù)中取得了 8% 的詞錯(cuò)率(WER)。
語(yǔ)音識(shí)別,在這一年有了極大的發(fā)展,從算法到模型都有了質(zhì)的變化,在加上語(yǔ)音領(lǐng)域(語(yǔ)音合成等)的其他研究,語(yǔ)音技術(shù)陸續(xù)進(jìn)入工業(yè)、家庭機(jī)器人、通信、車(chē)載導(dǎo)航等各個(gè)領(lǐng)域中。當(dāng)有一天,機(jī)器能夠真正「理解」人類(lèi)語(yǔ)言,并作出回應(yīng),那時(shí)我們必將迎來(lái)一個(gè)嶄新的時(shí)代。