NCMMSC2015:百度取得漢語語音識(shí)別技術(shù)重大突破
近日,中國人機(jī)語音交互領(lǐng)域最權(quán)威的學(xué)術(shù)會(huì)議——全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC2015)在天津舉辦。會(huì)上,來自產(chǎn)學(xué)研各界的技術(shù)大牛分享了在人機(jī)語音交互方面的技術(shù)成果和突破,其中最引人關(guān)注的當(dāng)屬百度語音技術(shù)部負(fù)責(zé)人賈磊的演講。
他在會(huì)上介紹了百度最新研發(fā)出的語音識(shí)別技術(shù),識(shí)別相對(duì)錯(cuò)誤率比現(xiàn)有技術(shù)降低15%以上,使?jié)h語安靜環(huán)境普通話語音識(shí)別的識(shí)別率接近97%。這是繼2011年,引入深度學(xué)習(xí)技術(shù),相對(duì)錯(cuò)誤率降低20%~30%之后,語音技術(shù)領(lǐng)域又一次具有標(biāo)志性意義的重要進(jìn)展。
百度語音技術(shù)部負(fù)責(zé)人賈磊在NCMMSC2015上介紹百度語音技術(shù)取得的重大突破
一次框架性的創(chuàng)新
近年來,語音識(shí)別技術(shù)突飛猛進(jìn)。2011年,隨著深度學(xué)習(xí)技術(shù)被引入語音識(shí)別領(lǐng)域,語音識(shí)別技術(shù)翻開了新的篇章。隨后的幾年里,CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長短時(shí)記憶模型)、CNN混合LSTM的建模技術(shù)在語音識(shí)別工業(yè)產(chǎn)品中不停涌現(xiàn),并持續(xù)提升語音識(shí)別產(chǎn)品效果。而百度此次研發(fā)的突破性技術(shù),是漢語語音技術(shù)上一次框架性的革新,成為目前世界上最先進(jìn)的漢語語音識(shí)別技術(shù)。
“百度研發(fā)出了基于多層單向LSTM的漢語聲韻母整體建模技術(shù),并成功把連接時(shí)序分類(CTC)訓(xùn)練技術(shù)嵌入到傳統(tǒng)的語音識(shí)別建??蚣苤校俳Y(jié)合語音識(shí)別領(lǐng)域的決策樹聚類、跨詞解碼和區(qū)分度訓(xùn)練等技術(shù),大幅度提升線上語音識(shí)別產(chǎn)品性能。”賈磊表示,該技術(shù)相比于工業(yè)界現(xiàn)有的基于狀態(tài)建模的深度學(xué)習(xí)的語音識(shí)別產(chǎn)品技術(shù),相對(duì)錯(cuò)誤率降低在15%以上。
值得注意的是,這一技術(shù)創(chuàng)新并非依靠單點(diǎn)的突破,而是“打造基于多層單向LSTM的漢語聲韻母整體建模技術(shù)”、“引入CTC技術(shù)”、“與語音識(shí)別領(lǐng)域的傳統(tǒng)技術(shù)相結(jié)合”三大方面共同作用的結(jié)晶,是一項(xiàng)框架性的創(chuàng)新。
這一革新不純粹是學(xué)術(shù)上的研究成果,而是可以直接應(yīng)用在產(chǎn)品上。據(jù)悉,應(yīng)用這一新技術(shù)的百度搜索產(chǎn)品即將上線。
三大因素助力攻克十年技術(shù)困局
LSTM與CTC技術(shù)都已經(jīng)存在很長時(shí)間。特別是于2006年首次被提出的CTC技術(shù),由于其容易收斂到局部點(diǎn)等特點(diǎn),以及這兩大技術(shù)結(jié)合后計(jì)算量巨大等原因,10多年來,LSTM與CTC的結(jié)合一直沒有在語音工業(yè)領(lǐng)域成功應(yīng)用。此次,百度依靠三大因素——大數(shù)據(jù)機(jī)器學(xué)習(xí)和語音識(shí)別傳統(tǒng)理論結(jié)合、創(chuàng)新的算法以及強(qiáng)大的計(jì)算能力,成功突破了這十多年的技術(shù)困局。
這一切的成功要回溯到4個(gè)多月前。早在今年6月初,百度展開了對(duì)語音技術(shù)的創(chuàng)新探索。“我們?cè)敿?xì)地研究和分析了漢語狀態(tài)建模、聲韻母整體半音節(jié)建模、音節(jié)整體建模等多種漢語建模單元,并深入探索了不同建模單元的CTC訓(xùn)練的價(jià)值和作用。”賈磊娓娓道來。
功夫不負(fù)有心人。經(jīng)過短短4個(gè)月的不斷探索與試驗(yàn),百度在世界范圍內(nèi)率先克服了在漢語領(lǐng)域使用CTC技術(shù)訓(xùn)練單向LSTM的高精度建模難題。
相比雙向LSTM,單向LSTM的好處是明顯的。“單向比雙向更適于產(chǎn)品系統(tǒng)。因?yàn)橛秒p向LSTM技術(shù)建立的模型,需要使用語音的未來一段時(shí)間的數(shù)據(jù),這就造成了解碼器的額外等待,會(huì)給語音識(shí)別造成時(shí)延;而單向則不需要,解碼過程和數(shù)據(jù)到達(dá)同步進(jìn)行,識(shí)別速度更快。”賈磊介紹到,“雖然單向LSTM在做建模單元的整體建模上有諸多好處,但一直以來,因其存在解碼路徑右邊信息的不完整性,導(dǎo)致識(shí)別效果較低,始終超不過傳統(tǒng)的三狀態(tài)建模。”
LSTM和CTC技術(shù)各有特點(diǎn),將二者結(jié)合的技術(shù)非常困難,以至10多年來在語音識(shí)別產(chǎn)品領(lǐng)域從未被成功應(yīng)用過。“LSTM和CTC建模技術(shù)結(jié)合,其核心難度之一就在于海量數(shù)據(jù)下的深度學(xué)習(xí)需要強(qiáng)大的計(jì)算能力,這兩項(xiàng)技術(shù)的計(jì)算量比傳統(tǒng)深度學(xué)習(xí)的計(jì)算量大一個(gè)數(shù)量級(jí)。直接按照數(shù)學(xué)公式去實(shí)現(xiàn)上述算法,LSTM和CTC訓(xùn)練就需要采用單幀遞推模式,這樣的訓(xùn)練速度在工業(yè)條件下的將近1萬小時(shí)訓(xùn)練數(shù)據(jù)下,幾乎是不可能實(shí)現(xiàn)的。”賈磊解釋到。
為此,百度進(jìn)行了一系列的算法革新,并利用百度大數(shù)據(jù)平臺(tái)計(jì)算優(yōu)勢(shì),成功地攻克了這一學(xué)術(shù)訓(xùn)練難題,打破十年來的技術(shù)困局。
據(jù)了解,對(duì)比谷歌2015年9月份于Interspeech 發(fā)表的在英文領(lǐng)域的類似研究成果,百度的訓(xùn)練數(shù)據(jù)是谷歌的4-5倍,模型訓(xùn)練參數(shù)規(guī)模是谷歌的10-20倍。而該技術(shù)成功突破的核心要素之一就是訓(xùn)練能力的極致提升,大模型大數(shù)據(jù)下的難度要比實(shí)驗(yàn)室小數(shù)據(jù)小模型的情況下難很多。百度研發(fā)出的全新訓(xùn)練算法,更接近工業(yè)大數(shù)據(jù)的產(chǎn)品實(shí)踐,是可以推廣到10萬小時(shí)訓(xùn)練的全新技術(shù)。
僅憑上述深度學(xué)習(xí)技術(shù)的創(chuàng)新,要想推動(dòng)漢語識(shí)別技術(shù)的產(chǎn)品重大突破是遠(yuǎn)遠(yuǎn)不夠的。深度學(xué)習(xí)技術(shù)必須和行業(yè)專業(yè)理論結(jié)合才能以質(zhì)變的方式提升工業(yè)產(chǎn)品技術(shù)。
“過去,有很多機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于語音識(shí)別領(lǐng)域取得了不錯(cuò)的效果,但是在解決產(chǎn)品上線的計(jì)算量和用戶等待時(shí)間方面總是差強(qiáng)人意。”賈磊指出,百度根據(jù)自己在語音產(chǎn)品實(shí)踐中的長期積累和經(jīng)驗(yàn),經(jīng)過大量實(shí)驗(yàn)詳細(xì)的比較,在嘗試了音節(jié)、聲韻母和狀態(tài)等不同長度的建模單元之后,最后探索出最適合漢語的聲韻母整體建模。最終,把上述成果一起應(yīng)用到語音識(shí)別的傳統(tǒng)技術(shù)框架中,結(jié)合決策樹聚類、跨詞解碼技術(shù)和區(qū)分度訓(xùn)練等一系列傳統(tǒng)技術(shù),實(shí)現(xiàn)了漢語語音識(shí)別工業(yè)產(chǎn)品技術(shù)的實(shí)質(zhì)性提升。
在解決工業(yè)難題的同時(shí),百度還最先對(duì)工業(yè)情況下的CTC技術(shù)在語音產(chǎn)品中發(fā)揮巨大作用的本質(zhì)進(jìn)行了深入探索。
在研究過程中,賈磊和他的團(tuán)隊(duì)發(fā)現(xiàn),在大數(shù)據(jù)、大模型條件下,在固定邊界的CE訓(xùn)練之后,采用CTC訓(xùn)練,可能對(duì)多層雙向LSTM模型的性能提升很有限,但對(duì)多層單向LSTM模型的改善是顯著的。
“我們對(duì)CTC的本質(zhì)進(jìn)行了深度探究,”賈磊表示,“我們認(rèn)為,一個(gè)可能的解釋是,CTC的空白吸收機(jī)制和動(dòng)態(tài)邊界尖峰學(xué)習(xí)能力,可以動(dòng)態(tài)自適應(yīng)地形成‘target delay’,從而解決單向LSTM模型的右邊信息不完整的問題,而這個(gè)作用對(duì)雙向LSTM模型的價(jià)值就小很多。”
該理論的探索和發(fā)現(xiàn),對(duì)于CTC技術(shù)進(jìn)一步在語音識(shí)別中的創(chuàng)新研究打下了很好的基礎(chǔ)。除此之外,百度產(chǎn)品團(tuán)隊(duì)還探索了語音識(shí)別中CTC訓(xùn)練后的模型具有超快的解碼速度的本質(zhì)原因,并向業(yè)界公開其相應(yīng)的解碼器加速策略。
更深刻的變革正在來臨
如今,百度已經(jīng)開始使用上萬小時(shí)的樣本進(jìn)行模型訓(xùn)練。不難預(yù)測(cè),不久,語音識(shí)別技術(shù)發(fā)展將很快進(jìn)入10萬小時(shí)數(shù)據(jù)樣本訓(xùn)練階段,只有這樣,才能覆蓋千差萬別的用戶口音差異。再考慮環(huán)境變化的影響,未來訓(xùn)練語料量可能會(huì)突破100萬小時(shí)。
在賈磊看來,隨著訓(xùn)練數(shù)據(jù)量的迅速增加,如何實(shí)現(xiàn)大規(guī)模LSTM建模和CTC的有效訓(xùn)練,會(huì)成為一個(gè)核心的技術(shù)難題。“以后,語音識(shí)別領(lǐng)域的深度學(xué)習(xí)將進(jìn)入數(shù)百GPU并行訓(xùn)練的狀態(tài),理論創(chuàng)新和算法技術(shù)創(chuàng)新都將圍繞大數(shù)據(jù)展開。語音識(shí)別技術(shù)的研發(fā)方法,相對(duì)于現(xiàn)在必將發(fā)生深刻的變革。”
除此之外,CTC建模技術(shù)進(jìn)一步降低了語音識(shí)別應(yīng)用的解碼成本,隨著適合深度模型計(jì)算的專業(yè)硬件的大量涌現(xiàn),語音識(shí)別云服務(wù)的成本將大量降低,從而推動(dòng)語音交互技術(shù)的更大范圍的普及。
賈磊告訴我們,這次百度做出的重大技術(shù)創(chuàng)新,更大程度上是百度對(duì)計(jì)算能力極限挖掘的一次嘗試。“未來這樣的嘗試一定還會(huì)更多”。