百度語音技術(shù)獲重大突破開發(fā)者將享受先進(jìn)成果
最近,在語音技術(shù)領(lǐng)域,最熱的話題莫過于百度在漢語語音識別技術(shù)方面獲得的重大突破——該技術(shù)能夠做到在安靜環(huán)境下,漢語普通話語音識別的準(zhǔn)確率接近97%。于是,一些創(chuàng)業(yè)的朋友來問,開發(fā)者能不能使用這項(xiàng)基于新技術(shù)的語音識別能力?
經(jīng)過多番詢問,得到的答案是肯定的。
實(shí)際上,百度語音識別能力早已在百度開發(fā)者中心(http://developer.baidu.com/)對外開放。為了推廣語音技術(shù)的產(chǎn)業(yè)化應(yīng)用,百度還于近期舉辦了“百度開發(fā)者創(chuàng)新大賽——智能語音2015”(大賽官網(wǎng)http://developer.baidu.com/event_entry/voicedev2015),提供豐厚獎(jiǎng)品、免費(fèi)APP推廣資源等,鼓勵(lì)開發(fā)者調(diào)用百度免費(fèi)開放的語音識別能力,開發(fā)出創(chuàng)新的移動(dòng)應(yīng)用。
而不久之后,基于此次重大技術(shù)突破、擁有更精準(zhǔn)識別率的語音識別能力,也將登錄百度開發(fā)者中心。
那么,這次技術(shù)突破到底有多牛?能給開發(fā)者帶來什么?
“百度研發(fā)出了基于多層單向LSTM的漢語聲韻母整體建模技術(shù),并成功把連接時(shí)序分類(CTC)訓(xùn)練技術(shù)嵌入到傳統(tǒng)的語音識別建模框架中,再結(jié)合語音識別領(lǐng)域的決策樹聚類、跨詞解碼和區(qū)分度訓(xùn)練等技術(shù),大幅度提升線上語音識別產(chǎn)品性能。”
這是百度語音技術(shù)部負(fù)責(zé)人賈磊的介紹,聽上去是不是只有一個(gè)感覺——不明覺厲?反正技術(shù)君有這樣的感覺。
于是,技術(shù)君經(jīng)過艱苦努力,用一句更“人類”的語言來解釋這個(gè)技術(shù),那就是:這技術(shù)牛,非常牛!它成功攻克了語音識別領(lǐng)域十多年的一個(gè)技術(shù)困局,使?jié)h語語音識別相對錯(cuò)誤率再次大幅下降15%以上;基于這一技術(shù),在安靜環(huán)境下,漢語普通話語音識別的準(zhǔn)確率接近97%。因?yàn)檫@一重大突破,賈磊還受邀在全國人機(jī)語音通訊學(xué)術(shù)會(huì)議(NCMMSC2015,注:NCMMSC是中國人機(jī)語音領(lǐng)域最權(quán)威的學(xué)術(shù)會(huì)議)上發(fā)表演講。
更簡潔來講,我們看到的好處就是:
1. 語音識別準(zhǔn)確率提升。
2. 語音識別速度提升。
3. 語音服務(wù)提供者的投入成本降低。
4. 語音技術(shù)領(lǐng)域研究人員可參考百度技術(shù)模型,改善自己的研究,從而在語音領(lǐng)域獲得更大突破。
還是不明白?想象一個(gè)場景:
你在大街上一邊走,一邊想查找附近的百貨大樓怎么走,于是,你打開地圖APP,點(diǎn)開語音按鈕,說著“百貨大樓”。1秒、2秒、3秒……終于,APP返回了結(jié)果——“白佛大羅”。看到這些字,你的內(nèi)心此時(shí)是不是很崩潰?
當(dāng)然,上面這個(gè)場景描述地夸張了點(diǎn),現(xiàn)在的語音識別技術(shù)已經(jīng)能比較準(zhǔn)、比較快地識別出來了。而百度研發(fā)的這個(gè)新技術(shù),能夠比現(xiàn)有識別能力識別地更準(zhǔn)、更快,而且能降低噪音、口音、說話距離遠(yuǎn)近等因素對識別率造成的不良影響。
作為開發(fā)者,這個(gè)能力帶來的效果是顯著的。在調(diào)用百度的這一能力后,能讓APP的語音識別服務(wù)更精準(zhǔn)、更快速,從而提升整體用戶體驗(yàn)。你是不是也想試一試了呢?