自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

語(yǔ)音識(shí)別:對(duì)未來(lái)人機(jī)交互的顛覆與改變

人工智能 語(yǔ)音識(shí)別
語(yǔ)音識(shí)別正以磅礴之勢(shì)占據(jù)著一個(gè)時(shí)代的智能高點(diǎn)

想象一下,當(dāng)你駕駛一輛奧迪A8L行駛在路上,只需說(shuō)出幾個(gè)簡(jiǎn)單的詞語(yǔ),便可獲得旅途所需的一切,車載MMI 人機(jī)交互系統(tǒng)可智能識(shí)別語(yǔ)音指令,輕松控制導(dǎo)航,語(yǔ)音通話,娛樂(lè)系統(tǒng)等各項(xiàng)功能,汽車也仿佛不再是冰冷的交通工具,而變得更有智慧。電子設(shè)備從過(guò)去的智能工具,開(kāi)始成為與人交互的“伙伴”。

語(yǔ)音識(shí)別正以磅礴之勢(shì)占據(jù)著一個(gè)時(shí)代的智能高點(diǎn)。美國(guó)谷歌公司發(fā)布的一項(xiàng)調(diào)查報(bào)告顯示,13歲到18歲之間的青少年中,每天都要使用語(yǔ)音搜索的人數(shù)比率約55%,尤其是在每天使用智能手機(jī)時(shí)間在11小時(shí)以上的青少年用戶中,比率激增至75%;而在成年人中,約有56%的人表示使用語(yǔ)音搜索會(huì)令他們感覺(jué)自己很懂技術(shù)。谷歌傳統(tǒng)搜索副總裁斯科特?霍夫曼如此感言:對(duì)年輕人而言,使用語(yǔ)音搜索猶如應(yīng)用社交媒體一樣自然,并且會(huì)找到很多創(chuàng)新的使用方法。

隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)、云計(jì)算、人工智能等技術(shù)的發(fā)展,語(yǔ)音識(shí)別在一步步解放用戶的雙手,語(yǔ)音輸入框也大有取代鼠標(biāo)、鍵盤之勢(shì)。伴隨著智能移動(dòng)設(shè)備的普及,語(yǔ)音交互作為一種新型的人機(jī)交互方式,正越來(lái)越引起整個(gè)IT業(yè)界的重視。

業(yè)內(nèi)機(jī)構(gòu)預(yù)計(jì),整個(gè)人工智能市場(chǎng)可在2018年達(dá)到1800億美元的水平,其中的語(yǔ)音識(shí)別市場(chǎng)將占到整個(gè)大蛋糕中極有分量的一大塊。2015年,全球語(yǔ)音識(shí)別市場(chǎng)規(guī)模約為61.9億美元,預(yù)計(jì)到2020年可以接近200億美元。

讓智能語(yǔ)音如何從“聽(tīng)到”,進(jìn)化到“聽(tīng)懂”,實(shí)現(xiàn)語(yǔ)音服務(wù)的通用化,更多服務(wù)于現(xiàn)實(shí)生活場(chǎng)景,更好地普惠于移動(dòng)互聯(lián)網(wǎng)用戶,盡管仍有障礙亟待逾越,但這必將是規(guī)模工業(yè)化的重點(diǎn)突破方向。

在智能語(yǔ)音專家賈磊看來(lái),剝離了諸多衍生服務(wù)、僅集中于語(yǔ)音技術(shù)的時(shí)代已經(jīng)過(guò)去了,未來(lái)的規(guī)模工業(yè)化發(fā)展趨勢(shì)已然顯現(xiàn),下一階段的變革之旅正在開(kāi)啟。

互聯(lián)網(wǎng)的“語(yǔ)音”入口

2016年年初,美國(guó)麻省理工學(xué)院(MIT)主辦的知名科技期刊《麻省理工科技評(píng)論》,評(píng)選出了“2016年十大突破技術(shù)”,語(yǔ)音識(shí)別位列第三項(xiàng),與其他技術(shù)一起“到達(dá)一個(gè)里程碑式的階段或即將到達(dá)這一階段。”

語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別,其目標(biāo)是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語(yǔ)音識(shí)別的目的就是讓機(jī)器賦予人的聽(tīng)覺(jué)特性,聽(tīng)懂人說(shuō)什么,并做出相應(yīng)的動(dòng)作。

與計(jì)算機(jī)進(jìn)行語(yǔ)音交流,并讓其明白用戶在說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。深度學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展,讓這一夢(mèng)想照進(jìn)現(xiàn)實(shí)。百度語(yǔ)音前首席架構(gòu)師賈磊預(yù)測(cè),語(yǔ)音識(shí)別技術(shù)將在語(yǔ)音搜索領(lǐng)域、O2O領(lǐng)域、傳媒信息等領(lǐng)域發(fā)揮巨大作用。

作為人工智能界的技術(shù)大咖,賈磊的“技術(shù)路線”著實(shí)是一條“語(yǔ)音路”。

1993年,賈磊保送進(jìn)入西北工業(yè)大學(xué)教育改革班學(xué)習(xí),大學(xué)期間他就對(duì)數(shù)學(xué)、計(jì)算機(jī)和聲音信號(hào)處理技術(shù)產(chǎn)生了濃厚的興趣。此后的20多年,賈磊一路與“語(yǔ)音”結(jié)緣。

2003年,在中科院拿到博士學(xué)位的賈磊加入松下中國(guó)研究開(kāi)發(fā)有限公司,在工業(yè)界從事語(yǔ)音技術(shù)相關(guān)的研究工作,其間成功研發(fā)了手機(jī)上的英語(yǔ)、日語(yǔ)和漢語(yǔ)的人命數(shù)字撥號(hào)系統(tǒng);兩年后,賈磊離開(kāi)松下,加入IBM中國(guó)研究院。在IBM工作期間,賈磊和IBM美國(guó)研究部門的同事一起構(gòu)建了漢語(yǔ)廣播識(shí)別系統(tǒng)。

2006年初,賈磊回到松下中國(guó)研究開(kāi)發(fā)有限公司,擔(dān)任松下語(yǔ)音技術(shù)部的高級(jí)經(jīng)理,承擔(dān)整合松下內(nèi)部語(yǔ)音技術(shù)的工作,并領(lǐng)導(dǎo)松下中國(guó)部門,研發(fā)了日語(yǔ)汽車導(dǎo)航系統(tǒng)產(chǎn)品原型;四年后,賈磊回到中科院自動(dòng)化研究所,主導(dǎo)了中科院自動(dòng)化所的第一版本的云計(jì)算條件下的機(jī)器翻譯系統(tǒng)構(gòu)建工作。

2011年6月,賈磊加入百度,開(kāi)始擔(dān)任百度語(yǔ)音技術(shù)部負(fù)責(zé)人、首席研究員,負(fù)責(zé)百度語(yǔ)音技術(shù)的核心技術(shù)研發(fā)和互聯(lián)網(wǎng)產(chǎn)業(yè)化工作。短短的6個(gè)月內(nèi),賈磊帶領(lǐng)技術(shù)團(tuán)隊(duì),實(shí)現(xiàn)了百度完全自主研發(fā)的語(yǔ)音搜索系統(tǒng)上線。此后,賈磊的技術(shù)團(tuán)隊(duì)又備受矚目地相繼完成了手機(jī)語(yǔ)音輸入法系統(tǒng)、智能語(yǔ)音手機(jī)助手等系統(tǒng)的研發(fā)與上線。

2015年年底,伴隨著“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”的熱潮,賈磊離開(kāi)百度,投身到與人工智能相關(guān)的創(chuàng)業(yè)領(lǐng)域中。“高技術(shù)人才創(chuàng)業(yè)是為國(guó)家作貢獻(xiàn)的另一種方式,美國(guó)硅谷的很多公司都是從創(chuàng)業(yè)中誕生的,比如微軟、谷歌,都是從最初的創(chuàng)業(yè)公司最終成長(zhǎng)為行業(yè)巨頭。”賈磊如此描述自己的創(chuàng)業(yè),“在以后的人工智能時(shí)代,人類的很多活動(dòng)或許會(huì)被機(jī)器替代,但置身這個(gè)行業(yè)的工作人員,一定要精準(zhǔn)掌握制造機(jī)器、提升機(jī)器的方法。”

[[185870]]

語(yǔ)音識(shí)別可規(guī)模工業(yè)化的未來(lái)

過(guò)去的20多年,語(yǔ)音識(shí)別技術(shù)與賈磊們的“技術(shù)腦”共同進(jìn)行著自我進(jìn)化,而這種進(jìn)化,也在潛移默化地改變著互聯(lián)網(wǎng)、尤其是移動(dòng)互聯(lián)網(wǎng)的形態(tài)。

微軟研究院首席研究員俞棟認(rèn)為,在很多應(yīng)用場(chǎng)合,語(yǔ)音識(shí)別成為一個(gè)入口,如果沒(méi)有這個(gè)入口,大家都會(huì)覺(jué)得智能機(jī)器不夠智能,或者用戶會(huì)覺(jué)得與智能機(jī)器交互有困難。

新興的萬(wàn)物互聯(lián)時(shí)代需要新的交互方式,人們將開(kāi)始從智能手機(jī)的觸摸模式轉(zhuǎn)向智能家居所必需的遠(yuǎn)場(chǎng)語(yǔ)音交互,這樣的交互離不開(kāi)智能語(yǔ)音語(yǔ)言技術(shù)作為支撐。阿里云iDST技術(shù)總監(jiān)初敏認(rèn)為,語(yǔ)音交互將會(huì)成為數(shù)據(jù)智能的第一個(gè)爆發(fā)點(diǎn),“下一輪的入口之爭(zhēng)將再次出現(xiàn)”。

從互聯(lián)網(wǎng)誕生之日起,搜索框便成為人們進(jìn)入互聯(lián)網(wǎng)的重要入口,但語(yǔ)音識(shí)別一經(jīng)出現(xiàn),搜索框的地位受到動(dòng)搖,在未來(lái)或?qū)⒅鸩奖蝗〈?。微軟雷德蒙德研究院副院長(zhǎng)杜麥斯認(rèn)為,深度學(xué)習(xí)技術(shù)將助力2017年的網(wǎng)絡(luò)搜索結(jié)果,到2027年,搜索框?qū)⑾?,被無(wú)所不在、嵌入式以及具備語(yǔ)境感知能力的搜索取代。

如今,這種“取代”已經(jīng)開(kāi)始萌發(fā)。11月底,搜狗、百度和科大訊飛三家公司接連召開(kāi)了三場(chǎng)發(fā)布會(huì),向外界展示了自己在語(yǔ)音識(shí)別和機(jī)器翻譯等方面的最新進(jìn)展,三家公司均宣布的旗下語(yǔ)音識(shí)別系統(tǒng)正確率已達(dá)到97%左右,同時(shí)有不少智能語(yǔ)音產(chǎn)品支持不同地區(qū)的方言識(shí)別。

此前,百度研發(fā)出了基于多層單向LSTM(長(zhǎng)短時(shí)記憶模型)的漢語(yǔ)聲韻母整體建模技術(shù),并成功把連接時(shí)序分類(CTC)訓(xùn)練技術(shù)嵌入到語(yǔ)音識(shí)別傳統(tǒng)技術(shù)建??蚣苤?。該技術(shù)能夠使機(jī)器的語(yǔ)音識(shí)別相對(duì)錯(cuò)誤率降低15%,使安靜環(huán)境下的普通話語(yǔ)音識(shí)別的準(zhǔn)確率接近97%,未來(lái)將大規(guī)模應(yīng)用在百度語(yǔ)音搜索等產(chǎn)品上。

賈磊表示,語(yǔ)音識(shí)別技術(shù)特別適合于語(yǔ)音識(shí)別大規(guī)模工業(yè)化,“因?yàn)檫@個(gè)技術(shù)應(yīng)用點(diǎn)很多,它不但是解碼速度快,而且對(duì)口音、對(duì)遠(yuǎn)場(chǎng)都有一定的作用,有口音的人識(shí)別率會(huì)改善很多,距離較遠(yuǎn)的時(shí)候識(shí)別率也會(huì)改善很多。”

業(yè)內(nèi)人士判斷,作為信息技術(shù)的重要組成部分,向更聰慧的水平進(jìn)化的智能語(yǔ)音技術(shù),將在人工智能、移動(dòng)互聯(lián)網(wǎng)、智能終端、智能家居、可穿戴設(shè)備等領(lǐng)域日益深入運(yùn)用,并將在更多垂直行業(yè)深入發(fā)展,帶動(dòng)智能語(yǔ)音以及相關(guān)產(chǎn)業(yè)的發(fā)展,形成新的業(yè)態(tài)、新的增長(zhǎng)點(diǎn)。

一甲子打磨“語(yǔ)音”利劍

如今的語(yǔ)音識(shí)別有多聰明?百度首席科學(xué)家吳恩達(dá)認(rèn)為,目前的語(yǔ)音識(shí)別已經(jīng)超過(guò)了正常人的語(yǔ)音識(shí)別能力。以情感合成為例,基于深度學(xué)習(xí)和大數(shù)據(jù)處理技術(shù)的語(yǔ)音識(shí)別,在數(shù)據(jù)采集、處理、建模等環(huán)節(jié)完成了一系列創(chuàng)新,可以實(shí)現(xiàn)更富有表現(xiàn)力的自然朗讀效果。

在普通公眾的眼里,語(yǔ)音識(shí)別似乎是一項(xiàng)橫空出世的新技術(shù),據(jù) TechCrunch 統(tǒng)計(jì),僅美國(guó)至少就有26家公司在開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù)。但在科學(xué)家與工業(yè)界人士看來(lái),語(yǔ)音識(shí)別并不是一個(gè)新興的行業(yè)。

早在1952年,美國(guó)貝爾實(shí)驗(yàn)室的Davis等人就研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年,英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。發(fā)展至今,語(yǔ)音識(shí)別技術(shù)早已走過(guò)了一甲子的歷程。

上世紀(jì)50年代,科學(xué)家們認(rèn)為要讓計(jì)算機(jī)實(shí)現(xiàn)語(yǔ)音識(shí)別這類只有人才能做的事情,必須先讓其理解自然語(yǔ)言。這使得人類探索語(yǔ)音識(shí)別的路線,局限在用電腦模擬人腦上,即讓計(jì)算機(jī)學(xué)習(xí)人類學(xué)習(xí)語(yǔ)言的方式。在這一思路的指引下,此后的20年,科學(xué)界在語(yǔ)音識(shí)別領(lǐng)域鮮有科研成果出現(xiàn)。

直到1970年后,統(tǒng)計(jì)語(yǔ)言學(xué)的出現(xiàn)讓語(yǔ)音識(shí)別重獲新生。推動(dòng)這個(gè)技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物是現(xiàn)代語(yǔ)音識(shí)別和自然語(yǔ)言處理研究的先驅(qū)、美國(guó)工程院院士德里克·賈里尼克和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室。IBM采用統(tǒng)計(jì)的方法,將當(dāng)時(shí)的語(yǔ)音識(shí)別率從70%提升到90%,同時(shí)語(yǔ)音識(shí)別的規(guī)模從幾百單詞上升到幾萬(wàn)單詞。這使得語(yǔ)音識(shí)別有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。

此后,隨著研究思路的變化,大規(guī)模的語(yǔ)音識(shí)別研究得以實(shí)現(xiàn),科學(xué)家們?cè)谛≡~匯量、孤立詞的識(shí)別研究方面取得了實(shí)質(zhì)性的進(jìn)展。20世紀(jì)80年代以后,語(yǔ)音識(shí)別研究的重點(diǎn)則逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。

20世紀(jì)90年代以后,科學(xué)界在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破,但在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。始于20世紀(jì)70年代的DARPA系統(tǒng),是由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作,進(jìn)入90年代, DARPA計(jì)劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。

在這個(gè)時(shí)期,英國(guó)劍橋大學(xué)的HTK系統(tǒng)對(duì)語(yǔ)音識(shí)別貢獻(xiàn)巨大,為很多從事語(yǔ)音識(shí)別的研究單位提供了結(jié)構(gòu)完整、全面的一套軟件基線系統(tǒng)。從此,語(yǔ)音識(shí)別研究的門檻大大降低,從而更加有效地推動(dòng)了語(yǔ)音識(shí)別技術(shù)的快速發(fā)展和相互交流。

90年代以后直到現(xiàn)在,計(jì)算機(jī)界對(duì)于語(yǔ)音識(shí)別的研究逐漸地由朗讀式語(yǔ)音轉(zhuǎn)移到了現(xiàn)實(shí)生活中“真實(shí)對(duì)話語(yǔ)音”。進(jìn)入21世紀(jì),互聯(lián)網(wǎng)得到普及,移動(dòng)互聯(lián)網(wǎng)技術(shù)也得到了快速發(fā)展,手機(jī)上網(wǎng)速度越來(lái)越快,這給語(yǔ)音識(shí)別技術(shù)的發(fā)展和應(yīng)用帶來(lái)了新的平臺(tái);硬件設(shè)備越來(lái)越廉價(jià)以及云計(jì)算技術(shù)的出現(xiàn),也大大推動(dòng)了語(yǔ)音識(shí)別的研究和應(yīng)用。

中國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)研究所利用電子管電路識(shí)別10個(gè)元音,但此后,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展階段。直至1973年,中國(guó)科學(xué)院聲學(xué)研究所開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。

進(jìn)入80年代以來(lái),隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)多年的沉寂之后重又成為研究熱點(diǎn)。在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究中去。

2011年深度學(xué)習(xí)技術(shù)引入語(yǔ)音識(shí)別領(lǐng)域,推進(jìn)整個(gè)工業(yè)界的人工智能技術(shù)應(yīng)用進(jìn)入深度學(xué)習(xí)時(shí)代。隨后的幾年里,CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長(zhǎng)短時(shí)記憶模型)、CNN混合LSTM的建模技術(shù)在語(yǔ)音識(shí)別工業(yè)產(chǎn)品中不斷涌現(xiàn),并持續(xù)提升語(yǔ)音識(shí)別產(chǎn)品效果。

[[185871]]

技術(shù)難關(guān)有待突破

2016年6月2日,被譽(yù)為“互聯(lián)網(wǎng)女王”的瑪麗·米克爾(Mary Meeker)發(fā)布了2016年《互聯(lián)網(wǎng)趨勢(shì)報(bào)告》。報(bào)告認(rèn)為,語(yǔ)音是最有效的計(jì)算輸入形式,將成為人機(jī)交互的新范式。相比打字,語(yǔ)音交互的優(yōu)勢(shì)明顯,既簡(jiǎn)單又方便,一個(gè)麥克風(fēng)即可解決,尤其適合物聯(lián)網(wǎng)的場(chǎng)景。

然而,任何一項(xiàng)新技術(shù)研發(fā),都避免不了需要逾越和突破更多的障礙。早在2008年,比爾·蓋茨就在多個(gè)場(chǎng)合預(yù)測(cè)“今后5年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過(guò)語(yǔ)音來(lái)完成”。到如今,語(yǔ)音搜索方興未艾,但遠(yuǎn)沒(méi)實(shí)現(xiàn)比爾·蓋茨的猜想。瑪麗·米克爾預(yù)測(cè),未來(lái)的計(jì)算界面將從鍵盤進(jìn)化成麥克風(fēng)及鍵盤,“不過(guò)現(xiàn)在才剛剛上路”。

賈磊認(rèn)為,目前語(yǔ)音識(shí)別技術(shù)遇到的主要難度,是對(duì)口音、噪音、遠(yuǎn)場(chǎng)的識(shí)別。其中基于深度學(xué)習(xí)的個(gè)性化識(shí)別,是未來(lái)語(yǔ)音識(shí)別技術(shù)全面普及與應(yīng)用的重大挑戰(zhàn)。

如今在多個(gè)大型科技會(huì)議現(xiàn)場(chǎng),主辦方都會(huì)安排嘗試各家公司研發(fā)的語(yǔ)音速錄系統(tǒng),這大有取代傳統(tǒng)的實(shí)時(shí)速錄員之勢(shì)。起初,這一高效、吸引眼球的技術(shù)著實(shí)讓人們眼前一亮,但一旦會(huì)場(chǎng)中的演講者帶有口音,語(yǔ)音速錄系統(tǒng)便頻頻犯錯(cuò),即使有技術(shù)人員現(xiàn)場(chǎng)實(shí)時(shí)調(diào)試,也常常另其呈現(xiàn)在會(huì)場(chǎng)大屏幕上的文字語(yǔ)法不通、不知所云。

賈磊認(rèn)為,人的口音千差萬(wàn)別,不可能有一個(gè)語(yǔ)音識(shí)別器識(shí)別所有的聲音,一定要實(shí)現(xiàn)個(gè)性化。而這種基于深度學(xué)習(xí)的個(gè)性化識(shí)別,一定需要海量的存儲(chǔ)空間和很大的數(shù)據(jù)吞吐傳輸能力,而這只有具備大數(shù)據(jù)和云計(jì)算這種服務(wù)能力的公司能夠提供。

語(yǔ)音識(shí)別歷來(lái)是人工智能和機(jī)器學(xué)習(xí)中的十大經(jīng)典難題之一,該技術(shù)面臨著說(shuō)話人、環(huán)境、設(shè)備三方面的不確定性難點(diǎn)。

說(shuō)話人常常來(lái)自不同的方言區(qū)、有不同的口音,說(shuō)話時(shí)又有不同的方式、運(yùn)用不同的情感,目前的語(yǔ)音識(shí)別往往難以完美識(shí)別。此外,真實(shí)的語(yǔ)言環(huán)境是非常復(fù)雜的,會(huì)被各種各樣的噪聲環(huán)繞,包括汽車?yán)嚷?、飛機(jī)的噪聲、馬路上人的聲音,還有一些會(huì)場(chǎng)的回聲;而發(fā)言者使用的設(shè)備也是五花八門,除了自然發(fā)聲,人們可以用手持麥克風(fēng)、領(lǐng)夾麥克風(fēng)、耳戴麥克風(fēng)、近場(chǎng)遠(yuǎn)場(chǎng)的麥克風(fēng)等。

在真實(shí)的應(yīng)用場(chǎng)景下,說(shuō)話人、環(huán)境、設(shè)備三個(gè)因素疊加在一起,使語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景更加復(fù)雜。如何處理這些不確定性,成為擺在研發(fā)人員面前的一項(xiàng)重大挑戰(zhàn)。

口語(yǔ)化的識(shí)別需要訓(xùn)練語(yǔ)料,口音的有利信息歸根結(jié)底需要大量的口音的數(shù)據(jù)才能解決。“未來(lái)會(huì)出現(xiàn)更大規(guī)模的語(yǔ)料庫(kù),要訓(xùn)練更大規(guī)模的語(yǔ)音識(shí)別系統(tǒng)。”賈磊認(rèn)為,多種數(shù)據(jù)源的混合訓(xùn)練仍然是解決口音、噪音和遠(yuǎn)場(chǎng)問(wèn)題的必要手段。

從嚴(yán)格意義上,目前的語(yǔ)音識(shí)別系統(tǒng),顯然還難堪完美。峰瑞資本早期項(xiàng)目負(fù)責(zé)人朱祎舟認(rèn)為,盡管各家科技公司根據(jù)實(shí)驗(yàn)數(shù)據(jù)得出的語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到95%甚至更高,但在實(shí)際使用時(shí)并沒(méi)有那么高。

阿里云智能語(yǔ)音技術(shù)總監(jiān)鄢志杰也認(rèn)為,“夸張”的準(zhǔn)確率只可能在非常受限的場(chǎng)景下獲得,“如果在一個(gè)熱烈討論的會(huì)議室,掏出手機(jī)做會(huì)議記錄,別說(shuō)97%,斷斷續(xù)續(xù)勉強(qiáng)看懂就不錯(cuò)了”。

“語(yǔ)音識(shí)別的準(zhǔn)確率遠(yuǎn)沒(méi)有新聞標(biāo)題上宣傳的那么高,脫離現(xiàn)實(shí)場(chǎng)景去談準(zhǔn)確率統(tǒng)統(tǒng)都是耍流氓。”鄢志杰認(rèn)為,智能語(yǔ)音行業(yè)應(yīng)該更嚴(yán)肅去思考,在學(xué)術(shù)研究上到底取得了哪些實(shí)質(zhì)性的進(jìn)展,應(yīng)用上到底在哪些方面實(shí)實(shí)在在幫助到大眾。

從“聽(tīng)到”到“聽(tīng)懂”的進(jìn)化變革

語(yǔ)音識(shí)別、語(yǔ)音搜索,已然成為了移動(dòng)互聯(lián)網(wǎng)時(shí)代的“剛需”?;ヂ?lián)網(wǎng)帶來(lái)的用戶體驗(yàn)卻并非人人平等,在互聯(lián)網(wǎng)用戶中,仍然有相當(dāng)一部分人無(wú)法暢享互聯(lián)網(wǎng)。他們因?yàn)榧夹g(shù)水平的差異,無(wú)法利用電腦和手機(jī),通過(guò)“精確的文字”與互聯(lián)網(wǎng)時(shí)代的產(chǎn)物發(fā)生“聯(lián)動(dòng)”。比如讓年邁的父母重新去學(xué)習(xí)“打字”,著實(shí)不易。

智能語(yǔ)音很可能讓以往的不平等體驗(yàn)趨回平衡。如今,智能客服與智能助理等已經(jīng)成為互聯(lián)網(wǎng)上的典型應(yīng)用場(chǎng)景。接電話的客服人員,可能要漸次被人工智能和機(jī)器人替代,不少科技公司已經(jīng)使用了語(yǔ)音自動(dòng)轉(zhuǎn)接、情感識(shí)別與關(guān)鍵詞識(shí)別、語(yǔ)音識(shí)別和關(guān)鍵信息提取,還有自動(dòng)化的全量檢驗(yàn);而智能助理則可以采用對(duì)話的聲控方式,幫助用戶找餐館、安排行程、點(diǎn)歌、導(dǎo)航、找菜譜等。

為了利用語(yǔ)音交互的新穎和便利模式迅速占領(lǐng)客戶群,互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開(kāi)語(yǔ)音識(shí)別的研究和應(yīng)用,但如果讓語(yǔ)音識(shí)別更好地服務(wù)于諸多的真實(shí)生活場(chǎng)景中,顯然還有長(zhǎng)路要走。

賈磊認(rèn)為,想解決口音、噪音的問(wèn)題,語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練數(shù)據(jù)還會(huì)繼續(xù)加大,現(xiàn)在幾萬(wàn)個(gè)小時(shí)訓(xùn)練數(shù)據(jù)是工業(yè)現(xiàn)狀,在不久的未來(lái)一定能達(dá)到十萬(wàn)小時(shí)。如果出現(xiàn)這么大的計(jì)算量,對(duì)計(jì)算能力的需求會(huì)更加強(qiáng)烈,“大數(shù)據(jù)和高性能計(jì)算,是語(yǔ)音識(shí)別發(fā)展到目前最明顯和清晰的趨勢(shì)”。

“語(yǔ)音識(shí)別正處于產(chǎn)業(yè)化爆發(fā)的邊緣,但機(jī)器計(jì)算成本是一個(gè)很大的瓶頸。如果線上50%的搜索都由語(yǔ)音完成,而計(jì)算成本還和過(guò)去一樣,那么沒(méi)有公司能承擔(dān)得起。”賈磊表示,語(yǔ)音服務(wù)要想大規(guī)模普及、服務(wù)大眾,必須降低后臺(tái)服務(wù)器開(kāi)銷。

在賈磊看來(lái),作為明顯的行業(yè)趨勢(shì),語(yǔ)音識(shí)別技術(shù)會(huì)和語(yǔ)意理解、交互技術(shù)等形成一整套語(yǔ)音的解決方案。

讓人工智能系統(tǒng)根據(jù)自己被告知的內(nèi)容回答問(wèn)題或采取行動(dòng),真正的難度在于語(yǔ)義識(shí)別。目前的語(yǔ)音識(shí)別技術(shù),只是把“聽(tīng)到”的語(yǔ)音高正確率轉(zhuǎn)化成文字,這對(duì)于未來(lái)的需求還遠(yuǎn)遠(yuǎn)不夠。從“聽(tīng)到”,到“聽(tīng)懂”,盡管一字之差,卻考驗(yàn)重重。

如果讓語(yǔ)音識(shí)別系統(tǒng)變得更加聰慧,其突破依賴于計(jì)算機(jī)硬件的進(jìn)步。近幾年計(jì)算機(jī)飛速的發(fā)展,特別是通用計(jì)算的發(fā)展,使人類有了強(qiáng)大的計(jì)算能力,使得一些過(guò)去不可能實(shí)現(xiàn)的人工智能算法成為可能,但如果要實(shí)現(xiàn)語(yǔ)音服務(wù)的通用化,計(jì)算能力還有提升空間。

更重要的是,人使用語(yǔ)音識(shí)別的目的,不只是把語(yǔ)音轉(zhuǎn)成文字,而是使用語(yǔ)音去進(jìn)行交互,并獲得其所需的服務(wù)結(jié)果。賈磊認(rèn)為,“這是未來(lái)的工業(yè)發(fā)展趨勢(shì),單純地脫離了服務(wù)、脫離了平臺(tái)、脫離了計(jì)算能力去做語(yǔ)音技術(shù)的時(shí)代已經(jīng)過(guò)去了”。

語(yǔ)音識(shí)別雖然為現(xiàn)代生活帶來(lái)了各種便捷,但距離真正實(shí)現(xiàn)精確無(wú)誤,自主思考,顯然還有很長(zhǎng)一段路要走,只有研究者們不斷執(zhí)著進(jìn)取,突破藩籬,才能為語(yǔ)音識(shí)別技術(shù)的未來(lái)帶來(lái)真正的顛覆與改變。

責(zé)任編輯:武曉燕 來(lái)源: 《財(cái)經(jīng)》雜志
相關(guān)推薦

2021-04-18 13:50:10

人機(jī)交互人工智能

2020-12-08 09:12:22

人機(jī)交互智能

2017-07-19 18:15:08

人工智能人機(jī)互動(dòng)機(jī)器學(xué)習(xí)

2017-09-07 14:04:00

2009-12-10 16:13:31

英特爾未來(lái)芯片

2023-03-02 09:27:00

智能

2022-06-27 15:06:03

元宇宙人工智能區(qū)塊鏈

2023-01-18 10:06:07

數(shù)字人自然語(yǔ)言生成

2021-06-18 11:37:28

人工智能交互設(shè)計(jì)人機(jī)交互

2020-08-17 17:05:08

人工智能機(jī)器學(xué)習(xí)技術(shù)

2011-03-02 08:35:19

人機(jī)交互界面iOS

2024-10-05 12:20:00

2022-04-23 17:47:37

MetaCon元宇宙

2010-04-20 09:08:36

2022-06-27 12:20:02

元宇宙人工智能機(jī)器學(xué)習(xí)

2023-05-05 11:27:26

2025-01-17 11:37:46

2020-06-09 14:57:24

人工智能機(jī)器學(xué)習(xí)技術(shù)

2012-03-21 14:29:30

人機(jī)交互

2021-08-17 09:54:05

人機(jī)交互交互模型國(guó)際主流
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)