云知聲梁家恩:智能語音需攻克的難點(diǎn)在哪?
原創(chuàng)【51CTO.com原創(chuàng)稿件】 智能語音技術(shù)包括語音降噪、語音識(shí)別、聲紋識(shí)別、語義理解、對(duì)話管理、語音合成等技術(shù),將在物聯(lián)網(wǎng)新一代交互中占據(jù)重要地位,構(gòu)建出更加豐富和自然的智能產(chǎn)品應(yīng)用體驗(yàn)的基礎(chǔ)。國內(nèi)智能語音的高速發(fā)展,離不開互聯(lián)網(wǎng)的強(qiáng)勢推動(dòng)。云知聲作為國內(nèi)智能語音創(chuàng)業(yè)企業(yè)的代表,自2012年創(chuàng)立以來一直受到業(yè)界關(guān)注。在2017WOTI全球創(chuàng)新技術(shù)峰會(huì)前夕,51CTO編輯致電訪問云知聲創(chuàng)始人梁家恩先生,針對(duì)智能語音技術(shù)在國內(nèi)的發(fā)展現(xiàn)狀,以及云知聲的經(jīng)營之道進(jìn)行深入溝通。
云知聲CTO梁家恩
梁家恩,云知聲CTO.2001年畢業(yè)于中國科技大學(xué),2006年畢業(yè)于中國科學(xué)院自動(dòng)化研究所,獲博士學(xué)位,并留所負(fù)責(zé)語音技術(shù)創(chuàng)新和產(chǎn)業(yè)化;2011年加入盛大語音創(chuàng)新院任高級(jí)研究員;2012年創(chuàng)立云知聲;WOTI2017全球創(chuàng)新技術(shù)峰會(huì)分享嘉賓。
智能語音技術(shù)在物聯(lián)網(wǎng)中的應(yīng)用
智能語音的應(yīng)用從初期的手機(jī)助手形態(tài)(語音撥號(hào)、語音導(dǎo)航、語音搜索、語音聽寫等),發(fā)展到今天軟硬一體的遠(yuǎn)講降噪、語音喚醒、聲紋識(shí)別、語用計(jì)算、流式交互等等。
不同于傳統(tǒng)語音技術(shù)廠商和大型互聯(lián)網(wǎng)企業(yè),云知聲憑借自身的技術(shù)研發(fā)優(yōu)勢和新興物聯(lián)網(wǎng)市場定位迅速占領(lǐng)了市場。據(jù)梁家恩先生介紹,云知聲以智能語音交互技術(shù)起家,2014年開始布局物聯(lián)網(wǎng)產(chǎn)業(yè)化戰(zhàn)略,現(xiàn)已搭建起面向物聯(lián)網(wǎng)的"云-端-芯"一體化智能語音交互解決方案。在應(yīng)用方面,智能語音交互方案在智能家居、醫(yī)療、車載、教育等方面有很多令人看好的落地成果,在行業(yè)內(nèi)處于領(lǐng)先地位。
云知聲切入物聯(lián)網(wǎng)應(yīng)用,最早是從樂視超級(jí)電視合作開始的,當(dāng)時(shí)實(shí)現(xiàn)了LeTV的智能語音控制和音視頻資源搜索。2014年,很多家電廠商也開始尋求家電產(chǎn)品智能化方案,空調(diào)是相對(duì)比較剛需的,遠(yuǎn)講語音控制成為替代傳統(tǒng)遙控器的主要切入點(diǎn)。目前在空調(diào)方面,云知聲和美的、格力、長虹等都進(jìn)行了合作,實(shí)現(xiàn)了智能空調(diào)的遠(yuǎn)講語音控制的規(guī)模化量產(chǎn)。此外,智能音箱也是近幾年的熱點(diǎn),云知聲在今年6月的五周年發(fā)布會(huì)上,也推出了支持流式交互的智能音箱解決方案--Pandora。
智能語音技術(shù)主要面臨的挑戰(zhàn)
從當(dāng)前的語音識(shí)別技術(shù)發(fā)展看來,基礎(chǔ)理論和技術(shù)框架已經(jīng)基本成熟,目前主要是基于深度神經(jīng)網(wǎng)絡(luò)的識(shí)別架構(gòu),再加上大規(guī)模的真實(shí)數(shù)據(jù)訓(xùn)練。目前在手機(jī)端的近講語音識(shí)別錯(cuò)誤率可以做到3%以內(nèi),在電話語音識(shí)別錯(cuò)誤率可以做到6%以內(nèi),基本上接近或超過人工識(shí)別的水平。語義理解和知識(shí)圖譜等認(rèn)知技術(shù),目前還沒有形成通用的技術(shù)框架,主要是針對(duì)具體垂直領(lǐng)域進(jìn)行優(yōu)化,這部分有待突破性進(jìn)展。
目前語音交互技術(shù)面臨最大的挑戰(zhàn)還是來自產(chǎn)業(yè)應(yīng)用層面:
首先是針對(duì)專業(yè)領(lǐng)域的優(yōu)化,比如在醫(yī)療領(lǐng)域,通常專用詞匯比較多,讓我們普通人去聽的時(shí)候可能都寫不下來,只有經(jīng)過專業(yè)訓(xùn)練的醫(yī)生和護(hù)士才能準(zhǔn)確記錄;影視節(jié)目查詢、商品搜索、路徑導(dǎo)航等方面也同樣需要做針對(duì)性的優(yōu)化。
其次是相對(duì)復(fù)雜的口音和噪聲環(huán)境,包括全國各地的口音和方言、遠(yuǎn)講、噪聲、混響等,都是比較復(fù)雜的。聲音傳播能量是隨距離平方成反比關(guān)系的,傳播距離增加一倍能量就衰減到四分之一,在五米外采集的語音能量,和在一米采集能量相比就相差25倍,但噪聲并沒有因?yàn)榫嚯x而降低,加上距離遠(yuǎn)之后,房間會(huì)出現(xiàn)多次反射和疊加,還會(huì)形成混響效果,信噪比會(huì)下降很多,都會(huì)對(duì)識(shí)別效果造成影響,這些是需要麥克風(fēng)陣列結(jié)合語音聲學(xué)模型去解決的問題。
第三是低功耗、低成本、高可靠的問題,智能家電需要滿足綠色環(huán)保標(biāo)準(zhǔn),需要確保24小時(shí)誤喚醒低于1次,盡量不出現(xiàn)誤操作,要實(shí)現(xiàn)大規(guī)模量產(chǎn)出貨,還要降低整體方案的成本。面向物聯(lián)網(wǎng)的智能語音交互方案,如果功耗成本下不來就不能普及,智能手表、手環(huán)等依賴電池的穿戴設(shè)備,功耗和成本問題就更加嚴(yán)重。
最后是語音交互設(shè)計(jì)問題,這是語音技術(shù)產(chǎn)品化的重中之重,現(xiàn)在的物聯(lián)網(wǎng)設(shè)備,大到汽車、空調(diào)、機(jī)器人,小到玩具、穿戴設(shè)備等,有大有小、有帶屏幕和不帶屏幕、涉及不同的應(yīng)用領(lǐng)域,交互方式差異非常大,需要針對(duì)性優(yōu)化語義理解和知識(shí)圖譜。
語音交互是未來物聯(lián)網(wǎng)的重要交互手段,這是我們?yōu)槭裁窗盐锫?lián)網(wǎng)列為語音技術(shù)落地主戰(zhàn)場的原因。有了智能語音交互基礎(chǔ)之后,我們還要做好精準(zhǔn)和個(gè)性化的內(nèi)容和服務(wù),這才是用戶真正想要的。
改變用戶的使用方式
在智能語音最早進(jìn)入市場時(shí),用戶會(huì)覺得比較新奇,當(dāng)時(shí)用戶是需要對(duì)著話筒,在近講和安靜情況下比較配合才能使用(最初還需要用戶先念一段話來訓(xùn)練模型),所以大家覺得語音識(shí)別和人工智能技術(shù)不靠譜。最近這幾年,隨著深度學(xué)習(xí)技術(shù)和大數(shù)據(jù)的發(fā)展,智能語音技術(shù)的進(jìn)步已經(jīng)超出了很多用戶的想象,用戶可以無需預(yù)先訓(xùn)練,在真實(shí)應(yīng)用場景下實(shí)現(xiàn)相對(duì)自然的語音交互?,F(xiàn)階段用戶對(duì)語音交互的接受度在逐步提升,隨著語音應(yīng)用和服務(wù)的日臻完善,讓用戶會(huì)逐漸形成習(xí)慣,越來越接受這種交互方式,機(jī)器則可以通過后臺(tái)數(shù)據(jù)的不斷快速迭代提高精度,用戶就越來越喜歡用。
云知聲核心技術(shù)團(tuán)隊(duì)來自國內(nèi)外知名企業(yè)、高校和研究所,創(chuàng)始團(tuán)隊(duì)80%以上擁有博士學(xué)位,并具有超過十年的語音識(shí)別研發(fā)和應(yīng)用實(shí)戰(zhàn)經(jīng)驗(yàn)。核心團(tuán)隊(duì)的穩(wěn)定、決心和專注,對(duì)技術(shù)和產(chǎn)業(yè)相對(duì)獨(dú)立的判斷和規(guī)劃,這一切都是云知聲對(duì)智能語音技術(shù)產(chǎn)業(yè)化愿景的有力支撐。在未來五年,云知聲將會(huì)繼續(xù)給業(yè)內(nèi)帶來比現(xiàn)在要成熟和豐富得多技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用。
2017年7月21日-22日,由51CTO主辦的WOTI全球創(chuàng)新技術(shù)峰會(huì)將在北京富力萬麗酒店隆重舉行。本次峰會(huì)將圍繞機(jī)器學(xué)習(xí)、人機(jī)交互和智+應(yīng)用三個(gè)大主題展開,數(shù)十位專家級(jí)嘉賓將帶來多場精彩的技術(shù)內(nèi)容分享。屆時(shí),梁家恩先生將在巔峰論壇主會(huì)場與來賓分享"智能交互技術(shù)與物聯(lián)網(wǎng)應(yīng)用"主題演講。51CTO誠邀您蒞臨大會(huì),與我們共享技術(shù)帶來的喜悅。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】