思必馳趙恒藝:國內(nèi)智能語音行業(yè)發(fā)展前景廣闊
原創(chuàng)【51CTO.com原創(chuàng)稿件】隨著人工智能的快速發(fā)展,作為人工智能領(lǐng)域中最先落地的應(yīng)用之一,語音交互開始成為很多設(shè)備的標(biāo)配,被越來越多的人關(guān)注。微軟、蘋果、IBM、思必馳、科大訊飛等國內(nèi)外廠商都在研發(fā)語音交互技術(shù)的新策略新算法,似乎人類與語音的自然交互漸行漸近。
近日,在由51CTO主辦的2017WOTI全球創(chuàng)新技術(shù)峰會上,記者有幸采訪了思必馳副總裁趙恒藝,針對全球智能語音行業(yè)的發(fā)展現(xiàn)狀,思必馳DUI (AISpeech Dialogue User Interface)開放平臺以及思必馳未來的發(fā)展規(guī)劃等問題進(jìn)行了深入交流。
思必馳副總裁趙恒藝
據(jù)趙恒藝介紹,目前,思必馳主要針對車載、家居、機(jī)器人/故事機(jī)等產(chǎn)品做垂直領(lǐng)域下的對話式交互,根據(jù)各個垂直行業(yè)做場景化的語音技術(shù)創(chuàng)新、優(yōu)化,做差異化的語音解決方案。
全球智能語音行業(yè)的發(fā)展現(xiàn)狀
據(jù)今年年初,調(diào)查公司VoiceLabs發(fā)布的《2017年語音報告》顯示,2015年和2016年智能聲控設(shè)備的銷量共計650萬,2017年該數(shù)字將達(dá)到2,450萬。
目前,幾乎國內(nèi)外所有的IT巨頭都在積極布局人工智能領(lǐng)域,并都相繼進(jìn)入了智能語音市場,全球智能語音市場競爭日益激烈。在國外,蘋果收購英國對話公司VocalIQ并曝出在劍橋設(shè)有秘密研發(fā)地,據(jù)了解,思必馳的首席科學(xué)家俞凱是劍橋大學(xué)語音博士,也曾為VocalIQ的創(chuàng)始人之一;IBMWatson在英文語音識別領(lǐng)域也進(jìn)行著不斷地升級,帶來更好的體驗。在國內(nèi),BAT已在人工智能領(lǐng)域全面布局,智能語音成為其必要一環(huán);作為專業(yè)的語音公司,思必馳在其垂直細(xì)分領(lǐng)域的表現(xiàn)十分搶眼。
針對國內(nèi)智能語音行業(yè)的發(fā)展,趙恒藝認(rèn)為,一方面,從智能語音這個行業(yè)來講,整個華語行業(yè)有非常舉足輕重的作用。目前,在華語行業(yè),特別是在語音行業(yè)的一些科學(xué)家都是黃皮膚、黑眼睛的黃色人種,中國人在行業(yè)的發(fā)展中扮演著重要的角色。而且,漢語言是非常具有自身特色的語種,具有自己的研發(fā)規(guī)律和特點。另一方面,從國家層面來講,我國首部國家級人工智能發(fā)展規(guī)劃——《新一代人工智能發(fā)展規(guī)劃》,更是將新一代人工智能發(fā)展提高到了國家戰(zhàn)略層面,為國內(nèi)智能語音行業(yè)的發(fā)展提供了很好的環(huán)境,同時也為中國引領(lǐng)智能行業(yè)創(chuàng)造了機(jī)會。
人機(jī)如何更好的實現(xiàn)對話交互?
如何通過人工智能技術(shù)實現(xiàn)更自然的人機(jī)交互,這是企業(yè)都希望自己能夠做到的。趙恒藝表示,現(xiàn)在,人機(jī)交互到了一個比較關(guān)鍵的時期。隨著移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們不再局限于鼠標(biāo)鍵盤的交互方式,實現(xiàn)了智能終端觸摸屏的交互方式。如今,伴隨移動智能設(shè)備的快速發(fā)展,以及無屏化、小型化的場景開發(fā),自然語言的交互必將成為主流的交互手段之一。但是現(xiàn)在仍然是一個開始,思必馳一直認(rèn)為語音交互是非常重要的手段。
趙恒藝強(qiáng)調(diào):“聲音蘊(yùn)涵著內(nèi)容,通過口語式的對話能夠從我們的設(shè)備端去連接到更大的世界,我們希望跟設(shè)備做一個很好的打通,語音除了服務(wù)之外,就是連接各種各樣的設(shè)備,比如智能中控可以控制家里所有的設(shè)備,就是很常見的一個場景。然而,目前在這個行業(yè)仍然沒有真正的打通,中間還有非常多的路要走,需要業(yè)界同仁一起攜手去推進(jìn)整個行業(yè)的發(fā)展。”
以對話為核心的DUI開發(fā)者平臺
語音交互將使人機(jī)交互以人類最天然、熟悉的方式進(jìn)行,這是未來智能生活的必經(jīng)之路。作為在語音行業(yè)里比較有影響力的公司,思必馳推出了一站式對話定制開發(fā)平臺——DUI開放平臺。該平臺由趙恒藝帶領(lǐng)公司100多人的技術(shù)團(tuán)隊,歷時大半年完成。平臺集專業(yè)技能商店、多場景覆蓋、一站式開發(fā)、數(shù)據(jù)可視化等優(yōu)勢于一體,不僅面向普通開發(fā)者、企業(yè)用戶、也面向第三方平臺公司,提供語音識別、語音合成、語義理解等基礎(chǔ)技術(shù)能力,帶來一整套標(biāo)準(zhǔn)化方案,幫助企業(yè)根據(jù)產(chǎn)品具體需求,去實現(xiàn)更細(xì)致入微的智能交互。
趙恒藝表示,相對于市面上其他的平臺,DUI平臺的優(yōu)勢在于我們不僅僅是一個對話式的定制平臺,也在于:
第一,本地和云端均可以進(jìn)行相關(guān)的對話定制。現(xiàn)在,非常多的語音相關(guān)運(yùn)用都是云端,思必馳DUI開放平臺既提供云端服務(wù),也提供本地技能服務(wù),以車載上的應(yīng)用為例,DUI平臺可以在弱連接的情況下做到對話和運(yùn)用,確保在網(wǎng)絡(luò)不佳甚至是無網(wǎng)的環(huán)境下,基本功能仍然可用。同時,DUI平臺支持全流程的定制,包括語音識別、語音識別前的信號處理、語音喚醒、對話邏輯等很多工作的參數(shù)定制,可支持整個對話流程中所有的技術(shù)細(xì)節(jié)的靈活設(shè)置。
第二,全流程可控。語音操控只是一個入口,在用戶通過語音跟設(shè)備對話的過程中,思必馳關(guān)注的不僅僅是設(shè)備獲取信息,獲取到什么樣的信息和內(nèi)容,還包括如何形成最后設(shè)備端的出發(fā)與反饋,實際上,這仍然是需要在DUI開放平臺來解決的一些問題。滿足這些需要,就要連接到第三方設(shè)備、服務(wù)、數(shù)據(jù),從后端的技能出發(fā)連接更多、更大的資源。
第三,可以做用戶運(yùn)營。DUI平臺支持?jǐn)?shù)據(jù)可視化,思必馳大數(shù)據(jù)團(tuán)隊可以做到實時的數(shù)據(jù)更新,比較復(fù)雜和基礎(chǔ)的數(shù)據(jù)都可以做運(yùn)營管理和呈現(xiàn)。比如:可以給產(chǎn)品者發(fā)季度報表,同時開發(fā)者綁定思必馳微信服務(wù)號的帳號之后,就可以在手機(jī)上看到自己產(chǎn)品的數(shù)據(jù),從而時刻關(guān)注自己產(chǎn)品運(yùn)行的情況,從而幫助開發(fā)者加快研發(fā)迭代,為他們的用戶能夠提供更大的價值。
展望未來,夯實技術(shù)基礎(chǔ)仍是重中之重
目前,思必馳已經(jīng)與眾多業(yè)界一流公司達(dá)成合作,包括阿里、騰訊、小米、樂視、君正、聯(lián)想等等,幫助數(shù)億用戶通過思必馳自然語言交互技術(shù),實現(xiàn)與智能家居、車載等智能終端的互動交流,在業(yè)界獲得了很好的口碑。
談及思必馳在未來兩三年內(nèi)的發(fā)展規(guī)劃與目標(biāo),趙恒藝表示:“首先,夯實我們的技術(shù)基礎(chǔ)是重中之重,因為我們是技術(shù)驅(qū)動的公司。我們希望研究能力及核心的算法能力仍然保持在行業(yè)的領(lǐng)先地位,這是我們一定要做的事情。其次,在業(yè)務(wù)上,我們希望能夠做的更好,與我們的行業(yè)合作伙伴一起推進(jìn)基于DUI開放平臺的交互。我們希望在整個DUI平臺的產(chǎn)出量上十億的規(guī)模。”
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】