科勝訊Conexant:語音交互重在提升應(yīng)用體驗
原創(chuàng)【51CTO.com原創(chuàng)稿件】或許,很多朋友都沒有聽說過科勝訊Conexant這家公司,筆者在收到采訪邀請之前,也完全不了解它們。不過,這家專業(yè)的音視頻高科技公司,已經(jīng)在語音交互領(lǐng)域取得了不俗的成績。憑借優(yōu)秀的軟硬件產(chǎn)品解決方案和聲學積累獲取了一大批的合作客戶,像百度、騰訊、亞馬遜這些科技巨頭,在人工智能等相關(guān)產(chǎn)品上均采用了科勝訊公司的語音交互解決方案。
市場占有率***的語音交互解決方案廠商
科勝訊Conexant總部位于美國加州爾灣,主要有音頻和成像兩個事業(yè)部組成。其中,音頻事業(yè)部又有兩個業(yè)務(wù)部門組成,一個是語音交互業(yè)務(wù),一個是數(shù)字耳機業(yè)務(wù)。此次筆者采訪的重點為語音交互方面的內(nèi)容。
據(jù)了解,五年之前科勝訊開始進入語音交互領(lǐng)域,在產(chǎn)品研發(fā)上投入了大量的經(jīng)費,積累了豐富的經(jīng)驗??梢哉f,它是***家涉及遠場語音交互的公司。根據(jù)科勝訊的介紹,科勝訊語音交互產(chǎn)品解決方案即包括DSP硬件,又集成了優(yōu)秀的軟件算法,并積累了大量的聲學設(shè)計經(jīng)驗。
筆者獲悉,科勝訊AudioSmart DSP實際上是一個系統(tǒng)芯片,除了DSP之外還集成了微控制器, 模擬數(shù)字轉(zhuǎn)換器并嵌入了科勝訊的專有Smart Source Pickup 和 Smart Source Locator算法??苿儆嵄硎?,之所以采用這樣的設(shè)計,主要是考慮到原廠需求。原廠需要接入高性能的麥克風,所以在設(shè)計之初它就是一個功能強大的系統(tǒng)芯片。
科勝訊表示,基于優(yōu)秀的軟硬件組合和對客戶喚醒詞和語音識別的聲學優(yōu)化和設(shè)計經(jīng)驗,科勝訊語音交互產(chǎn)品成為當前市場中占有率最多的解決方案。在國內(nèi)市場,百度DuerOS產(chǎn)品開發(fā)套件和參考設(shè)計均采用了科勝訊方案,騰訊小微也列科勝訊作為重要的合作伙伴。在國際市場,科勝訊與亞馬遜建立了非常密切的合作關(guān)系,并成為亞馬遜官方承認的、給第三方開發(fā)者提供語音解決方案的***雙麥克風和4麥克風指定廠商。
雙麥克風仍是當前最彈性的解決方案
當市場主要推廣6個麥克風或7個麥克風的語音交互解決方案的時候,科勝訊卻推出了雙麥克風和四麥克風兩種不同的語音交互解決方案,針對不同應(yīng)用場景需求, 以滿足不同行業(yè)與領(lǐng)域客戶的需求。談到兩種方案的應(yīng)用場景優(yōu)缺點,Conexant表示,兩個麥克風是目前性價比***的解決方案,其***的優(yōu)點是能夠用在任何產(chǎn)品上,沒有太多設(shè)計上的限制并提供出色的語音拾音。例如智能音箱、智能溫度控制器、智能燈泡、智能電視、智能機頂盒和其他智能家電產(chǎn)品上,大都采用兩個麥克風的解決方案,并且性能和效果都非常好。
相比較兩個麥克風的方案,四個麥克風的解決方案***的特點在于其提供了聲源定位功能,因此性能更強。在科勝訊看來,聲源定位是具有潛力的功能,在具備聲源定位的未來產(chǎn)品上加裝攝像頭,即可以實現(xiàn)更多更豐富的應(yīng)用。例如人類與機器人的交互,機器人能夠通過聲源定位來確定人的位置,并完成一系列的指令,如拍照、遞咖啡等,這是與兩個麥克風方案***的差別。
因為擁有專有的算法和高度優(yōu)化的硬件, 科勝訊的兩個麥克風和4個麥克風解決方案甚至能夠?qū)崿F(xiàn)比其他更多麥克風的解決方案更好的性能. 由于兩個麥克風的方案設(shè)計出的產(chǎn)品可以掛在墻上、天花板上,無論如何擺放,都能夠完成360度拾音,應(yīng)用場景非常豐富,因此兩個麥克風方案仍然是當前最常見、最為彈性且最多被采用的方案。
語音交互的重點在于應(yīng)用體驗
語音交互需要解決各種各樣的難題,例如喚醒率, 語音識別率、誤喚醒率等等,特別是面對各種復雜和不可預(yù)測的應(yīng)用環(huán)境,如何有效解決這些問題,給用戶***的應(yīng)用體驗,給語音交互提出了很高的要求。
由于采用了自已研發(fā)的芯片、算法,并且積累了大量的聲學經(jīng)驗,因此在音頻處理方面科勝訊已經(jīng)有了非常成熟的解決方案。Conexant表示,不管面對什么樣的機器,手機、電視或是任何一個終端產(chǎn)品,重要的是能夠在各個不同環(huán)境下準確識別聲音,將語音傳到AI引擎上面去,如百度DuerOS、騰訊云小微, 亞馬遜Alexa等。在語音識別上,噪音、回聲、混響是遠場語音交互面對的***挑戰(zhàn)。對于科勝訊而言,這些困難都已經(jīng)攻克,現(xiàn)在重點是如何幫助AI供應(yīng)商和制造商開發(fā)良好用戶體驗的產(chǎn)品。
據(jù)了解,目前市場中80-90%用到的四個麥克風以上方案都是基于Beamforming降噪技術(shù),Beamforming降噪技術(shù)的入門門檻較低,從根本上講,性能將隨著麥克風的增加而提高。科勝訊則采用了自己獨有的Smart Source Pickup技術(shù),其***的優(yōu)勢在于360度拾音時,采用了獨特的算法來分辨人聲與噪聲、回音,純粹用演算方法來區(qū)分實現(xiàn)。此外,當聲波束傳送過來時,Beamforming技術(shù)不能準確分辨在同一位置的人聲和噪聲,但Smart Source Pickup技術(shù)不存在這個問題,不管聲音在什么地方,人在什么地方,噪音在什么地方,都能夠把人聲抓出來。Smart Source Pickup技術(shù)用的是性噪比,是聲音跟噪音的比例,而不是噪音跟人聲的位置,區(qū)別非常大。
“語音交互的準確率高不高,誤喚醒率是否降到很低,這些特性都會影響到用戶對產(chǎn)品的使用體驗。如果用戶能夠更自然的與產(chǎn)品講話,更自然的問各種問題,并不是一定要聽固定的詞語,能夠很正常的像人與人之間交互一樣回答你的問題,這才是語音交互的最終目標。只有用戶體驗好,產(chǎn)品才會繼續(xù)向著更好的方向發(fā)展。”Conexant如是說。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】