這些耳熟能詳?shù)腣R語音技術(shù)方案您都了解過嗎？

作者：電子發(fā)燒友整理 2017-03-19 16:14:21

期，Oculus為三星Gear VR虛擬現(xiàn)實頭盔增加了兩項分別名為“Parties”和“Rooms”功能，旨在提高用戶在使用VR設備時進行更多的互動交流。

　近期，Oculus為三星Gear VR虛擬現(xiàn)實頭盔增加了兩項分別名為“Parties”和“Rooms”功能，旨在提高用戶在使用VR設備時進行更多的互動交流。2016年FaceBook創(chuàng)始人扎克伯格在會上也講到，“VR將成為下一個計算平臺，將帶領(lǐng)人們完全顛覆現(xiàn)有的網(wǎng)絡社交模式。”VR社交概念被炒得如火如荼，但VR路途卻并不那么美好，首先，現(xiàn)今面臨的問題就是語音交互的問題。今天，小編就來為大家講講VR語音交互的這個問題。

[[185808]]

　　一、科大訊飛語音引擎系統(tǒng)

　　InterReco語音識別系統(tǒng)

　　科大訊飛推出全球領(lǐng)先的InterReco語音識別系統(tǒng)，InterReco驅(qū)動自助語音服務和語音搜索業(yè)務，是語音商務（V-Commerce）的核心動力引擎。目前，InterReco語音識別系統(tǒng)已經(jīng)能夠利用先進的自助語音服務解決方案來處理日益增長的信息咨詢、電子交易和客戶的服務需求?；贗nterReco的解決方案幫助用戶在任何時候、任何地點通過隨處可得的電話輕松自然的獲得信息與服務，享受高效、穩(wěn)定、便捷的應用體驗。

　　InterReco語音識別系統(tǒng)采用分布式架構(gòu)，繼承了科大訊飛久經(jīng)考驗的電信級語音平臺高穩(wěn)定的特點，可以滿足電信級應用的高可靠性、高可用性要求。針對傳統(tǒng)語音識別產(chǎn)品集成開發(fā)困難，業(yè)務設計繁瑣的問題，InterReco產(chǎn)品大大簡化了集成開發(fā)和業(yè)務開發(fā)的復雜度，為系統(tǒng)集成人員和業(yè)務開發(fā)人員提供了便捷、高效的開發(fā)環(huán)境。

InterReco產(chǎn)品的主要功能組成模塊及結(jié)構(gòu)

　　InterReco語音識別系統(tǒng)主要包括應用接口、識別引擎和操作系統(tǒng)適配三個層次，這三個邏輯層共同構(gòu)成完整的InterReco系統(tǒng)架構(gòu)。

　　應用接口是InterReco系統(tǒng)提供的開發(fā)接口，集成開發(fā)人員應關(guān)注這些接口的定義、功能和使用方法。識別引擎提供核心的語音識別功能，并作為應用接口的功能實現(xiàn)者；同時

　　為了便于開發(fā)和使用，系統(tǒng)在這一層提供了一系列高效、易用的工具。操作系統(tǒng)適配層屏蔽了多操作系統(tǒng)的復雜性，為識別引擎提供操作系統(tǒng)相關(guān)的底層支持。

　　InterReco語音識別系統(tǒng)按照邏輯組成可以分為識別語法（Grammar）、識別引擎核心（Recognizer Core）、語音端點檢測（Voice Activation Detector）、音頻輸入（Audio Source）四個子系統(tǒng)，系統(tǒng)的主要設計和開發(fā)將按照這些子系統(tǒng)進行。

　　嵌入式語音Aisound系列產(chǎn)品

　　同樣，科大訊飛還提供了電信級及嵌入式語音合成技術(shù)，嵌入式語音Aisound系列是公司一款全球領(lǐng)先的語音合成技術(shù)，其尺寸小，資源占用低，效率高，主要應用于嵌入式領(lǐng)域的語音合成軟件模塊。適用于不同行業(yè)的語音播報和應用需求。

　　科大訊飛嵌入式語音方案主要提供：XFS3031CNP中文語音合成芯片、XFS4243CE中英文語音合成模塊、XFS5152CE中英文語音合成芯片、XF-S4240中文語音合成模塊等四套語音合成方案，目前已成功應用于車載調(diào)度儀、信息機、氣象預警機、考勤機、排隊機、手持智能儀表、稅控機等各類信息終端產(chǎn)品上。另外，語音引擎還提供輕量級語音合成軟件Aisound，支持的嵌入式平臺和支持功能應用均非常廣泛。

XFS3031CNP中文語音芯片系統(tǒng)構(gòu)成圖

科大訊飛語音合成系統(tǒng)框架圖

　　二、云知聲“遠場語音識別技術(shù)”方案

　　在語音云平臺方面，云知聲主要在語音識別、語義理解以及語音合成等三方面具備自身的技術(shù)優(yōu)勢。語音交互作為VR領(lǐng)域的一個交互入口，云知聲更是強調(diào)適應各種不同日常場景的交互技術(shù)，目前，云知聲主要針對語音云平臺、智能車載、智能家居、教育等四個垂直領(lǐng)域的語音識別技術(shù)提供解決方案。

　　云知聲研發(fā)的最新語音技術(shù)——“基于雙麥克風陣列的遠場語音識別方案”。這款方案采用了世界領(lǐng)先的SSP技術(shù)可以有效抑制用戶語音之外的噪聲和混響效應，做到在95%以上的場景中可以有效地進行遠場拾音，配合云知聲的遠場語音識別引擎，保證了5米距離內(nèi)，達到精準的識別效果。同時，由于該方案只需要2只麥克風，安裝位置靈活，也無需考慮設備朝向。

云知聲“云端芯”生態(tài)

　　云知聲提供語音識別、語義理解、語音合成、聲紋識別等多項語音核心技術(shù)，云知聲開放平臺支持一站式語音應用開發(fā)，可自主創(chuàng)建語音應用、并可添加相應的匹配需求方案，通過平臺類型設置完成SDK集成包開發(fā)，并完成語音產(chǎn)品上線發(fā)布。

　　三、聲網(wǎng)Agora.io實時語音系統(tǒng)

[[185811]]

　　聲網(wǎng)Agora.io語音SDK采用全球獨有的32khz超寬頻音質(zhì)，是普通電話音質(zhì)的4倍，并提供多聲道音效系統(tǒng)，實現(xiàn)VR體驗中的“聽聲辯位”，堪比3D音效。更重要的是，實時語音還可以完美的與游戲背景音樂融合，大大增加了用戶的臨場感。

　　除了音頻處理上的優(yōu)化，聲網(wǎng)Agora.io依托全球部署的虛擬通信網(wǎng)絡，確保為游戲應用提供不卡、不掉線、超低延遲的體驗，特別針對網(wǎng)絡狀況不好情況下的獨特優(yōu)化，可極大提高游戲應用和游戲直播的互動性。這一“重量級武器”，開發(fā)者只需要30分鐘集成即可輕松完成。

　　針對無法實現(xiàn)基本的聽音辨位問題，聲網(wǎng)Agora.io推出了多聲道音效系統(tǒng)解決方案。通過集成語音通話SDK，可獲得擁有實時高清音質(zhì)、32khz超帶頻的語音編解碼器NOVA，實現(xiàn)VR畫面中聲音的立體化環(huán)繞，讓用戶感受到來自四面八方環(huán)繞的聲音，同時通過智能化回聲消除和降噪功能，讓用戶可以通過聲音精準定位空間位置，實現(xiàn)良好的畫面沉浸感受。

責任編輯：張燕妮來源：電子發(fā)燒友整理

語音技術(shù)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這些耳熟能詳?shù)腣R語音技術(shù)方案 您都了解過嗎？

這些耳熟能詳?shù)腣R語音技術(shù)方案您都了解過嗎？