自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這些耳熟能詳?shù)腣R語音技術(shù)方案 您都了解過嗎?

人工智能 語音識別
期,Oculus為三星Gear VR虛擬現(xiàn)實頭盔增加了兩項分別名為“Parties”和“Rooms”功能,旨在提高用戶在使用VR設備時進行更多的互動交流。

 近期,Oculus為三星Gear VR虛擬現(xiàn)實頭盔增加了兩項分別名為“Parties”和“Rooms”功能,旨在提高用戶在使用VR設備時進行更多的互動交流。2016年FaceBook創(chuàng)始人扎克伯格在會上也講到,“VR將成為下一個計算平臺,將帶領(lǐng)人們完全顛覆現(xiàn)有的網(wǎng)絡社交模式。”VR社交概念被炒得如火如荼,但VR路途卻并不那么美好,首先,現(xiàn)今面臨的問題就是語音交互的問題。今天,小編就來為大家講講VR語音交互的這個問題。

[[185808]]

  一、科大訊飛語音引擎系統(tǒng)

  InterReco語音識別系統(tǒng)

  科大訊飛推出全球領(lǐng)先的InterReco語音識別系統(tǒng),InterReco驅(qū)動自助語音服務和語音搜索業(yè)務,是語音商務(V-Commerce)的核心動力引擎。目前,InterReco語音識別系統(tǒng)已經(jīng)能夠利用先進的自助語音服務解決方案來處理日益增長的信息咨詢、電子交易和客戶的服務需求?;贗nterReco的解決方案幫助用戶在任何時候、任何地點通過隨處可得的電話輕松自然的獲得信息與服務,享受高效、穩(wěn)定、便捷的應用體驗。

  InterReco語音識別系統(tǒng)采用分布式架構(gòu),繼承了科大訊飛久經(jīng)考驗的電信級語音平臺高穩(wěn)定的特點,可以滿足電信級應用的高可靠性、高可用性要求。針對傳統(tǒng)語音識別產(chǎn)品集成開發(fā)困難,業(yè)務設計繁瑣的問題,InterReco產(chǎn)品大大簡化了集成開發(fā)和業(yè)務開發(fā)的復雜度,為系統(tǒng)集成人員和業(yè)務開發(fā)人員提供了便捷、高效的開發(fā)環(huán)境。

InterReco產(chǎn)品的主要功能組成模塊及結(jié)構(gòu)

  InterReco語音識別系統(tǒng)主要包括應用接口、識別引擎和操作系統(tǒng)適配三個層次,這三個邏輯層共同構(gòu)成完整的InterReco系統(tǒng)架構(gòu)。

  應用接口是InterReco系統(tǒng)提供的開發(fā)接口,集成開發(fā)人員應關(guān)注這些接口的定義、功能和使用方法。識別引擎提供核心的語音識別功能,并作為應用接口的功能實現(xiàn)者;同時

  為了便于開發(fā)和使用,系統(tǒng)在這一層提供了一系列高效、易用的工具。操作系統(tǒng)適配層屏蔽了多操作系統(tǒng)的復雜性,為識別引擎提供操作系統(tǒng)相關(guān)的底層支持。

  InterReco語音識別系統(tǒng)按照邏輯組成可以分為識別語法(Grammar)、識別引擎核心(Recognizer Core)、語音端點檢測(Voice Activation Detector)、音頻輸入(Audio Source)四個子系統(tǒng),系統(tǒng)的主要設計和開發(fā)將按照這些子系統(tǒng)進行。

  嵌入式語音Aisound系列產(chǎn)品

  同樣,科大訊飛還提供了電信級及嵌入式語音合成技術(shù),嵌入式語音Aisound系列是公司一款全球領(lǐng)先的語音合成技術(shù),其尺寸小,資源占用低,效率高,主要應用于嵌入式領(lǐng)域的語音合成軟件模塊。適用于不同行業(yè)的語音播報和應用需求。

  科大訊飛嵌入式語音方案主要提供:XFS3031CNP中文語音合成芯片、XFS4243CE中英文語音合成模塊、XFS5152CE中英文語音合成芯片、XF-S4240中文語音合成模塊等四套語音合成方案,目前已成功應用于車載調(diào)度儀、信息機、氣象預警機、考勤機、排隊機、手持智能儀表、稅控機等各類信息終端產(chǎn)品上。另外,語音引擎還提供輕量級語音合成軟件Aisound,支持的嵌入式平臺和支持功能應用均非常廣泛。

XFS3031CNP中文語音芯片系統(tǒng)構(gòu)成圖

科大訊飛語音合成系統(tǒng)框架圖

  二、云知聲“遠場語音識別技術(shù)”方案

  在語音云平臺方面,云知聲主要在語音識別、語義理解以及語音合成等三方面具備自身的技術(shù)優(yōu)勢。語音交互作為VR領(lǐng)域的一個交互入口,云知聲更是強調(diào)適應各種不同日常場景的交互技術(shù),目前,云知聲主要針對語音云平臺、智能車載、智能家居、教育等四個垂直領(lǐng)域的語音識別技術(shù)提供解決方案。

  云知聲研發(fā)的最新語音技術(shù)——“基于雙麥克風陣列的遠場語音識別方案”。 這款方案采用了世界領(lǐng)先的SSP技術(shù)可以有效抑制用戶語音之外的噪聲和混響效應,做到在95%以上的場景中可以有效地進行遠場拾音,配合云知聲的遠場語音識別引擎,保證了5米距離內(nèi),達到精準的識別效果。同時,由于該方案只需要2只麥克風,安裝位置靈活,也無需考慮設備朝向。

云知聲“云端芯”生態(tài)

  云知聲提供語音識別、語義理解、語音合成、聲紋識別等多項語音核心技術(shù),云知聲開放平臺支持一站式語音應用開發(fā),可自主創(chuàng)建語音應用、并可添加相應的匹配需求方案,通過平臺類型設置完成SDK集成包開發(fā),并完成語音產(chǎn)品上線發(fā)布。

  三、聲網(wǎng)Agora.io實時語音系統(tǒng)

[[185811]]

  聲網(wǎng)Agora.io語音SDK采用全球獨有的32khz超寬頻音質(zhì),是普通電話音質(zhì)的4倍,并提供多聲道音效系統(tǒng),實現(xiàn)VR體驗中的“聽聲辯位”,堪比3D音效。更重要的是,實時語音還可以完美的與游戲背景音樂融合,大大增加了用戶的臨場感。

  除了音頻處理上的優(yōu)化,聲網(wǎng)Agora.io依托全球部署的虛擬通信網(wǎng)絡,確保為游戲應用提供不卡、不掉線、超低延遲的體驗,特別針對網(wǎng)絡狀況不好情況下的獨特優(yōu)化,可極大提高游戲應用和游戲直播的互動性。這一“重量級武器”,開發(fā)者只需要30分鐘集成即可輕松完成。

  針對無法實現(xiàn)基本的聽音辨位問題,聲網(wǎng)Agora.io推出了多聲道音效系統(tǒng)解決方案。通過集成語音通話SDK,可獲得擁有實時高清音質(zhì)、32khz超帶頻的語音編解碼器NOVA,實現(xiàn)VR畫面中聲音的立體化環(huán)繞,讓用戶感受到來自四面八方環(huán)繞的聲音,同時通過智能化回聲消除和降噪功能,讓用戶可以通過聲音精準定位空間位置,實現(xiàn)良好的畫面沉浸感受。

責任編輯:張燕妮 來源: 電子發(fā)燒友整理
相關(guān)推薦

2018-06-21 07:25:04

2021-02-22 09:00:00

Jenkins工具開發(fā)

2018-07-27 15:20:50

企業(yè)新興技術(shù)

2021-01-07 05:40:13

BLE模塊Android

2023-12-07 08:13:58

Java開發(fā)

2018-06-20 10:49:22

2020-11-24 09:45:17

刪庫程序員代碼

2013-06-03 15:15:51

2019-09-17 09:31:10

2023-12-11 07:40:00

CDN網(wǎng)絡服務器

2020-10-28 07:53:14

顯示器

2021-01-11 05:37:54

倉儲模式接口

2020-11-26 13:21:09

應用開發(fā)Serverless

2022-01-18 11:06:44

Wi-Fi路由器網(wǎng)絡技術(shù)

2011-05-05 09:54:05

靜態(tài)代碼

2024-07-17 21:02:42

2015-11-06 09:39:52

2015-11-06 10:52:51

2011-10-08 10:43:06

軟件工程

2021-06-15 07:32:59

Cookie和Sess實現(xiàn)跨域
點贊
收藏

51CTO技術(shù)棧公眾號