五分鐘技術(shù)趣談 | 基于Speech框架實(shí)現(xiàn)APP智能語(yǔ)音交互的解決方案
Part 01
概述
系統(tǒng)的語(yǔ)音框架無(wú)法被外部開(kāi)發(fā)者使用,但是蘋(píng)果基于機(jī)器學(xué)習(xí)能力為開(kāi)發(fā)者開(kāi)放了具備類(lèi)似能力行為的Speech框架,你可以在自己開(kāi)發(fā)的APP應(yīng)用程序中通過(guò)調(diào)用開(kāi)放的接口能力,就可以實(shí)現(xiàn)類(lèi)型鍵盤(pán)聽(tīng)寫(xiě)功能。例如,你可以使用語(yǔ)音識(shí)別來(lái)識(shí)別語(yǔ)音命令或在應(yīng)用程序的其他部分中處理文本聽(tīng)寫(xiě)。你可以在許多語(yǔ)言中執(zhí)行語(yǔ)音識(shí)別,但每個(gè)SFSpeech對(duì)象在一種語(yǔ)言上運(yùn)行,并且Speech框架還依賴于蘋(píng)果的服務(wù)器進(jìn)行語(yǔ)音識(shí)別,要求設(shè)備始終連接網(wǎng)絡(luò)。
Part 02
Speech框架:類(lèi)結(jié)構(gòu)
Part 03
Speech框架:語(yǔ)音識(shí)別過(guò)程
Speech框架為快速識(shí)別語(yǔ)音提供了統(tǒng)一的接口能力,使用方便,但也存在一些需要注意的地方,具體如下:
處理由語(yǔ)音識(shí)別限制引起的故障:語(yǔ)音識(shí)別是基于網(wǎng)絡(luò)的服務(wù),單個(gè)設(shè)備可能在每天可以執(zhí)行的識(shí)別數(shù)量方面受到限制,并且每個(gè)應(yīng)用程序可能會(huì)根據(jù)其每天發(fā)出的請(qǐng)求數(shù)量進(jìn)行全局限制。
音頻持續(xù)時(shí)間1分鐘的限制:語(yǔ)音識(shí)別對(duì)電池壽命和網(wǎng)絡(luò)使用造成相對(duì)較高的負(fù)擔(dān)。為了最大限度地減輕這種負(fù)擔(dān),該框架會(huì)停止持續(xù)時(shí)間超過(guò)1分鐘的語(yǔ)音識(shí)別任務(wù),此限制類(lèi)似于與鍵盤(pán)相關(guān)的聽(tīng)寫(xiě)限制。
不要對(duì)私人或敏感信息進(jìn)行語(yǔ)音識(shí)別:不要發(fā)送密碼,健康或財(cái)務(wù)數(shù)據(jù)以及其他敏感語(yǔ)音進(jìn)行識(shí)別。
Part 04
Speech框架:和家親上的實(shí)踐應(yīng)用
Speech框架在和家親上的主要應(yīng)用在智能語(yǔ)音客服和智能管控上,通過(guò)Speech框架,快速實(shí)現(xiàn)語(yǔ)音輸入到內(nèi)容文本的轉(zhuǎn)換顯示,極大提高了交互體驗(yàn)效果。和家親應(yīng)用Speech框架實(shí)現(xiàn)設(shè)備語(yǔ)音管控的主要方案邏輯流程如下圖所示??
圖片
主要的流程步驟如下:
1??APP本地構(gòu)建匹配檢索數(shù)據(jù)表,包括管控動(dòng)作語(yǔ)義匹配檢索表、設(shè)備或活動(dòng)語(yǔ)義匹配檢索表、自定義語(yǔ)音管控指令匹配檢索表、默認(rèn)語(yǔ)音管控指令匹配檢索表。
2??應(yīng)用Speech框架能力接口,將app采集的語(yǔ)音輸入轉(zhuǎn)換成文本內(nèi)容,并在APP交互頁(yè)面上顯示。
3??將步驟2中轉(zhuǎn)換好的文本內(nèi)容與本地構(gòu)建的自定義語(yǔ)音管控指令匹配檢索表和默認(rèn)語(yǔ)音管控指令匹配檢索表分別進(jìn)行文本整體相似度計(jì)算排序,分別找到找到一級(jí)相似管控指令及其置信度,三級(jí)相似指令及其置信度。
4??將步驟2中轉(zhuǎn)換好的文本內(nèi)容進(jìn)行分詞處理,提取文本中的動(dòng)詞、名詞、地名、產(chǎn)品名等。
5??將步驟4中的動(dòng)詞、名詞等分別與管控動(dòng)作語(yǔ)義匹配檢索表、設(shè)備或活動(dòng)語(yǔ)義匹配檢索表進(jìn)行相似度計(jì)算匹配,找到最優(yōu)的動(dòng)作匹配結(jié)果和最優(yōu)的活動(dòng)或設(shè)備匹配結(jié)果,將動(dòng)作和活動(dòng)或設(shè)備組合形成二級(jí)管控指令及其置信度。
6??將上述的一、二、三級(jí)管控指令按照不同權(quán)重和其對(duì)應(yīng)的置信度結(jié)果進(jìn)行優(yōu)先級(jí)排序,并將排序結(jié)果返回顯示在交互頁(yè)面,等待用戶確認(rèn)最終指令。
7??執(zhí)行最終管控指令。