自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

挨踢部落直播課堂第八期:如何打造自然的人機交互體驗

原創(chuàng)
移動開發(fā)
計算機誕生之日起,人機交互的問題就一直限制著我們工作效率和使用體驗。從紙帶打孔到命令行、從鍵盤鼠標(biāo)到圖像界面、從觸控屏幕到語音輸入,隨著更多更新的技術(shù)出現(xiàn)和演進,人機交互的方式正在變得越來越友好自然。語音技術(shù)本身在基礎(chǔ)算法、應(yīng)用場景、交互體驗等方面也經(jīng)歷了諸多進化,到今天已經(jīng)可以實現(xiàn)全雙工上下文連續(xù)的自然的人機交互的需求了。

【51CTO.com原創(chuàng)稿件】計算機誕生之日起,人機交互的問題就一直限制著我們工作效率和使用體驗。從紙帶打孔到命令行、從鍵盤鼠標(biāo)到圖像界面、從觸控屏幕到語音輸入,隨著更多更新的技術(shù)出現(xiàn)和演進,人機交互的方式正在變得越來越友好自然。語音技術(shù)本身在基礎(chǔ)算法、應(yīng)用場景、交互體驗等方面也經(jīng)歷了諸多進化,到今天已經(jīng)可以實現(xiàn)全雙工上下文連續(xù)的自然的人機交互的需求了。


大家好,我是科大訊飛的汪艦,很高興有機會和大家做這次技術(shù)分享。

分享主要從以下三個方面展開
1、解析一下訊飛全雙工的上下文連續(xù)交互的原理和架構(gòu)介紹;
2、智能語音交互項目落地的一些總結(jié);
3、訊飛開放平臺語音相關(guān)技術(shù)介紹,以語音識別為例介紹HMM模型原理。

?[[213197]]?

計算機誕生之日起,人機交互的問題就一直限制著我們工作效率和使用體驗。從紙帶打孔到命令行、從鍵盤鼠標(biāo)到圖像界面、從觸控屏幕到語音輸入,隨著更多更新的技術(shù)出現(xiàn)和演進,人機交互的方式正在變得越來越友好自然。語音技術(shù)本身在基礎(chǔ)算法、應(yīng)用場景、交互體驗等方面也經(jīng)歷了諸多進化,到今天已經(jīng)可以實現(xiàn)全雙工上下文連續(xù)的自然的人機交互的需求了。

山東大漢糾正哥.mp4,??點擊查看視頻??

之前網(wǎng)上有個山東糾正哥的視頻爆紅網(wǎng)絡(luò),我們看一下視頻回顧一下:

視頻中的車載語音系統(tǒng)的人機交互體驗就是非常糟糕的,分析其原因主要有以下幾個方面,車載環(huán)境噪音影響嚴(yán)重;用戶方言口音導(dǎo)致識別錯誤;交互過程中不能隨時打斷;不支持對話式糾錯。


一、訊飛全雙工的上下文連續(xù)交互的原理和架構(gòu)介紹

??

為了增加難度我們考慮一下智能家居場景下的人機交互難題。在智能家居場景下的自然人機交互中,除了車載中噪音和口音的問題以外,也對我們提出了新的要求,就是需要解決遠場拾音的問題,還有要能理解紛繁復(fù)雜的智能家居控制指令。如果解決不了遠場拾音的問題,就會產(chǎn)生一個非常尷尬的情況,就是我要語音控制一個家電,我還需要走到它的跟前說話,既然走到跟前了,干脆點一下開關(guān)拉倒了。

說到這里就想機器人產(chǎn)品領(lǐng)域中一個搞笑的段子:我喊機器人到我跟前來,有點遠它聽不見,于是我需要走到機器人的跟前去再喊一遍。以上所說的這些“說話要靠近”、 “環(huán)境要安靜”這些問題在移動手機終端上的場景中則相對簡單的多。

??

總結(jié)一下上面的問題,我們需要做如下五個工作:第一個就是遠場拾音和降噪,第二個就是要能識別用戶的方言口音,第三個是實現(xiàn)全雙工的交互,就是我能隨時打斷機器,對它下達新的命令;第四個是糾錯,能夠在對話中糾正輸入錯誤的部分;第五個上下文關(guān)聯(lián)的多輪對話,要能夠持續(xù)的識別用戶說的多個命令或者提問。

只有解決了這些問題才是相對自然友好的人機交互體驗。

??


下面我們來看一下人工智能時代的人機交互界面——AIUI,看看它是如何逐個解決上面提到的那些問題的。

??

第一個,先來看看降噪和遠場拾音的問題,這兩個看似獨立的問題,其實是同一個問題。它們影響識別效果的原因都是它們明顯降低了錄音音頻的信噪比,所以這兩個問題的解決思路也是一致的——提高信噪比。
AIUI的硬件拾音部分使用的是麥克風(fēng)陣列系統(tǒng),通俗的說就將多個麥克風(fēng)按照特定的位置距離構(gòu)型組成一個陣列,利用冗余的多路拾音的數(shù)據(jù),通過降噪算法使得有效音頻部分得到增強,從而提高信噪比。麥克風(fēng)陣列被喚醒詞喚醒,開始工作后會識別目標(biāo)說話人相對陣列角度位置,從而增強目標(biāo)拾音波束區(qū)域的聲音,抑制其他角度過來的環(huán)境噪聲和環(huán)境反射聲。上面這種圖中展示的是四麥線性陣列的降噪原理圖。

??

目前用的比較多的是六麥環(huán)形陣列,顧名思義就是六個麥克風(fēng)按照環(huán)形均勻分布的構(gòu)型。該環(huán)形結(jié)構(gòu)的直徑是7厘米,她的最大有效拾音距離是5米,拾音數(shù)據(jù)的識別準(zhǔn)確度是90%,由于是環(huán)形結(jié)構(gòu)所以角度定位范圍是360度,定位誤差是正負5度。而線性陣列的角度定位范圍是180度,因為它的線性結(jié)構(gòu)的兩邊是對稱的。
另外我們前面提到的實時打斷功能也是麥克風(fēng)陣列模塊實現(xiàn)的,陣列處理可以接受若干路麥克風(fēng)錄音數(shù)據(jù)以外,還可以接受一路機器自身播放的聲音(回聲)做為參考信號。陣列可以將麥克風(fēng)錄音的回聲部分過濾掉,這樣識別作業(yè)就不會收到回聲的干擾,我們就可以用語義讓正在播放音樂智能音響切歌。

再來看一下第二個問題:方言口音的識別問題。目前AIUI可以做到方言口音普通話的自適配,而AIUI中的搭載的語音識別引擎還支持包括東北話、粵語、上海話、湖南話、閩南語等在內(nèi)的21種方言的識別。相關(guān)方言識別的效果可以在訊飛輸入法app中體驗。

??


第三個問題:用戶語義場景匹配的問題。以智能家居場景為例,目前市面上的家居家電電子產(chǎn)品不勝枚舉,每個產(chǎn)品的控制指令也不盡相同,而每條指令用戶的表達方式又千差萬別。這些都給智能家居產(chǎn)品的落地增加了非常大難度。AIUI語義系統(tǒng)內(nèi)置了39中常見家居產(chǎn)品的控制場景,用戶只需要通過勾選配置就可以使用它們。

第四個問題:全雙工持續(xù)交互的問題。目前常見的語音識別交互流程大多是,通過按鍵等操作來啟動一次識別,識別得到結(jié)果后,自動停止,再次識別需要再次按鍵操作。而AIUI的可以做到“錄音”、“斷句處理”、“識別反饋”三個模塊獨立流水作業(yè),也就是啟動識別后,一直在錄音,用戶可以一直說話,也可以持續(xù)的得到所說命令的反饋,知道用戶主動停止的識別會話,或者用戶一直不再說話,識別自動超時停止。

??

??

第五個問題:上下文對話理解。對于很多比較復(fù)雜的功能,用戶很難一句話兩句話表達清楚,我們智能采用上下文多輪對話的方式來改善用戶的交互體驗。例如訂火車票的場景,大部分用戶都是在和機器的多次對話中補充說明業(yè)務(wù)所需的參數(shù):出發(fā)地、目的地、出發(fā)時間、座次、票價范圍等等。
另外如上圖所示,利用上下文交互得到的歷史信息,我們也可以給比較燥熱的你推薦寫清涼的歌曲。

說了這么多,可能比較抽象,下面我想給大家直觀感受下AIUI實現(xiàn)的人機交互到底能實現(xiàn)怎么樣的交互到底是什么樣的。
這個是我們15年12月12號在北京國家會議中心發(fā)布的最新的人工智能交互的效果演示。

2015發(fā)布會.mp4,??點擊查看視頻??

二、智能語音交互項目落地的一些總結(jié)

下面我們看幾個使用AIUI的落地產(chǎn)品的例子。

??


她可以通過聲音控制音響,可以選擇切歌,調(diào)節(jié)音量,甚至可以控制智能家居。

??


這個可以通過語音進行空調(diào)的溫度、風(fēng)量控制,以及開關(guān)機等操作。

??


公子小白機器人,除了具有和普通的語音機器人類似的功能外,還具有把頭轉(zhuǎn)寫說話人進行對話的功能,其實現(xiàn)原理就是前面介紹的麥克風(fēng)陣列的波束定位的功能。

??


那么下面我們來總結(jié)下新的人機交互流程。
1、喚醒是必須,此后進入持續(xù)交互過程
2、語音識別新增需調(diào)控的子環(huán)節(jié),分散在硬件、軟件、云端各個部分相配合
3、因為持續(xù)交互,拒識成為必須
4、語義理解不再是單次簡單的語義抽取,需要按照對話進行管理,并且增加了對話相關(guān)的多個環(huán)節(jié)配合
5、語音合成的更多特性需求
6、識別和語義之間需要互相配合以達到最佳,合成的效果也需要依據(jù)語義對話來調(diào)控。

三、訊飛開放平臺語音相關(guān)技術(shù)介紹,以語音識別為例介紹HMM模型原理。

??

 

下面的時間,給大家從技術(shù)原理的角度簡單介紹一下語音識別,語音識別簡單的說通過語音信號處理和模式識別等技術(shù)讓機器自動識別甚至是理解人類口述的語言。相對于語音合成(文字轉(zhuǎn)語音),語音識別的發(fā)展歷史要短很多,只有幾十年的時間。

??


來看一下語音識別的大概過程。首先是聲音的輸入,輸入的音頻既可以是實時的來自于麥克風(fēng),也可以來自于現(xiàn)成的音頻文件。然后是音頻信號的預(yù)處理,包括降噪、回聲消除、端點檢查和模數(shù)轉(zhuǎn)換等等。特征提取,就是從音頻信號中提取出對識別有用的信息,將這些信息拿到聲學(xué)模型中去匹配,會得到這些音頻信號的發(fā)音信息,比如這里例子中的科大訊飛四個字的發(fā)音信息。然后把這些發(fā)音信息拿到語言模型中匹配,找出最大概率的發(fā)這四個音的漢字。這樣一個識別的過程就完成了。

這過程中比較核心的部分就是聲學(xué)模型和語言模型的匹配和處理,鼎鼎大名的HMM(隱馬爾科夫模型)和深度神經(jīng)網(wǎng)絡(luò)就是在這里發(fā)揮作用的。
由于HMM只需要少量的數(shù)據(jù)就能訓(xùn)練出一個可用的模型,所以在上世界80、90年代,HMM技術(shù)在語音識別領(lǐng)域幾乎是處于統(tǒng)治地位的,直到之后互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)還有大數(shù)據(jù)技術(shù)的爆發(fā),數(shù)據(jù)的來源已經(jīng)完全不是問題的情況下,深度神經(jīng)網(wǎng)絡(luò)才逐漸讓HMM退居二線。下面我們以HMM為例,講解一下它在語音識別中是如何發(fā)揮作用的。

??


先跟大家分享一個異地戀的故事,我從網(wǎng)絡(luò)聽來的,非常感人所以和大家分享一下。話說小明有個女朋友在北京上學(xué)。。。。。。。(見圖片)

??

為了讓復(fù)雜的問題簡化便于我們講解原理,我們來給出一些假設(shè)條件,比如女朋友只有購物散步和宅家里這三種活動(這些叫可觀察到的狀態(tài)),天氣也只有多云晴天和下雨三種(這些叫隱藏的狀態(tài),就是小明無法直接觀察到的狀態(tài)),再比如第一天是多云的情況下,第二天還是多云的概率是0.5、是晴天的概率是0.3、是下雨的概率是0.2;再比如今天是晴天的情況下,女朋友去購物的概率是0.5,去散步的概率是0.3,宅家里的概率是0.2。那么所有上述的假設(shè)條件合在一起其實就形成了一個模型,這個模型就叫做HMM模型。

模型建好之后,那么問題來了。。。

??


這三個問題在很早以前就有很多算法大師給出了解法,也就是說這些看起來很難解的問題對計算機來說都很快解出來。
那么同學(xué)可能要問了,你講了半天故事,和語音識別到底有什么關(guān)系啊?不要浪費時間直接講重點。
好,我下面將第二個問題和第三個問題抽象一下。

??

左邊這個部分就對應(yīng)剛剛的第二個問題:已知模型參數(shù),和女朋友的活動序列(就是可觀察狀態(tài)鏈),來求最大概率的隱藏狀態(tài)鏈(也就是這三天天氣的變化序列)。
而語音識別也是已知一個HMM和一段我們可觀察到的波形,來求這段音頻包含的最大概率的隱藏狀態(tài),這里隱藏狀態(tài)鏈指的就是識別結(jié)果中的文字。
對于第三個問題,由于缺少了一個已知的HMM模型,所以我們需要先利用已知的歷史數(shù)據(jù)來訓(xùn)練一個可用的模型,然后再來求識別結(jié)果。

??


這張圖片應(yīng)該看的更加清楚了,同樣一個模型,同樣一套模型參數(shù),各個狀態(tài)轉(zhuǎn)化和映射概率都沒有變,我們把可觀察狀態(tài)換成語音識別的輸入波形(或者說是波形特征),把隱藏狀態(tài)換成語音識別的輸出(也就是文字結(jié)果),就會發(fā)現(xiàn)這個HMM用來做語音識別簡直太合適啦。比如這里的例子,這樣三個連續(xù)的波形隱含的文字到底是“是十四”還是“四十四”,我們只需要分別把它們的概率算出來,哪個概率大我們就認(rèn)為是哪個結(jié)果。對于HMM模型未知的情況下,我們可以利用帶標(biāo)注的數(shù)據(jù)按照鮑姆-韋爾奇算法訓(xùn)練一個就可以了,只有足夠的數(shù)據(jù)就能訓(xùn)練出趨于完美的模型。
注意,這個例子中我們并沒有區(qū)分聲學(xué)模型和語言模型,而是將兩者放在一起抽象出來一個大的模型,將波形直接映射成文字,而省去類似拼音發(fā)音的中間結(jié)果。事實上HMM也的確是既可以做聲學(xué)模型,也可以做語言模型。

??


最后給大家介紹一個比較炫酷的功能——動態(tài)修正,其實細心的小伙伴已經(jīng)在之前的發(fā)布會的視頻中注意到它了。動態(tài)修正可以獲得更好的用戶交互體驗,用戶可以更加實時的拿到識別結(jié)果,雖然中間的過程當(dāng)中可能部分結(jié)果會不準(zhǔn)確,但是隨著上下文的判斷,引擎最終可以修正為準(zhǔn)確的識別結(jié)果。因此是否開啟動態(tài)修正功能,最終的識別結(jié)果都是一樣的。了解動態(tài)修正之前需要先了解一點:聽寫的識別結(jié)果是分多次返回的,將多次返回的結(jié)果拼接起來才是完整的結(jié)果。

動態(tài)修正.mp4,??點擊查看視頻??

這個是動態(tài)修正的對比演示視頻。

?[[213203]]?

以下問題是來自51CTO開發(fā)者社群小伙伴們的提問和分享

Q:運維-羅盤-上海:這個是通過嵌入式開發(fā)出來的?

A:訊飛開放平臺-汪艦老師:AIUI是軟硬一體的解決方案,其中硬件部分負責(zé)錄音和降噪的部分,識別理解和合成的部分是通過軟件接口來調(diào)用實現(xiàn)的。


Q:運維-羅盤-上海:從拾取到反饋需要多久?

A:訊飛開放平臺-汪艦老師:網(wǎng)絡(luò)正常的情況下,一般的業(yè)務(wù)從用戶說話,到結(jié)果播報(展示出來)的延遲平均在600ms以內(nèi)


Q:Android-磐石-北京:全雙工持續(xù)對話,是僅針對當(dāng)前某一個用戶嗎?如果是兩個人交替發(fā)出指令,怎么識別和反饋?

A:訊飛開放平臺-汪艦老師:可以,只要不是兩個人站在同一個角度同時說話就可以識別。


Q:運維-羅盤-上海:使用量,按并發(fā)收費?

A:訊飛開放平臺-汪艦老師:收費策略一般情況下按照訪問次數(shù)來收費,針對不同客戶的產(chǎn)品類型收費策略是比較靈活的。當(dāng)然,也是一定的免費額度可以供小客戶使用的。


Q:404→極星辰→廣東:是完全展示出來,還是開始展示?

A:訊飛開放平臺-汪艦老師:上面講的延遲是完全展示,云端反饋的結(jié)果其實是文本,如果是訂機票場景反饋的航班列表信息一般是客戶端繪制屏幕UI展示出來,普通的文本結(jié)果客戶端直接用合成播報出來即可。


Q:開發(fā)-沙蠣子-西安:上下文對話理解,這個是針對一個時間段內(nèi)的么?

A:訊飛開放平臺-汪艦老師:上下文的歷史記錄的清除有兩種方式,第一種是用戶通過api接口主動清除,另外一種是云端的超時自動清除。


Q:安徽-Coeus-PHP:可以購買到嗎?

A:訊飛開放平臺-汪艦老師:可以的,如果有需要逛逛訊飛開放平臺的官方網(wǎng)站。就是這里,關(guān)于購買的問題,這邊結(jié)束后,我們可以私聊哈,一對一支持。

【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:何星 來源: 51CTO開發(fā)者交流群
相關(guān)推薦

2017-08-11 16:20:36

技術(shù)坐診

2017-08-09 17:56:01

AIDL項目管理系統(tǒng)Java入棧出棧順序

2017-12-05 17:39:37

語音識別人機交互HMM

2018-04-18 10:46:29

AI

2017-11-30 09:20:06

2017-01-17 14:01:18

大數(shù)據(jù)框架結(jié)構(gòu) 數(shù)據(jù)源

2011-12-19 12:48:53

PhoneClubWindows Pho

2017-04-21 13:31:19

CIO 論壇

2011-11-09 15:41:10

Windows Pho

2013-08-02 16:11:07

IT半小時

2018-03-07 16:52:50

編程函數(shù)

2017-08-25 09:52:47

遠控技術(shù)

2017-09-11 14:08:50

技術(shù)坐診

2017-07-12 14:21:41

技術(shù)坐診

2011-05-20 12:34:05

大話IT云服務(wù)中斷亞馬遜

2013-08-16 11:24:31

開源Hello!Geek

2011-03-22 10:45:50

HTML5

2017-03-15 15:11:52

開發(fā)者

2017-04-07 16:44:43

開發(fā)者

2017-05-10 15:43:53

開發(fā)者
點贊
收藏

51CTO技術(shù)棧公眾號