自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

【大咖來了第6期】面向交互的人工智能

原創(chuàng)

作者：曹洪偉 2019-11-21 20:45:31

本期出席《大咖來了》直播欄目的嘉賓是百度DuerOS首席布道師曹洪偉，進行了主題為《面向交互的人工智能》的分享，主要講解了語音交互中用到的AI技術，如ASR、NLU、NLG、TTS等，以及基于這些細分技術構建的面向對話式的人工智能操作系統(tǒng)——DuerOS。

【51CTO.com原創(chuàng)稿件】本期出席《大咖來了》直播欄目的嘉賓是百度DuerOS首席布道師曹洪偉，進行了主題為《面向交互的人工智能》的分享，主要講解了語音交互中用到的AI技術，如ASR、NLU、NLG、TTS等，以及基于這些細分技術構建的面向對話式的人工智能操作系統(tǒng)——DuerOS，通過本次分享大家可以基本上掌握如何在智能語音交互平臺上開發(fā)應用，進一步體會智能語音如何服務我們的生活。

語音使人機交互更加便捷

什么是交互？交互是指 A 和 B 之間的一系列動作和行為，語出《京氏易傳·震》：“震分陰陽，交互用事”。

那什么是人機交互呢？人機交互是一門研究系統(tǒng)與用戶之間的互動關系的學問。系統(tǒng)可以是各種各樣的機器，也可以是計算機化的系統(tǒng)和軟件。人機交互重點研究用戶與計算機之間的接口，既包括人類與計算機的交互方式，也包括設計技術，使人類以新穎的方式與計算機交互。人機交互與人機界面是兩個有著緊密聯(lián)系而又不盡相同的概念。

在計算機時代，人機交互的發(fā)展歷程如下圖所示：

從鍵盤+鼠標到使用觸摸屏，再到語音交互，人機交互在不斷地演進，由面向機器的人機交互，演變?yōu)槊嫦蛴脩糇陨淼慕换ァＵZ音是非常低成本的溝通手段和工具，為我們帶來非常大的便利。

語音交互的優(yōu)勢在于：其一是速度，每分鐘可以說120到150個字。其二是釋放雙手，做飯時通過語音可以完成一些期望做的事。其三是直覺性，語言是人類的天賦，也是人類交際溝通的自然手段。其四是同理心，語音中包含了語氣、音量、語調和語速，這些特征傳達了大量的信息。

語音交互離不開人工智能技術，在語音交互中所涉及的人工智能技術如下圖所示：

如今，智能語音交互正在為我們服務，背后有一整套完整的技術和流程，從語音喚醒到自動語音識別，再到自然語言理解，最終通過自然語言生成以及語音合成技術形成反饋，整套流程背后又有很多細分的AI技術在支持，如對話管理、深度學習，DNN、CNN、NLP、TTS等。

面對涉及如此之廣的AI技術，我們怎樣才能應用到工作和生活之中呢？這和我們有了計算機之后，如何使用計算機是類似的。計算機上的操作系統(tǒng)及其API為程序員們打開了計算機世界的大門。面向智能交互的AI系統(tǒng)，我們同樣需要一個類似的操作系統(tǒng)，才能方便而且高效地構建我們的人工智能交互應用。

面向語音交互的DuerOS操作系統(tǒng)

百度的DuerOS是一個面向語音交互的對話式人工智能操作系統(tǒng)，在包含了語音交互的整套流程的同時，還提供開放能力平臺，如SDK、工具、編程接口和設備等，如下圖所示：

DuerOS操作系統(tǒng)有三個層面，分別是智能設備開放平臺（應用層）、對話核心系統(tǒng)（核心層）和技能開放平臺（能力層）。下面我們進一步從基于DuerOS的智能語音設備、智能語音設備的工作原理、智能語音交互的交互流程和智能語音應用的開發(fā)流程等方面了解DuerOS操作系統(tǒng)。

了解一個操作系統(tǒng)主要是看有哪些語音設備，基于這些設備才能進行具體的應用開放，DuerOS的智能語音設備有很多，部分的小度系列產(chǎn)品如下圖：

DuerOS廣泛適用于音箱、電視、冰箱、手機、機器人、車載、可穿戴、玩具等多種場景及設備，這些智能語音設備的工作原理是怎樣的呢？

相比傳統(tǒng)設備，智能語音設備是面向交互的，通過語音、觸屏進行輸入，利用TTS、麥克風、信號處理等手段，把本地能力轉移到云端，再利用云端ASR、TTS、NLU、NLG等具體的AI技術實現(xiàn)智能語音，最后把業(yè)務引擎、業(yè)務資源和技能服務進行融合，這樣就可以通過語音完成一系列服務，如下圖所示。

技能開放平臺包含很多層次，如底層基礎能力、BOT-SDK、配置服務、協(xié)議開放、平臺開放、周邊工具等。下面介紹一下智能語音交互應用的交互流程。

這里，我們以詢問天氣意圖為例，當用戶發(fā)出語音指令后，智能音箱本地做用戶喚醒詞識別，然后通過音箱把語音流傳到DuerOS平臺，DuerOS平臺進行語音識別、語義理解、發(fā)送結構化數(shù)據(jù)給技能服務器。技能服務器處理請求，向DuerOS平臺返回文本或可視化的結果，DuerOS平臺收到后，TTS服務器處理返回的文本，將播報流發(fā)送給智能音箱，如果是有屏音箱的話，也可將可視化結果在設備上進行展示。

那么，我們如何在DuerOS開發(fā)一個智能語音交互的應用呢？

智能語音交互應用的開發(fā)流程一般分為六個步驟，分別是注冊、創(chuàng)建技能、建立交互模型、編寫代碼部署、調試與驗證和技能上線商用，如下，為具體步驟圖解。

第一步，訪問https://dueros.baidu.com/dbp, 注冊成為DuerOS的開發(fā)者。

第二步，創(chuàng)建技能，和我們在Android或iOS上創(chuàng)建應用是類似的。

進入技能控制臺，選擇“從頭開始”創(chuàng)建自定義技能。技能名稱是2～50個字符，調用名稱是2～15個字符。調用名稱是技能服務的入口，打開+調用名稱。不建議使用生僻詞匯、中英文混合及數(shù)字與漢字混合。技能創(chuàng)建后會生成一個技能ID，是技能服務在DuerOS系統(tǒng)中的唯一標識。

第三步，建立交互模型，這可能是智能語音應用與App，小程序，web之類應用的最大的不同點。

用戶詢問的核心在這里稱為意圖，建立交互模型就是創(chuàng)建多種用戶意圖的過程。意圖的標識就相當于具體事件的編號。交互模型的建立實際上是一種面向接口的設計方式，明確的交互的意圖就是在一定程度上確定了技能服務的功能。

第四步，編寫代碼并部署。

DuerOS 提供了高效安全的百度云服務免費使用，開放平臺的在線編輯器提供了對Python 和Node 的語言支持，編碼主要是對交互模型中的意圖進行匹配和處理。在線編輯器中的代碼將自動部署在百度云的CFC，CFC是百度云FaaS無服務架構的具體應用。當然，技能代碼的編寫還可以通過Java，PHP等其他語言進行編寫，也可以部署在自己的服務器或者其他云服務上。

第五步，對技能服務進行測試與驗證。

DuerOS開放平臺提供了兩種測試方式：模擬器和真機調試。在真機調試時，要保證技能開發(fā)賬號和設備登錄賬號一致，對設備說“開啟技能調試模式”即開啟了“技能調試模式”功能，需要注意的是同一時間僅支持一個技能測試。

第六部，技能應用的上線商用。

類比來看，發(fā)布上線與App在安卓市場或者蘋果商店上的上線發(fā)布過程是類似的。至此，我們可以基于DuerOS的開放平臺開發(fā)符合用戶需求的各種智能語音交互應用。同時， DuerOS 還提供了零編程的智能語音交互應用實現(xiàn)方式。應用的種類豐富多彩，可以為我們的生活帶來更多的便利和樂趣！

基于智能語音交互服務的一天

從早上通過音箱叫你起床，通過搭載DuerOS的車機導航出發(fā)上班，用小度助手去安排當日工作，工作中小度助手可以提醒休息，孩子可以用搭載DuerOS的設備打電話、看電視和聽故事。

隨著交互形式的變化，交互技術發(fā)展到了今天的智能語音時代，在智能語音服務中可以直接應用到各種人工智能技術，可以不用深入關注具體的NLU、NLG等具體AI技術，只要使用基于DuerOS這樣對話式的AI開放平臺，就可以完成面向語音交互的各種服務。

【51CTO原創(chuàng)稿件，合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯：王雪燕來源： 51CTO

大咖來了面向交互人工智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="51utr"></style>