“虛擬個人助理” 一覽
昨天談到蘋果的Siri進入了mac os***版本:macOS Sierra:Apple統(tǒng)一os體驗實質(zhì)性一步
除了Siri之外,個人助理產(chǎn)品被認(rèn)為是用戶交互關(guān)鍵入口,因此眾多大公司參與進來爭奪,今天來分別介紹一下典型的幾個:
蘋果的Siri
Siri成立于2007年,2010年被蘋果以2億美金收購,最初是以文字聊天服務(wù)為主,隨后通過與全球***的語音識別廠商Nuance合作,Siri實現(xiàn)了語音識別功能。
Siri 技術(shù)來源于美國國防部高級研究規(guī)劃局所公布的 CALO 計劃:一個讓軍方簡化處理一些繁復(fù)庶務(wù),并具學(xué)習(xí)、組織以及認(rèn)知能力的數(shù)字助理,其所衍生出來的民用版軟件 Siri 虛擬個人助理。
使用者可以通過聲控、文字輸入的方式,來搜尋餐廳、電影院等生活信息,同時也可以直接收看各項相關(guān)評論,甚至是直接訂位、訂票;另外其適地性(location based)服務(wù)的能力也相當(dāng)強悍,能夠依據(jù)用戶默認(rèn)的居家地址或是所在位置來判斷、過濾搜尋的結(jié)果。
不過其***的特色,則是人機的互動方面,不僅有十分生動的對話接口,其針對用戶詢問所給予的回答,也不至于答非所問,有時候更是讓人有種心有靈犀的驚喜,例如使用者如果在說出、輸入的內(nèi)容包括了『喝了點』、『家』這些字(甚至不需要符合語法,相當(dāng)人性化...),Siri 則會判斷為喝醉酒、要回家,并自動建議是否要幫忙叫出租車。
微軟的Cortana (小娜)
Cortana (中文名:微軟小娜)是微軟發(fā)布的***款個人智能助理。它“能夠了解用戶的喜好和習(xí)慣”,“幫助用戶進行日程安排、問題回答等”。
Cortana 可以說是微軟在機器學(xué)習(xí)和人工智能領(lǐng)域方面的嘗試。微軟想實現(xiàn)的事情是,手機用戶與小娜的智能交互,不是簡單地基于存儲式的問答,而是對話。它會記錄用戶的行為和使用習(xí)慣,利用云計算、搜索引擎和“非結(jié)構(gòu)化數(shù)據(jù)”分析,讀取和“學(xué)習(xí)”包括手機中的文本文件、電子郵件、圖片、視頻等數(shù)據(jù),來理解用戶 的語義和語境,從而實現(xiàn)人機交互。 一個很簡單的例子就是,假如手機中記錄的日程顯示將要參加會議,那么不需任何操作,Cortana 到時就會自動將手機調(diào)至?xí)h狀態(tài)。 這也是微軟的 研究,從個人計算機(personal computer)走向個人計算(personal computing)的開始。 微軟Windows系統(tǒng)負(fù)責(zé)人Joe Belfiore(喬北峰)已確認(rèn)Cortana實現(xiàn)跨平臺。可通過App Store、Google Play商店進行下載。
小娜的主要功能有:
聊天功能:講一個笑話、成語接龍、講一個故事、唱一首歌、模仿宋小寶
通訊功能:給媽媽打電話、給爸爸發(fā)短信
提醒功能:提醒我12:00去舅舅家、將下午12:00的日程更改到18:00
娛樂功能:播放音樂、今日熱映、《紅樓夢》、名人微博
交通功能:我在哪里、怎么去廣場、附近餐館、今日限行尾號
查詢功能:今日天氣、澳航航班會晚點嗎、使用英語翻譯我的名字 、世界上陸地面積***的國家、今年春節(jié) 放假安排、今日資訊、雙色球、大樂透
召喚小冰:召喚小冰
必應(yīng)美圖:必應(yīng)美圖
智能信息推送:Cortana(小娜)的中心信息存儲命名為“筆記本”,將保存用戶的地點,個人信息,日歷,和聯(lián)絡(luò)信息等,基于筆記本中的信息,小娜會在合適的時間和地點推送合適的內(nèi)容給用戶。經(jīng)過一段時間使用以后,Cortana(小娜) 將越來越了解用戶的行為習(xí)慣,并更加個性的做出智能推薦。但是也會有強大的隱私功能,允許用戶設(shè)定Cortana(小娜)筆記本的權(quán)限,存儲位置,甚至直接編輯筆記本。例如用戶可以設(shè)置讓 Cortana (小娜)觀察電郵、短信等,這樣 Cortana(小娜) 就會根據(jù)行文,自動添加會議、預(yù)定等事項的提醒。
第三方服務(wù):除了本地數(shù)據(jù)和Bing以外,Cortana(小娜)還會接入第三方服務(wù),例如 Foursquare,微信。如果微軟主動出擊,一開始就開放第三方應(yīng)用、服務(wù)接口,那么Cortana會大大領(lǐng)先 Siri 和 Google Now,尤其微軟還打算迅速將 Cortana 放進Windows 和 Xbox 等平臺上。
Google now
Google Now是谷歌在I/O開發(fā)者大會上隨安卓4.1系統(tǒng)同時推出的一款應(yīng)用,它會全面了解你的各種習(xí)慣和正在進行的動作,并利用它所了解的來為你提供相關(guān)信息。
Google Now 的典型功能:
新的應(yīng)用會更加方便用戶收取電子郵件,當(dāng)你接收到新郵件時,它就會自動彈出以便你查看。
還包括辦理登記手續(xù)的 QR CODE 終端的更新,不過這一功能目前僅限于美國聯(lián)合航空公司使用。
推出了步行和行車?yán)锍逃涗浌δ?。這個計步器功能可通過 Android 設(shè)備的傳感器來統(tǒng)計用戶每月行駛的里程,包括步行和騎自行車的路程。
特色功能包括:汽車租賃、演唱會門票和通勤共享方面的卡片;公共交通和電視節(jié)目的卡片進行改善,這些卡片現(xiàn)在可以聽音識別音樂和節(jié)目信息;用戶可以為新媒體節(jié)目的開播設(shè)定搜索提醒,同時還可以接收實時NCAA橄欖球比分。
Now on Tap,用戶通過即點即得的方式獲取所需要的內(nèi)容。
亞馬遜 echo
亞馬遜推出的一款硬件產(chǎn)品Echo。該產(chǎn)品為一套內(nèi)置語音助手的擴音器設(shè)備,旨在為用戶的房間提供獨立專注的音控系統(tǒng)。
該設(shè)備支持鬧鈴、音樂播放控制、天氣查詢、網(wǎng)絡(luò)搜索,以及新聞查詢等多種功能,而所有的操作都通過語音控制完成。此外該設(shè)備還能通過藍牙和WiFi與Fire Phone連接,或通過瀏覽器與iOS、Android及PC設(shè)備連接,以實現(xiàn)多媒體播放功能。
類似蘋果Siri語音助手,喚醒亞馬遜Echo需要大聲說“Alexa”。擁有Fire OS或Android設(shè)備的用戶將能享用Echo的全部功能,而iOS用戶則只在音樂流播放方面提供支持。
亞馬遜Echo的另外一個令人印象深刻的功能就是音樂播放。如果你是亞馬遜Prime服務(wù)的訂閱者,那么你就可以讓Echo迅速生成播放列表,比如基于風(fēng)格和歌手,你還可以通過Alexa來語音操控亞馬遜音樂應(yīng)用的播放、歌曲購買等。起初,Echo可兼容Amazon Music、iHeartRadio、Tuneln等應(yīng)用,Alexa還允許用戶輕松地自Amazon Music購買音樂。
當(dāng)前,Echo存在的一個***的局限性就是服務(wù)內(nèi)容很少。Echo只能提供維基百科以及少部分?jǐn)?shù)據(jù)庫的內(nèi)容,例如笑話內(nèi)容庫,它甚至不能調(diào)用谷歌或Bing搜索結(jié)果。不過,當(dāng)遇到不能回答的內(nèi)容時,Echo會傳送一個Bing搜索鏈接到用戶的手機或平板電腦上。也許,未來亞馬遜和微軟會聯(lián)手將Bing搜索引擎引入到Echo中。
與此同時,亞馬遜所承諾的智能家居集成特性暫時也并未體現(xiàn)出現(xiàn),因此用戶還不能夠使用Echo來控制智能燈泡或者是恒溫器。也許,未來Alexa會變得越來越智能,更好地為我們工作,畢竟它當(dāng)前仍處于測試階段。
此外,Echo在播放音樂的時候也存在瑕疵。如果作為一款藍牙音箱,亞馬遜Echo可能并不算出色。雖然擁有所謂的360度揚聲器,低音表現(xiàn)尚可,但是高音時往往會出現(xiàn)聲音失真的情況,表現(xiàn)非常不專業(yè)。
如果您并非亞馬遜Prime會員,那么Echo的零售價為199美元。以這個價格來講,我們能夠在市場中找到很多音質(zhì)更好的藍牙音箱。
其他的國內(nèi)比較有名的還有百度的度秘等,這里就不一一分析了。
關(guān)鍵技術(shù)
前面說了這么多的功能,再來簡單說一下實現(xiàn)個人虛擬助理的背后的關(guān)鍵技術(shù),詳細后面會持續(xù)分析。
1.語音識別和語音合成技術(shù)。
語音識別技術(shù)是把用戶的口語轉(zhuǎn)化成文字,而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出。
2.知識搜索技術(shù)
(Computational Knowledge)這個技術(shù)的代表是WolframAlpha 。不同于搜索互聯(lián)網(wǎng)信息,Wolfram|Alpha將從公眾的(包括公開的網(wǎng)頁等)和獲得授權(quán)的資源中,發(fā)掘、建立起一個異常龐大的經(jīng)過組織的數(shù)據(jù)庫,再利用高級的自然語言算法進行處理,最終構(gòu)造出一個類似于谷歌搜索的工具。
和網(wǎng)頁搜索技術(shù)不同的是,在這個系統(tǒng)中,得到的答案結(jié)構(gòu)化程度很高,比如搜索China,能得到和中國相關(guān)的各種參數(shù)以及資料,并以接近表格的方式呈現(xiàn)。Wolfram|Alpha也能理解部分自然語言,比如輸出How old are you,其會回答Wolfram|Alpha的年齡。
3.知識庫&知識庫推斷
知識圖譜前面寫過專欄:知識圖譜掃盲
相比于網(wǎng)頁搜索技術(shù),基本以一個詞條或者主題為單位,因此得到的數(shù)據(jù)價值高,知識量大,并且結(jié)構(gòu)化程度好。相比于知識計算技術(shù),這些技術(shù)需要人的參與,這有利也有弊,利就是,畢竟暫時人比機器聰明,編輯出來的知識更豐富,準(zhǔn)確;弊就是,人力有限,即使像維基那樣,發(fā)動社區(qū)的力量,也不能產(chǎn)生足夠的知識,而知識計算,理論上,只需要算法夠,是可以產(chǎn)生“***”的知識的。
4.多輪對話&語義理解
通過和用戶多輪對話,掌握用戶的 意圖的關(guān)鍵技術(shù)。
5.用戶畫像和推薦技術(shù)
根據(jù)用戶的使用行為,以及其他數(shù)據(jù),掌握用戶的特點,習(xí)慣,是實現(xiàn)個性化服務(wù)的關(guān)鍵技術(shù)。
在用戶畫像的技術(shù)上,主動給用戶推薦用戶想要的服務(wù)以及內(nèi)容,這個就需要用到推薦技術(shù)。
【本文為51CTO專欄作者“大數(shù)據(jù)和云計算”的原創(chuàng)稿件,轉(zhuǎn)載請通過微信公眾號獲取聯(lián)系和授權(quán)】