自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

語(yǔ)音接口 我們已站到下一個(gè)交互時(shí)代的邊緣

人工智能 語(yǔ)音識(shí)別
虛擬語(yǔ)音助手清楚手機(jī)內(nèi)每一個(gè)程序以及每一項(xiàng)功能,你可以通過(guò)說(shuō)話來(lái)調(diào)用這些功能。同時(shí)隨著時(shí)間的推移,這種人工智能將知曉一切。

[[185877]]

隨著計(jì)算機(jī)處理、語(yǔ)音識(shí)別、移動(dòng)通信、云計(jì)算、神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展日趨成熟,語(yǔ)音接口技術(shù)迎來(lái)了飛躍,虛擬語(yǔ)音助理業(yè)務(wù)的發(fā)展迎來(lái)了變革時(shí)期。

你或許聽(tīng)過(guò)這樣一個(gè)故事。1979年,年輕的史蒂夫喬布斯造訪了位于位于加利福尼亞州帕洛阿圖市的施樂(lè)帕克研究中心(Xerox PARC),并見(jiàn)證了帕克研發(fā)的計(jì)算機(jī)圖形用戶界面。一位PARC的工程師使用鼠標(biāo)原型對(duì)計(jì)算機(jī)進(jìn)行了相關(guān)操作,下拉菜單、點(diǎn)擊互相重疊的計(jì)算機(jī)窗口。在整個(gè)演示過(guò)程中,喬布斯所看到的操作方式與以前完全不同。喬布斯后來(lái)說(shuō),“不到十分鐘,我就清楚有一天所有計(jì)算機(jī)都會(huì)以這種方式運(yùn)行。”

傳說(shuō)中喬布斯帶領(lǐng)蘋(píng)果的團(tuán)隊(duì)復(fù)制了PARC的用戶圖形界面。在隨后的近四十年內(nèi),個(gè)人計(jì)算機(jī)技術(shù)開(kāi)始以***的速度向前發(fā)展,從***臺(tái)Macintosh一路發(fā)展至***的iPhone手機(jī)。計(jì)算機(jī)的用戶圖形界面克服了命令行以及文字界面的缺點(diǎn),將更多的普通人帶進(jìn)計(jì)算機(jī)世界,使更多的人能夠使用計(jì)算機(jī),他們所需要的技能僅僅是操作鼠標(biāo)指向、單擊或拖動(dòng)。

在并不遙遠(yuǎn)的未來(lái),我們依舊會(huì)因PARC創(chuàng)造的用戶圖形界面和其因決策失誤而導(dǎo)致錯(cuò)過(guò)個(gè)人電腦發(fā)展黃金時(shí)期而唏噓不已。但在喬布斯造訪PARC的時(shí)候,而另外一個(gè)獨(dú)立團(tuán)隊(duì)正在研究關(guān)于人機(jī)交互的全新模式,也就是今天所說(shuō)的會(huì)話用戶界面。這些科學(xué)家設(shè)想了這樣一個(gè)世界,在幾十年后的電腦功能時(shí)如此強(qiáng)大,需要用戶記住關(guān)于計(jì)算機(jī)操作的每一個(gè)命令是完全不切實(shí)際的??茖W(xué)家想到用戶會(huì)倒退回來(lái),用一種蛻變的方式與計(jì)算機(jī)協(xié)同工作,而這種方式的接口就是普通人類(lèi)語(yǔ)言。

在研究會(huì)話用戶界面的團(tuán)隊(duì)中,有一位名為羅恩·卡普蘭(Ron Kaplan)的科學(xué)家。他長(zhǎng)相粗壯,說(shuō)話卻細(xì)聲細(xì)語(yǔ),留著山羊胡子,但有頭發(fā)稀疏??ㄆ仗m是一位語(yǔ)言學(xué)家,同時(shí)也是一位心理學(xué)家和計(jì)算機(jī)專(zhuān)家,其將著名語(yǔ)言學(xué)家諾姆·喬姆斯基的理論用于人機(jī)交互語(yǔ)言的重構(gòu)??ㄆ仗m指出,在上世紀(jì)70年代,他的團(tuán)隊(duì)所開(kāi)發(fā)的會(huì)話用戶界面離實(shí)際應(yīng)用還有相當(dāng)?shù)木嚯x。他們勉強(qiáng)開(kāi)發(fā)出一個(gè)會(huì)話用戶系統(tǒng),用戶可以使用標(biāo)準(zhǔn)英語(yǔ)來(lái)預(yù)定機(jī)票。但是這種技術(shù)無(wú)法用于大規(guī)模的系統(tǒng)性工作,因此也就無(wú)法普及??ㄆ仗m表示,“當(dāng)時(shí)這種技術(shù)的成本過(guò)高,大概要達(dá)到每個(gè)用戶一百萬(wàn)美元。”事實(shí)上,這種技術(shù)需要更快處理速度,更為智能、更高效的分布式處理電腦??ㄆ仗m當(dāng)時(shí)估計(jì)需要15年的時(shí)間。

卡普蘭現(xiàn)在稱(chēng),“四十年后,我們終于準(zhǔn)備好了。”

現(xiàn)在,卡普蘭是語(yǔ)音識(shí)別軟件公司Nuance Communications的***科學(xué)家以及副總裁。該公司是世界上***的語(yǔ)音接口業(yè)務(wù)公司之一。該公司為福特開(kāi)發(fā)了車(chē)內(nèi)語(yǔ)音系統(tǒng)Sync system,對(duì)蘋(píng)果Siri的開(kāi)發(fā)也至關(guān)重要,其與各行業(yè)均有良好的合作關(guān)系。但最近,Nuance發(fā)現(xiàn)很多公司都在涌入語(yǔ)音接口市常從亞馬遜、Intel到微軟谷歌,幾乎每一個(gè)大科技公司都在研發(fā)會(huì)話用戶接口,此外還有數(shù)十個(gè)初創(chuàng)企業(yè)也在從事相關(guān)研究。我們正處于語(yǔ)音接口技術(shù)的變革之中。這些公司相信,不久之后,用戶能夠跟自己的設(shè)備如同和朋友談話一樣交互。用戶的設(shè)備能夠聽(tīng)到用戶在說(shuō)什么、表達(dá)什么意思。

你或許以及過(guò)驚嘆于現(xiàn)在社會(huì)的技術(shù)發(fā)展,但這些新的工具和接口將進(jìn)一步拓展你的數(shù)字生活,克服圖形用戶界面在安全、友好、易用性方面的缺點(diǎn)。更貼近自然語(yǔ)言的會(huì)話接口將會(huì)進(jìn)一步拉近你和技術(shù)之間的關(guān)系,更貼心,更友好,更富于個(gè)性化。

這種技術(shù)的重大轉(zhuǎn)變不僅有利于硅谷,更使得普羅大眾受益。史蒂夫·喬布斯在1979年就看到了圖形用戶界面的重要性,清楚其是拓展計(jì)算機(jī)市場(chǎng)的重要方式。但即便是圖形用戶界面,依舊把大量受眾拒在賽博空間的大門(mén)之外。它依舊需要用戶去學(xué)習(xí)計(jì)算機(jī)語(yǔ)言。而現(xiàn)在,隨著語(yǔ)音技術(shù)的發(fā)展,電腦最終將學(xué)會(huì)如何直接與人類(lèi)對(duì)話。在不斷學(xué)習(xí)和完善中,人類(lèi)將打通通向科技世界的通天塔。

但我們也要清楚,雖然語(yǔ)音技術(shù)已經(jīng)存在多年,但迄今為止依舊不夠成熟。當(dāng)然,你可以舉例說(shuō)現(xiàn)在的電話自動(dòng)應(yīng)答系統(tǒng)還算不錯(cuò)(打進(jìn)電話付款,說(shuō)“支付”便可調(diào)用相應(yīng)功能)。事實(shí)上,現(xiàn)在的語(yǔ)音接口都依賴(lài)于固定化的語(yǔ)言,而在某些情況下還不具備自然語(yǔ)言的功能。譬如你可以問(wèn)Google Now紐約市人口數(shù)量,它對(duì)答如流;你問(wèn)帝國(guó)大廈的位置,它也能應(yīng)對(duì)。但倘若你問(wèn)其包括帝國(guó)大廈在內(nèi)的紐約市人口數(shù)量,它就會(huì)不知所云。同樣,蘋(píng)果語(yǔ)音助手Siri也一貫如此,其最主要的本領(lǐng)就是幫你調(diào)用谷歌搜索。現(xiàn)在的語(yǔ)音接口,與電影中描述的場(chǎng)景差距還很明顯。

然而,當(dāng)你徜徉在硅谷,和人們談及關(guān)于語(yǔ)音接口的相關(guān)技術(shù),他們的回答如出一轍:現(xiàn)在不同了。

在六月初的一天,語(yǔ)音識(shí)別技術(shù)公司SoundHound***執(zhí)行官凱文·莫哈耶爾(Keyvan Mohajer)向我展示了公司耗費(fèi)近十年時(shí)間研發(fā)出的應(yīng)用程序原型。SoundHound此前曾發(fā)布了一款應(yīng)用,可以通過(guò)語(yǔ)音識(shí)別并搜索流行音樂(lè)。當(dāng)用戶對(duì)著手機(jī)哼唱一首曲子時(shí),該應(yīng)用可以識(shí)別并搜索出所哼唱的曲子名稱(chēng)。事實(shí)證明,該應(yīng)用僅僅是莫哈耶爾夢(mèng)想的一部分:開(kāi)發(fā)世界上***進(jìn)的、基于語(yǔ)音的人工智能技術(shù)。

莫哈耶爾向我展示的這款應(yīng)用原型名為Hound。莫哈耶爾手持一款智能手機(jī)Nexus 5,點(diǎn)擊了一個(gè)麥克風(fēng)圖標(biāo)打開(kāi)程序,開(kāi)始向Hound提問(wèn)。開(kāi)始只是一些簡(jiǎn)單的問(wèn)題,諸如柏林當(dāng)?shù)貢r(shí)間或是日本的人口,應(yīng)用程序都給出了正確的答案。隨即莫哈耶爾話峰一轉(zhuǎn),問(wèn)“那么它們之間的距離是多少?”

Hound通過(guò)理解之前的對(duì)話,很快給出了答案——“大約5536英里”。

這種問(wèn)題開(kāi)始接二連三出現(xiàn),但Hound都對(duì)答如流。莫哈耶爾要求Hound根據(jù)要求的利率及條件計(jì)算出貸款一百萬(wàn)美元的情況下每月所還按揭,Hound也很快計(jì)算出是4270.84美元。

莫哈耶爾又問(wèn),“Space Needle所在國(guó)首都人口是多少?”

Hound指出莫哈耶爾所問(wèn)的就是華盛頓的人口,并隨即給出了答案。“日本和中國(guó)人口都有多少?首都在哪里?它們的國(guó)土面積有多少平方英里?有多少平方公里?有多少人住在印度?還有德國(guó)、意大利以及法國(guó)的區(qū)號(hào)是多少?”莫哈耶爾問(wèn)出了一連串的問(wèn)題,但Hound都作出了正確的回答。

Hound目前還處于測(cè)試階段,但它可能是迄今為止識(shí)別速度最快,功能最為強(qiáng)大的語(yǔ)音識(shí)別系統(tǒng)。它可以同時(shí)進(jìn)行語(yǔ)音識(shí)別以及自然語(yǔ)言處理,符合現(xiàn)在的技術(shù)以及市場(chǎng)需求。事實(shí)上,各種語(yǔ)音識(shí)別系統(tǒng)的飛速發(fā)展只是時(shí)間問(wèn)題。

畢竟在當(dāng)前,語(yǔ)音接口技術(shù)的基礎(chǔ)技術(shù)——卡普蘭所稱(chēng)的“門(mén)控技術(shù)”已經(jīng)趨于成熟,成本也可接受。這是關(guān)于技術(shù)融合的經(jīng)典:計(jì)算機(jī)處理、語(yǔ)音識(shí)別、移動(dòng)通信、云計(jì)算、神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展都已經(jīng)成熟,成本也達(dá)到可以接受的水平,可以使得會(huì)話用戶接口市場(chǎng)化。

更進(jìn)一步,不僅僅是相關(guān)技術(shù)的成熟推動(dòng)了會(huì)話用戶接口的研發(fā),而客觀的市場(chǎng)需求也是推動(dòng)其發(fā)展的重要因素。隨著越來(lái)越多的無(wú)顯示設(shè)備連入網(wǎng)絡(luò),諸如你家中的燈具、煙霧報(bào)警器,我們也需要一種可行的方式與設(shè)備進(jìn)行交互,這種交互不需要按鈕、菜單或是圖標(biāo)。

在另一方面,圖形用戶界面已經(jīng)接近其自然限制。程序的功能越來(lái)越多,在圖形用戶界面中充斥的菜單和圖標(biāo)選項(xiàng)也越來(lái)越復(fù)雜。你可以想象一下Photoshop或者是Excel,功能強(qiáng)大,但有著大量的菜單項(xiàng),或者需要記住各種快捷鍵的使用方式。即便是裁剪一張照片也要從各色工具欄中找出正確選項(xiàng)??ㄆ仗m指出,“圖形用戶界面已經(jīng)到達(dá)極限,現(xiàn)在它已經(jīng)處于超載的邊緣。”

這就是即將到來(lái)的虛擬語(yǔ)音助理市場(chǎng),當(dāng)你被淹沒(méi)在紛繁復(fù)雜的界面窗口、工具欄以及菜單選項(xiàng)時(shí)來(lái)拯救你,在你和設(shè)備之間建立便捷、高效的聯(lián)系。

也許目前我們與虛擬語(yǔ)音助理的關(guān)系尚不緊密,但很快這一狀況就會(huì)改病埃今年秋季,隨著一批新款智能手機(jī)的上市,很快相應(yīng)的會(huì)話用戶接口發(fā)展也將出現(xiàn)一次飛躍。當(dāng)你升級(jí)到iOS 9、Andriod 6或是Windows 10時(shí),你會(huì)發(fā)現(xiàn)直接使用內(nèi)置應(yīng)用的頻率會(huì)越來(lái)越少,更多的是使用蘋(píng)果Siri或是谷歌的Google Now以及微軟的Cortana。而在不遠(yuǎn)的將來(lái),數(shù)十億的Facebook用戶將可以打開(kāi)一個(gè)聊天窗口,通過(guò)智能語(yǔ)音助手調(diào)用各項(xiàng)功能。語(yǔ)音接口將不再是輔助的方式,而將成為主流和***選擇。甚至于在某些情況下,它將是用戶的唯一選擇。譬如在蘋(píng)果的HomeKit系統(tǒng)中,確保一切設(shè)備關(guān)閉的唯一可行操作就是對(duì)蘋(píng)果的語(yǔ)音助手說(shuō)“晚安,Siri”。

這些虛擬語(yǔ)音助理研發(fā)的初衷是將復(fù)雜簡(jiǎn)單化。對(duì)于現(xiàn)在的用戶來(lái)講,頻繁的下拉菜單操作過(guò)于復(fù)雜,調(diào)用一個(gè)功能需要按步驟操作,流程過(guò)于繁瑣。相比于此,虛擬語(yǔ)音助手清楚手機(jī)內(nèi)每一個(gè)程序以及每一項(xiàng)功能,你可以通過(guò)說(shuō)話來(lái)調(diào)用這些功能。同時(shí)隨著時(shí)間的推移,這種人工智能將知曉一切。

需要指明的是,語(yǔ)音技術(shù)并不會(huì)完全取代觸控屏,甚至是鼠標(biāo)和鍵盤(pán)。如果你需要使用臺(tái)式機(jī),肯定會(huì)保留這些人機(jī)交互方式。雖然更多時(shí)間你可能會(huì)問(wèn)虛擬語(yǔ)音助理如何調(diào)用功能,譬如“裁剪工具在哪里?”

但是,對(duì)于某些特定群體的人來(lái)說(shuō),會(huì)話用戶接口技術(shù)的發(fā)展將會(huì)在很大程度上取代其對(duì)圖形用戶界面的使用。諸如一些年輕人都通過(guò)麥克風(fēng)輸入文本而不是通過(guò)鍵盤(pán)。語(yǔ)音消息應(yīng)用Cord創(chuàng)始人以及***執(zhí)行官托馬斯格諾(Thomas Gayno)指出,“他們只是不打字。”而對(duì)于更大一部分人來(lái)說(shuō),圖形用戶界面完全不適合其使用。那些視障者、老年人在圖形用戶界面前都受到了這種障礙的影響。因此,有些人稱(chēng)現(xiàn)代計(jì)算機(jī)接口為“直覺(jué)”并不十分準(zhǔn)確。

克里斯·莫里(Chris Maury)對(duì)此深有體會(huì)。2010年夏季,這位24歲的企業(yè)家在攻讀博士學(xué)位的過(guò)程中輟學(xué)轉(zhuǎn)而創(chuàng)業(yè)。但長(zhǎng)時(shí)間的熬夜使得其視力逐步下降,一位醫(yī)生診斷其患上了斯特格氏癥,這種病癥會(huì)使視力逐步退化甚至完全失明。

作為一名技術(shù)人士,莫里不得不考慮如何應(yīng)對(duì)無(wú)法看到電腦屏幕的狀況。但在整個(gè)美國(guó),對(duì)于2000萬(wàn)視障人士來(lái)說(shuō),除了屏幕閱讀器別無(wú)選擇。

要使用屏幕閱讀器,用戶需要通過(guò)鍵盤(pán)移動(dòng)光標(biāo),選中需要閱讀的屏幕文字,將其轉(zhuǎn)換成一長(zhǎng)串的URL,通過(guò)機(jī)器語(yǔ)言讀出來(lái)。這種相關(guān)的設(shè)備高達(dá)數(shù)千美元,并且需要幾十個(gè)小時(shí)的培訓(xùn)。隨著數(shù)字環(huán)境越來(lái)越復(fù)雜,屏幕閱讀器的使用越來(lái)越不方便。莫里表示,“即便是打開(kāi)一個(gè)谷歌搜索也需要很多步驟,這太可怕了。”

[[185878]]

當(dāng)莫里視力開(kāi)始退化時(shí),他經(jīng)常訪問(wèn)Blind Twitter去了解情況。莫里開(kāi)始明白視障人士迫切需要一種技術(shù)。他意識(shí)到語(yǔ)音接口對(duì)于某些特定用戶更為便捷,而幾乎在同一時(shí)間,相關(guān)的語(yǔ)音技術(shù)也風(fēng)行整個(gè)硅谷。

因此,莫里開(kāi)始著手為視障人士開(kāi)發(fā)相關(guān)技術(shù)。他創(chuàng)辦了一家名為Conversant Labs的公司研發(fā)語(yǔ)音接口技術(shù)。公司推出的***個(gè)產(chǎn)品是一個(gè)名為SayShopping的iPhone應(yīng)用,其可以完全通過(guò)語(yǔ)音從Target.com上購(gòu)買(mǎi)東西。但莫里有更大的想法,公司將于今年年底發(fā)布語(yǔ)音接口框架,為iOS的應(yīng)用開(kāi)發(fā)者提供會(huì)話接口。莫里還希望能夠開(kāi)發(fā)一款完全基于語(yǔ)音技術(shù)的計(jì)算機(jī)應(yīng)用環(huán)境,同時(shí)也可通過(guò)頭部運(yùn)動(dòng)來(lái)下達(dá)指令。莫里指出,“這些實(shí)現(xiàn)都是有可能的,只是需要?jiǎng)?chuàng)建。”

2014年秋季,亞馬遜發(fā)布來(lái)名為Echo的新產(chǎn)品,這款智能控制設(shè)備內(nèi)置了名為Alexa的虛擬語(yǔ)音助理,其廣告語(yǔ)是“喚醒話語(yǔ)”。Echo采用了遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù),甚至在嘈雜房間也可準(zhǔn)確識(shí)別話語(yǔ)。此外它還具有監(jiān)聽(tīng)功能,你可以在家中隨時(shí)和其對(duì)話。

當(dāng)我開(kāi)始使用Alexa時(shí),它可以告訴我天氣,回答基本的問(wèn)題,在智能手機(jī)上顯示購(gòu)物清單或者是播放音樂(lè),并沒(méi)有過(guò)多特別之處。但是隨著時(shí)間推移,Alexa更聰明也更完善,它熟悉我的聲音、會(huì)開(kāi)玩笑、能同時(shí)運(yùn)行多個(gè)計(jì)時(shí)器。測(cè)試版發(fā)布七個(gè)月后,2015年其公開(kāi)版最終上線,Alexa的可用性越來(lái)越強(qiáng)。我了解了它,而它也在了解我。

這也是關(guān)于會(huì)話科技的深層次道理:你只有在與語(yǔ)音助理的深入交互中才會(huì)發(fā)現(xiàn)其功能。同行業(yè)的諸多公司都認(rèn)識(shí)到這一點(diǎn),都在努力使其語(yǔ)音助手達(dá)到個(gè)性化和適應(yīng)性的平衡,使他們更加討人喜歡,易于接受。譬如微軟在開(kāi)發(fā)語(yǔ)音助手Cortana時(shí),其名稱(chēng)取材自游戲《光暈(Halo)》中的重要角色。Cortana工程團(tuán)隊(duì)主管Mike Calcagno表示,“Cortana代表了機(jī)智和堅(jiān)韌”。的確,在產(chǎn)品早期即便其可靠性低,益處少,也會(huì)引起人們注意。

這種方式也有策略方面的考量。在微軟、Nuance等公司的研究中,當(dāng)語(yǔ)音助理無(wú)處不在、當(dāng)它了解你的習(xí)慣你的環(huán)境、了解你的喜好你的生活時(shí),它就是不可或缺的存在。通過(guò)這種人工智能控制所有應(yīng)用程序和設(shè)備的方式自然也就成為必然。

為此,無(wú)論是亞馬遜、谷歌、微軟,還是Nuance或者SoundHound,都在致力于會(huì)話平臺(tái)技術(shù)的研發(fā)。這些公司清楚,用戶會(huì)選擇最了解他們的語(yǔ)音助理。讓我們做好迎接虛擬語(yǔ)音助理的準(zhǔn)備。更重要的是,一旦選擇了其中之一,你就不會(huì)再輕易放手。

責(zé)任編輯:武曉燕 來(lái)源: Ailab.cn
相關(guān)推薦

2020-12-31 23:43:27

邊緣云5G網(wǎng)絡(luò)

2019-09-23 14:34:21

我的第一部5G手機(jī)物聯(lián)網(wǎng)智能家居

2021-03-08 11:11:15

物聯(lián)網(wǎng)科技技術(shù)

2021-08-26 11:02:55

云計(jì)算云計(jì)算環(huán)境云應(yīng)用

2021-08-20 14:35:56

物聯(lián)網(wǎng)邊緣計(jì)算IoT

2023-01-30 14:09:51

物聯(lián)網(wǎng)網(wǎng)絡(luò)存儲(chǔ)

2017-04-12 13:39:24

互聯(lián)網(wǎng)

2017-10-27 13:53:34

2019-10-31 09:29:43

區(qū)塊鏈技術(shù)智能

2015-10-29 09:35:12

BAT趨勢(shì)數(shù)據(jù)

2013-05-31 09:32:07

云時(shí)代億萬(wàn)富翁

2021-01-30 10:36:25

同態(tài)加密密碼學(xué)數(shù)據(jù)安全

2024-04-11 11:26:11

邊緣計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)分析

2020-10-23 16:21:46

云計(jì)算邊緣計(jì)算IDC

2023-09-19 11:37:51

邊緣計(jì)算云計(jì)算

2023-06-15 15:45:50

邊緣計(jì)算數(shù)據(jù)中心

2013-04-10 22:48:38

IDF2013計(jì)算時(shí)代透明計(jì)算

2022-02-10 23:15:22

互聯(lián)網(wǎng)數(shù)據(jù)元宇宙

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數(shù)據(jù)平臺(tái)IT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)