人機(jī)交互技術(shù)的現(xiàn)狀與演變 將來(lái)我們將如何與機(jī)器對(duì)話
計(jì)算機(jī)和其他機(jī)器是出色的工具,可讓我們提高生產(chǎn)力,了解更多信息并保持相互聯(lián)系。但是,為了使用它們,我們需要以某種方式與它們“通信”。從歷史上看,這一直是使用鼠標(biāo)和鍵盤(pán)(或觸摸屏)的手動(dòng)輸入,使用屏幕讀取計(jì)算機(jī)返回給我們的內(nèi)容。
在過(guò)去的十年左右的時(shí)間里,我們已經(jīng)看到了一種新的與機(jī)器交談的方式:語(yǔ)音和語(yǔ)音識(shí)別。但是這種“與機(jī)器對(duì)話”的模式會(huì)持續(xù)到未來(lái)嗎?如果是這樣,它將如何發(fā)展?
技術(shù)現(xiàn)狀
首先,讓我們看一下現(xiàn)代技術(shù)的狀態(tài)。人們?cè)谌粘5拇蟛糠只?dòng)中仍在使用鍵盤(pán),鼠標(biāo)和觸摸屏,但越來(lái)越多的人開(kāi)始轉(zhuǎn)向基于語(yǔ)音的互動(dòng)。我們可以用一個(gè)簡(jiǎn)單的短語(yǔ)在流行的搜索引擎上運(yùn)行搜索。我們可以大聲說(shuō)出要輸入的內(nèi)容,我們的手機(jī)可以將其翻譯成書(shū)面文字。我們甚至可以安裝可以與客戶(hù)交流或直接與他們互動(dòng)的數(shù)字標(biāo)牌。
多年來(lái),基于語(yǔ)音的交互已經(jīng)變得非常復(fù)雜。在這項(xiàng)技術(shù)發(fā)展的初期,它基本上是一場(chǎng)博弈。在大多數(shù)情況下,系統(tǒng)無(wú)法正確“聽(tīng)到”您的聲音,或者會(huì)誤解您想說(shuō)的話。但是如今,最受歡迎的數(shù)字助理和語(yǔ)音識(shí)別程序可以像人一樣準(zhǔn)確地檢測(cè)和理解人的語(yǔ)音。
與此相符,人類(lèi)逐漸習(xí)慣了基于語(yǔ)音的交互。在2010年,您可能對(duì)其中一臺(tái)設(shè)備說(shuō)“ OK Google”或“ Hey Alexa”之類(lèi)的內(nèi)容很愚蠢。但是到2020年,這是司空見(jiàn)慣的。實(shí)際上,當(dāng)我們看到某人不經(jīng)常以某種方式與他們的機(jī)器進(jìn)行交互時(shí),這很奇怪。
為什么聲音已經(jīng)被接管
為什么近年來(lái)語(yǔ)音識(shí)別取得如此可觀的增長(zhǎng)和發(fā)展速度?有一些可能的解釋。首先,語(yǔ)音比起手來(lái)做任何事都更方便。如果您正在開(kāi)車(chē),并且想在輸入信息時(shí)將手放在方向盤(pán)上,則可以簡(jiǎn)單地“大聲”思考并加以處理。如果您一整天的打字都感到手指酸痛,可以切換到基于語(yǔ)音的輸入,并讓您的手稍事休息。如果您在客廳附近沒(méi)有設(shè)備,并且需要在剛剛觀看的節(jié)目中知道演員的姓名,則可以大聲說(shuō)出查詢(xún)內(nèi)容,并在短時(shí)間內(nèi)得到解決。
在技術(shù)發(fā)展方面,聲音也是很容易獲得的成果。正如我們將看到的,還有其他一些人機(jī)交互模式,它們更加復(fù)雜,可能需要數(shù)十年的時(shí)間才能全面發(fā)展,但實(shí)際上,我們已經(jīng)在短短幾年內(nèi)掌握了語(yǔ)音搜索。
消費(fèi)者看到了好處,技術(shù)不斷進(jìn)步。因此,為什么基于語(yǔ)音的與機(jī)器的交互已成為新規(guī)范是有道理的。
語(yǔ)音的潛在問(wèn)題
也就是說(shuō),即使是長(zhǎng)期來(lái)看,基于語(yǔ)音的機(jī)器交互也存在一些潛在問(wèn)題:
- 數(shù)據(jù)隱私。每一項(xiàng)新技術(shù)都會(huì)帶來(lái)對(duì)隱私的擔(dān)憂。我們基于語(yǔ)音的搜索和語(yǔ)音識(shí)別技術(shù)很多時(shí)候都在我們身邊。我們的人身上有一部智能手機(jī),客廳的角落里有一部智能揚(yáng)聲器。當(dāng)我們不希望這些系統(tǒng)時(shí),這些系統(tǒng)是否在聽(tīng)我們的對(duì)話?他們收集哪些數(shù)據(jù)并將其發(fā)送給技術(shù)公司的主管?
- 誤解。即使近年來(lái)發(fā)展迅速,語(yǔ)音識(shí)別也會(huì)失敗。當(dāng)人們用口音講話時(shí),或者由于各種原因而無(wú)法表達(dá)完整的思想時(shí),尤其如此。
- 學(xué)習(xí)曲線。無(wú)障礙獲取也可能是一個(gè)問(wèn)題,特別是對(duì)于那些仍在講話中掙扎的人們。為了獲得最佳效果,您必須以清晰,直接的聲音說(shuō)話,并準(zhǔn)確地表達(dá)每個(gè)單詞。這并非對(duì)所有用戶(hù)都直觀。
- 背景噪音。如果存在很大的背景噪音,那么高質(zhì)量的語(yǔ)音識(shí)別仍然會(huì)變得混亂。這意味著語(yǔ)音識(shí)別僅在某些位置和上下文中是理想的;例如,您不能在搖滾音樂(lè)會(huì)或建筑工地上使用它。
- 心理影響。我們?nèi)蕴幱谡Z(yǔ)音搜索的初期,但從長(zhǎng)期來(lái)看,我們可能會(huì)發(fā)現(xiàn)基于語(yǔ)音的機(jī)器交互具有心理影響。例如,我們可能會(huì)發(fā)現(xiàn)很難與機(jī)器交談而不感到某種情感上的依戀,或者由于我們與機(jī)器的相互作用,我們可能會(huì)限制自己以不同的方式與世界互動(dòng)。
如何改善聲音
科技公司一直在尋找可以改善語(yǔ)音交互并在競(jìng)爭(zhēng)中脫穎而出的方法。這些是最重要的重點(diǎn)領(lǐng)域:
- 準(zhǔn)確性。語(yǔ)音識(shí)別系統(tǒng)已經(jīng)至少與人類(lèi)一樣好,其中一些系統(tǒng)已經(jīng)超越了人類(lèi)的能力。但是,在準(zhǔn)確性方面仍有改進(jìn)的空間,特別是在邊緣情況下。
- 預(yù)測(cè)功能。 結(jié)合預(yù)測(cè)分析,基于語(yǔ)音和語(yǔ)音的交互可能會(huì)更加令人印象深刻。機(jī)器可以問(wèn)我們提示性問(wèn)題,而不是依靠我們的單向輸入,并就我們可能需要的東西提出積極的建議。
- 情感背景。同樣值得考慮的是在數(shù)字助理中發(fā)展情感情境閱讀,甚至在響應(yīng)中模仿人類(lèi)情感內(nèi)容。例如,數(shù)字助理可以通過(guò)您的語(yǔ)氣告訴您生氣或恐懼,并且可以用一種技術(shù)模擬的同理心來(lái)回應(yīng)您。盡管“令人毛骨悚然”的因素在這個(gè)維度上可能很高,但可能會(huì)導(dǎo)致更自然的互動(dòng)。
語(yǔ)音替代
那么,我們是否將語(yǔ)音作為與機(jī)器交互的一種方式而離開(kāi)呢?這還有待觀察,但是有一些競(jìng)爭(zhēng)者有一天可以取代語(yǔ)音和手動(dòng)輸入,即使它們距離全面開(kāi)發(fā)還差很多年。
- 手勢(shì)。最有趣的可能發(fā)展之一是以手勢(shì)形式與機(jī)器通信。您可以以某種模式移動(dòng)眼睛以調(diào)用特定功能,或者可以空中移動(dòng)手指來(lái)操作全息界面,而不是明確指示設(shè)備應(yīng)執(zhí)行的操作。手勢(shì)是無(wú)聲的,比語(yǔ)音更抽象,從而使手勢(shì)在許多方面更簡(jiǎn)單,更易于訪問(wèn)。但是,學(xué)習(xí)曲線可能仍然很陡峭,并且該技術(shù)還沒(méi)有準(zhǔn)備好成為主流。
- 想法。少數(shù)公司正在研究直接腦機(jī)交互的可能性。換句話說(shuō),您也許有一天可以只用自己的思想來(lái)控制計(jì)算機(jī),就像控制手臂和腿部的運(yùn)動(dòng)一樣。對(duì)于許多人來(lái)說(shuō),這是一個(gè)令人恐懼的想法,因?yàn)樗凳窘Y(jié)締相互作用可以在兩個(gè)方向上起作用。但是,該技術(shù)仍處于最早階段,因此很難預(yù)測(cè)是否存在問(wèn)題。
- 其他通訊方式。很難想象機(jī)器和人類(lèi)通信的未來(lái)會(huì)是什么樣子,因此我們不能排除其他更抽象的模型的可能性。一些技術(shù)創(chuàng)新者可能想出了一種我們甚至還無(wú)法想到的新穎的直接交流方法。
目前,基于語(yǔ)音的控件和通信仍然是我們與機(jī)器交換信息的方式中的主導(dǎo)力量。該技術(shù)是如此復(fù)雜,以至于大多數(shù)人可以輕松利用其潛力。它的使用存在一些問(wèn)題,包括隱私問(wèn)題和有限的預(yù)測(cè)能力,但是可以通過(guò)進(jìn)一步開(kāi)發(fā)來(lái)緩解(或消除)這些問(wèn)題。