智能對話新紀元:跨文化視角下的人工智能會話代理(Agents)解析
人工智能(AI)已成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。特別是AI會話代理(Conversational Agents),如Siri、Alexa和其他聊天機器人,它們通過提供信息、娛樂和陪伴,極大地豐富了我們的數(shù)字體驗。但是公眾對這些AI代理的看法卻因文化背景而異,這種差異對于AI技術(shù)的設(shè)計、開發(fā)和全球推廣具有重要意義。
最近的一項研究《Understanding Public Perceptions of AI Conversational Agents: A Cross-Cultural Analysis》深入探討了美國和中國兩個文化背景下公眾對AI會話代理的看法。研究團隊通過分析近一百萬條社交媒體帖子,揭示了兩國公眾在討論話題和對AI代理感知上的顯著差異。這項研究不僅提供了對AI會話代理公眾感知的新見解,而且對于AI技術(shù)的跨文化適應(yīng)性提出了重要建議。
研究發(fā)現(xiàn),中國用戶傾向于將AI代理人格化,將其視為具有情感的伙伴,而美國用戶則更多地將AI代理視為完成任務(wù)的工具。這種差異反映了文化價值觀和社會結(jié)構(gòu)對AI技術(shù)感知的深遠影響。例如,中國的技術(shù)擬人主義文化傾向可能鼓勵用戶與AI代理建立情感聯(lián)系,而西方文化中人與非人實體的明顯區(qū)別則可能導致美國用戶對AI代理持更實用主義的態(tài)度。
研究還指出,除了文化差異外,政治經(jīng)濟環(huán)境和技術(shù)系統(tǒng)也在塑造公眾對AI會話代理感知中發(fā)揮作用。在中國,政府政策和戰(zhàn)略以及主流媒體對AI的描述可能導致公眾討論更加抽象和戰(zhàn)略性。相比之下,美國的討論更多關(guān)注實際市場應(yīng)用和商業(yè)發(fā)展,反映了市場力量和企業(yè)家精神在塑造新興技術(shù)公共話語中的作用。
此外,研究強調(diào)了在AI會話代理設(shè)計中考慮文化和結(jié)構(gòu)性因素的重要性。例如,中國用戶對具有物理實體和語音特性的AI代理的溫暖和能力感知更高,這表明在為中國市場設(shè)計AI代理時,開發(fā)者應(yīng)考慮加入這些特性。然而,這些設(shè)計選擇可能不適合西方消費者,因此需要采取具有情境意識的設(shè)計方法。
人工智能會話代理(AI Conversational Agents)是一種先進的技術(shù),它能夠通過自然語言處理(NLP)與人類進行交流和互動。這些代理的設(shè)計旨在模仿人類的交流方式,提供信息、解答問題、執(zhí)行任務(wù),甚至在某些情況下提供陪伴。隨著技術(shù)的進步,CAs的應(yīng)用范圍不斷擴大,它們的智能程度和互動質(zhì)量也在不斷提高。
本篇論文的作者來自于新加坡國立大學的Zihan Liu、Han Li、Renwen Zhang、Yi-Chieh Lee和香港大學的Anfan Chen,他們是跨文化通信和人工智能領(lǐng)域的專家,他們通過深入的社交媒體分析,探索了美國和中國公眾對CAs的不同看法。作者的研究背景為本文提供了堅實的理論基礎(chǔ)和豐富的實踐經(jīng)驗,使得研究結(jié)果具有高度的可靠性和深遠的影響力。
論文的創(chuàng)新點在于其跨文化的研究視角和綜合的分析方法。作者不僅考慮了文化價值、政治經(jīng)濟和技術(shù)系統(tǒng)等多種因素如何共同影響公眾對CAs的感知,而且還提出了“溫暖優(yōu)先”的設(shè)計方法,為未來CAs的開發(fā)提供了新的指導原則。
背景介紹
當前AI會話代理在不同文化中的應(yīng)用現(xiàn)狀呈現(xiàn)出多樣化的趨勢,在一些文化中,CAs被廣泛用于提供客戶支持和個人助理服務(wù),而在其他文化中,CAs則更多地用于教育和娛樂。這種差異不僅反映了不同文化對技術(shù)的接受度和應(yīng)用方式的差異,也揭示了CAs設(shè)計和功能的多樣性。
跨文化分析在AI研究中具有重要意義,它有助于揭示不同文化背景下用戶對CAs的期望和需求。然而這也帶來了挑戰(zhàn),因為文化差異可能導致用戶對CAs的感知和使用方式產(chǎn)生根本性的不同。
這項研究著重于文化背景和會話代理(CAs)不同類型的技術(shù)特性,以深入了解人們在跨文化和跨特性層面上對CAs的討論和看法。研究表明,人類對實體的感知通常涉及復雜的認知和情感過程,尤其是在遇到像聊天機器人這樣的新穎和復雜技術(shù)時。因此,使用多維框架來避免在捕捉人們對CAs的看法時過度簡化或誤解是必要的。在評估人類的感知和認知時,溫暖度、能力和情感價值通常被認為是表征社會認知不同方面的關(guān)鍵維度。溫暖度是評估非人類實體人性化程度的重要方面,與CA對用戶的情感價值相關(guān),并可以預測信任、可信度和與CAs互動的意愿。另一方面,能力與實用和功能性方面密切相關(guān),表示CA根據(jù)其知識、技能和溝通能力有效響應(yīng)請求的程度。能力經(jīng)常被納入功能性和可用性評估,并與客戶滿意度和促銷信息的說服力相關(guān)。相比之下,情感價值代表了人們對CAs的感知和經(jīng)驗背后的更廣泛情感基調(diào),有助于形成對CAs感知的總體印象。
研究方法和數(shù)據(jù)來源
論文中使用了社交媒體分析作為主要的研究方法。通過分析Twitter和微博上與CAs相關(guān)的數(shù)百萬條帖子,作者能夠捕捉到公眾對CAs的真實看法和情感態(tài)度。數(shù)據(jù)收集過程涉及復雜的數(shù)據(jù)清洗和篩選工作,確保分析的準確性和相關(guān)性。分析工具包括自然語言處理軟件和情感分析算法,這些工具幫助研究者從大量的文本數(shù)據(jù)中提取有價值的信息。
CAs作為AI應(yīng)用的一個獨特部分,也引起了復雜和矛盾的態(tài)度和情緒。這些軟件程序能夠通過基于文本和/或基于語音的界面與用戶進行自然語言交流。它們在客戶支持、醫(yī)療保健、金融、智能家居和其他各個領(lǐng)域的廣泛整合,使它們不僅成為便利工具,也成為審查的對象。盡管對一般AI和機器人學的討論很廣泛,但對公眾對CAs的看法的研究卻明顯不足。這表明了一個重要的研究空白,特別是考慮到CAs在數(shù)百萬人的日常生活中的廣泛應(yīng)用?,F(xiàn)有研究雖然有價值,但通常范圍較窄,針對的是特定領(lǐng)域中CAs的看法,如客戶服務(wù)、新聞業(yè)和醫(yī)療保健。此外,研究通常側(cè)重于特定的CA產(chǎn)品,如Alexa、Replika和小冰。因此,公眾對CAs的全面理解仍然未被充分探索。
要深入了解人們對CAs的看法,需要有效理解這些代理如何被感知和解釋。從歷史上看,溫暖(友好與不友好)、能力(聰明與愚蠢)和價值(好與壞)一直是概念化社會感知的關(guān)鍵維度。其中,溫暖和能力是評估對個人和群體的社會認知的普遍標志。簡而言之,溫暖衡量與感知意圖相關(guān)的特征,如真誠和可信度,而能力評估與感知能力相關(guān)的屬性,如智力和效能。許多研究強調(diào)了它們在解釋社會感知的大部分變異中的主導作用,從接近-回避傾向到理解動機。雖然最初是為了人類認知而設(shè)定的,但溫暖和能力也被用來理解人們對非人類實體的看法,如機器人。
研究表明,文化、規(guī)范、經(jīng)驗、教育、認知推理風格和依戀等因素會影響用戶對AI代理的反應(yīng)。跨文化價值結(jié)構(gòu)的研究揭示了美國和阿拉伯聯(lián)合酋長國(UAE)用戶在與算法驅(qū)動的聊天機器人新聞互動時的明顯差異,美國用戶主要關(guān)注與公平、問責和透明度(FAT)相關(guān)的程序性維度,而UAE用戶則更被算法的功能性能所吸引。此外,日本用戶優(yōu)先考慮聊天機器人的功能性質(zhì),與重視非功能性算法方面的美國用戶形成對比。這些文化差異不僅僅體現(xiàn)在感知上,還包括對AI聊天機器人的不同擔憂和優(yōu)先事項。這種差異強調(diào)了在探討公眾對CAs的感知和討論時需要跨文化視角的必要性。
研究提出的第一個研究問題是:RQ1: 美國和中國之間在CAs的(a)討論主題和(b)公眾感知(即溫暖度、能力和情感價值)方面有何差異?
除了文化,CAs的分類也在塑造公眾感知方面發(fā)揮著重要作用。CAs根據(jù)其設(shè)計、互動風格和功能的不同,呈現(xiàn)出多種形式。以往的人機交互(HCI)工作提出了多種框架來對CAs進行分類。例如,Grudin和Jacques將聊天機器人根據(jù)其互動的深度和廣度分類為三種類型:虛擬伴侶、智能助手和任務(wù)導向型聊天機器人。F?lstad等人建議根據(jù)互動持續(xù)時間(短期和長期)和控制點(用戶驅(qū)動和聊天機器人驅(qū)動)進行分類。Hussain等人深入到設(shè)計技術(shù)和方法,引入了四個設(shè)計維度來區(qū)分CAs:互動模式、知識領(lǐng)域、目標和設(shè)計方法。隨著非具象會話代理和對話系統(tǒng)越來越多地整合到如機器人和具象會話代理(ECAs)等多功能互動平臺中,這些CAs的物理和視覺表現(xiàn)為CA的特征增加了另一個關(guān)鍵層面。Rzepka和Berger指出了人類外觀和物理體現(xiàn)在表征AI系統(tǒng)時的重要性。這些非言語屬性提供了重要的社會存在線索,可能會影響用戶如何感知和與CAs互動。正如Modality-Agency-Interactivity-Navigability(MAIN)模型所建議的,界面線索通過觸發(fā)關(guān)于互動性質(zhì)和實質(zhì)的認知啟發(fā)式,塑造用戶感知。
跨文化公眾感知分析
美國和中國公眾對AI會話代理的看法存在顯著差異。美國用戶傾向于強調(diào)CAs的實用性和效率,而中國用戶則更加重視CAs的社交和情感功能。這些差異不僅反映了文化價值觀的不同,也與兩國在政治經(jīng)濟和技術(shù)系統(tǒng)方面的差異有關(guān)。
圖片
圖1:美國和中國公眾對CA的看法注:中的顏色 圖表示聯(lián)想的方向,綠色表示傾向于積極(溫暖、能干、積極),紅色表示傾向于消極(寒冷、無能、消極)。顏色的深度影響關(guān)聯(lián)的強度,淺色表示更大的中性,深色表示更極端的關(guān)聯(lián)。
文化價值、政治經(jīng)濟和技術(shù)系統(tǒng)共同塑造了公眾對CAs的感知。例如,中國用戶對CAs的積極態(tài)度可能受到政府對AI技術(shù)支持的環(huán)境和主流媒體的積極報道的影響。相比之下,美國用戶的態(tài)度則更受市場力量和商業(yè)發(fā)展的影響。
在個人互動與體驗方面,這一元主題涵蓋了從個人角度出發(fā)的與CA相關(guān)的討論,包括用戶與CA的實際互動及其相關(guān)的體驗和情感。在這一元主題中,存在三個不同的子主題:“任務(wù)導向互動”、“社交導向互動”和“體驗與觀點”。在美國,任務(wù)導向互動更為突出,占推文的44.2%,而在中國,這一數(shù)字要低得多,僅占微博帖子的10.9%。這種差異表明,美國用戶主要將CAs用于功能性和實用性目的,依賴它們簡化日常任務(wù)。相比之下,中國用戶更傾向于社交導向互動,他們以更多對話和情感表達的方式與CAs互動,代表性術(shù)語包括“調(diào)情”、“笑話”和“戲弄”。這些社交導向互動在中國的討論中占16.8%,而在美國的推文中僅占3.7%。此外,還發(fā)現(xiàn)了大量與用戶表達他們對CA的情感、態(tài)度和想法(無論是積極還是消極)相關(guān)的帖子。這被歸類為“體驗與觀點”,頂級術(shù)語包括“有用”、“可愛”和“愛”。中國用戶更傾向于分享此類體驗和觀點,34.3%的帖子屬于此類別,而美國用戶的推文中這一比例為17.3%。
在文化和技術(shù)在塑造公眾對CAs感知方面的作用和相互作用上,一個重要發(fā)現(xiàn)是美國和中國人民與CAs互動的顯著差異。中國用戶傾向于以更社交和情感表達的方式接近CAs,而美國用戶則采取更注重任務(wù)的互動方式。有趣的是,在中國用戶中,大量討論集中在智能助手(如Siri)的享樂性和社會情感使用上,盡管這些CAs最初是為實用目的而設(shè)計的。這一趨勢的一個可能解釋是植根于中國文化的精神基礎(chǔ),特別是技術(shù)擬人主義的概念。這種信念與許多其他東亞文化共享,并圍繞著非人類實體(包括機器或人工智能)可以擁有靈魂或精神的想法。因此,技術(shù)擬人主義的文化價值可能鼓勵中國用戶將CAs,特別是那些具有更多擬人特征的CAs,視為具有情感的實體,使它們能夠形成情感聯(lián)系并成為能夠建立融洽關(guān)系的好伙伴。這與西方個體的觀點形成鮮明對比,后者通常將CAs等非人類代理視為旨在服務(wù)人類目的的工具。在西方文化中,人類被視為與非人類實體有明顯區(qū)別的獨特存在。早期的Clark等人的研究也證實了這一觀點,表明西方參與者討論與代理進行對話的方式與與其他人進行對話的方式有顯著不同。特別是,與代理的對話始終以功能性術(shù)語描述,強調(diào)了這些互動的實用性質(zhì)。
圖2:公眾對CA技術(shù)特征的看法:美國與中國。
通過這樣的分析,作者不僅揭示了文化和結(jié)構(gòu)性因素如何影響公眾對CAs的感知,還為未來CAs的設(shè)計和開發(fā)提供了寶貴的見解。這些見解有助于開發(fā)者在不同文化背景下設(shè)計出更符合用戶需求和期望的CAs。
論文創(chuàng)新點解讀
在《Understanding Public Perceptions of AI Conversational Agents: A Cross-Cultural Analysis》一文中,作者提出了一個獨特的設(shè)計理念——“溫暖優(yōu)先”方法。這種方法強調(diào)在設(shè)計會話代理時,應(yīng)優(yōu)先考慮其能夠激發(fā)用戶情感價值和積極情感的能力。研究表明,用戶對CAs的溫暖感知與他們的積極情感之間存在穩(wěn)定的正相關(guān)關(guān)系,這種關(guān)系超過了能力感知與情感價值之間的關(guān)聯(lián)。因此,設(shè)計師應(yīng)當集中于增強CAs的親和力和情感交互能力,以提升用戶體驗。
結(jié)構(gòu)性因素,如文化背景、政治經(jīng)濟環(huán)境和技術(shù)發(fā)展水平,對AI會話代理的接受度和用戶感知有著深遠的影響。例如,中國用戶對CAs的積極態(tài)度可能受到政府對AI技術(shù)支持的環(huán)境和主流媒體的積極報道的影響,而美國用戶的態(tài)度則更受市場力量和商業(yè)發(fā)展的影響。
在人機交互領(lǐng)域,物理體現(xiàn)涉及技術(shù)實體或代理在物理世界中擁有的物理存在或表征程度。這包括為數(shù)字或虛擬實體提供一個有形的、互動的形式,以促進與環(huán)境和用戶的互動。Von der Putten等人認為,一個自主代理的社會影響與它展示的行為現(xiàn)實水平密切相關(guān)。會話代理可能是有體現(xiàn)的或無體現(xiàn)的。Kontogiorgos等人的工作將體現(xiàn)概念應(yīng)用于社交機器人和智能揚聲器,并探討了不同CA體現(xiàn)對用戶對失敗的感知及其對CAs的后續(xù)行為的影響。值得注意的是,他們發(fā)現(xiàn)用戶在感知智能和社會存在方面將社交機器人體現(xiàn)評價得比智能揚聲器更高。當體現(xiàn)的形式是物理的而不是虛擬的時,體現(xiàn)的效果更加明顯。Li的33項實驗研究綜述發(fā)現(xiàn),物理呈現(xiàn)的機器人代理比虛擬角色中的遠程呈現(xiàn)被更積極地感知。
因此,對話焦點、對話模式、類人外觀和物理體現(xiàn)代表了定義CA在其對話和表征中的重要維度。探索公眾對CAs的感知如何在這些定義特征中變化,可以幫助研究人員理解技術(shù)特性如何在塑造社會認知中發(fā)揮作用。據(jù)此,我們提出以下研究問題:RQ2: 人們對CAs的感知如何因1) 對話焦點;2) 對話模式;3) 類人外觀;和4) 物理體現(xiàn)而異?基于這三個研究問題,我們提出了分析框架(見圖3)
設(shè)計建議和實際應(yīng)用
為了探討公眾對會話代理(CAs)的溫暖度、能力和情感價值的感知(RQ1(b)、RQ2、RQ3),研究者使用了詞嵌入技術(shù)來檢查個體將CAs與溫暖、能力和情感價值相關(guān)的詞匯和概念聯(lián)系在一起的程度。這種方法已經(jīng)在先前的研究中被廣泛應(yīng)用于檢查人們的社會認知和態(tài)度,顯示出高性能和準確性。
為了回答關(guān)注CAs技術(shù)特征差異的RQ2和RQ3,研究者對數(shù)據(jù)語料庫中提及的所有CA產(chǎn)品進行了分類,并根據(jù)它們的對話焦點、對話模式、類人外觀和物理體現(xiàn)將它們分為不同類型。表1總結(jié)了美國和中國的CA產(chǎn)品及其分類。
在詞嵌入中使用的關(guān)鍵算法是S-WEAT,這是Word Embedding Association Test(WEAT)的改編版本,旨在測量單一類別與一對相對屬性之間的相對關(guān)聯(lián)度。
每個S-WEAT分析都將兩個雙極屬性(例如,“溫暖”對“冷漠”)與與CAs相關(guān)的單一類別(例如“具有類人外觀的CAs”)進行比較。具體來說,研究者首先計算了CA類別與每個屬性之間的平均余弦相似度。接下來,計算了兩個平均余弦相似度得分之間的差值。正的結(jié)果值表明組類別與正屬性(例如積極、溫暖和能力)之間的相似度更強,而負值表明組類別與負屬性(例如消極、冷漠和無能)之間的相似度更高。為了確??杀刃?,將這些差值標準化到-2到+2的范圍內(nèi)。這種標準化是通過將差值除以匯總的標準差來實現(xiàn)的。標準差是根據(jù)每個屬性詞向量在兩個屬性類別中的平均余弦相似度得分計算的。下面的公式展示了S-WEAT統(tǒng)計量的計算方法:
圖片
設(shè)A和B為兩組大小相等的相對屬性類別詞向量,X為社會群體類別詞向量集。令cos(θ, γ)表示兩個向量θ和γ之間角度的余弦。然后S-WEAT統(tǒng)計量定義為:
圖片
在計算過程方面,技術(shù)上,研究者在以CA為中心的語料庫中使用Python的Gensim庫通過Word2Vec訓練了自定義詞嵌入模型。這些模型將復雜的詞匯語義壓縮到有限的維度空間中。然后應(yīng)用S-WEAT。代表六個屬性類別的字典(參見附錄以獲取完整字典和樣本帖子)來源于先前的研究。在我們訓練的詞嵌入模型中映射屬性詞和CA產(chǎn)品并獲得代表它們的向量后,我們對這些向量執(zhí)行了S-WEAT。數(shù)值結(jié)果代表了某一類別的CA產(chǎn)品與某一屬性之間的關(guān)聯(lián)。如果值大于零,則隨著絕對值的增加,與積極屬性(即溫暖、能力或積極)的相關(guān)性更強。相反,如果值小于零,則隨著絕對值的增加,與消極屬性(即冷漠、無能或消極)的相關(guān)性更強。
根據(jù)論文的研究結(jié)果,設(shè)計師在為不同文化背景的市場開發(fā)CAs時,應(yīng)考慮以下建議:
- 對于中國市場,設(shè)計師應(yīng)考慮加入更多的語音特性和物理體現(xiàn),以增強CAs的溫暖和能力感知。
- 對于美國市場,設(shè)計師應(yīng)關(guān)注CAs的實用性和任務(wù)執(zhí)行能力,同時確保界面簡潔且易于使用。
將研究成果應(yīng)用于實際的AI會話代理開發(fā)時,開發(fā)者應(yīng)采用用戶為中心的設(shè)計方法,密切關(guān)注用戶的挪用和重新利用技術(shù)的方式,以便不斷迭代和優(yōu)化產(chǎn)品。
論文局限性和未來研究方向
論文的局限性主要體現(xiàn)在數(shù)據(jù)來源和用戶類型的考慮上。研究依賴于中國的微博和美國的Twitter數(shù)據(jù),可能未能全面反映所有用戶群體的看法。未來的研究可以采用跨平臺的方法,并結(jié)合社交媒體數(shù)據(jù)分析和通過調(diào)查或訪談收集的數(shù)據(jù),以獲得更全面的視角。
結(jié)論
在研究美國和中國公眾對CAs話語和感知的差異時,作者發(fā)現(xiàn)了證據(jù),突出了文化和其他結(jié)構(gòu)性因素在塑造人們?nèi)绾螀⑴c、感知和評估CAs方面的影響力。這些廣泛的外部背景也與CAs的特定技術(shù)特性相互作用,影響與溫暖、能力和整體情感基調(diào)相關(guān)的感知。我們發(fā)現(xiàn),美國人更多關(guān)注實用和情境化的使用,而中國用戶更傾向于將CAs用于享樂性互動??偟膩碚f,中國人對CAs持有更積極的態(tài)度,而美國用戶展現(xiàn)了溫暖和威脅感知的矛盾混合。研究強調(diào)了在不同文化和國家背景下優(yōu)先考慮不同CA特性的重要性,以適應(yīng)用戶的不同偏好和行為。我們指出了優(yōu)先考慮溫暖感知、采用情境意識設(shè)計和從挪用中學習對CA設(shè)計成功的價值。
論文的主要發(fā)現(xiàn)強調(diào)了文化和結(jié)構(gòu)性因素在塑造人們?nèi)绾螀⑴c、感知和評估CAs方面的重要性。這些發(fā)現(xiàn)對AI領(lǐng)域的貢獻在于,它們提供了一個全新的視角來理解和設(shè)計未來的AI會話代理??缥幕斫庠谌蚧疉I應(yīng)用中的重要性不容忽視,它要求設(shè)計師和開發(fā)者在開發(fā)CAs時,不僅要考慮技術(shù)的進步,還要考慮文化的多樣性和復雜性。這篇論文為全球化AI應(yīng)用的設(shè)計和開發(fā)提供了寶貴的指導和啟示。(END)
參考資料:https://arxiv.org/abs/2402.16039