自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【LLM】大語言模型的情感理解和共情能力

發(fā)布于 2024-6-4 09:09
瀏覽
0收藏

【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

一、結(jié)論寫在前面


同理心是促進(jìn)親社會(huì)行為的基礎(chǔ),可以通過分享個(gè)人經(jīng)歷的故事來喚起。雖然同理心受到敘事內(nèi)容的影響,但直覺上,人們也通過敘事風(fēng)格對故事的講述方式做出反應(yīng)。然而,同理心與敘事風(fēng)格之間的關(guān)系尚未完全明了。


論文通過大型語言模型(LLMs)和大規(guī)模眾包研究實(shí)證檢驗(yàn)并量化了這種關(guān)系。論文引入了一種新穎的理論基礎(chǔ)分類法,HEART(人類同理心與敘事分類法),該分類法闡述了敘事風(fēng)格中的元素,這些元素能夠引導(dǎo)聽眾對故事講述者產(chǎn)生同理心。    

論文展示了LLMs在從HEART中提取敘事元素方面的表現(xiàn),表明使用論文的分類法進(jìn)行提示能夠產(chǎn)生合理的、達(dá)到人類水平的注釋,超越了先前基于詞匯的方法。為了展示論文分類法的實(shí)證應(yīng)用,論文通過一項(xiàng)大規(guī)模眾包研究收集了一個(gè)包含2,624名參與者對故事同理心評價(jià)的數(shù)據(jù)集。

論文發(fā)現(xiàn),通過LLMs提取的敘事元素,特別是情感的生動(dòng)性和情節(jié)的豐富度,能夠闡明敘事風(fēng)格如何培養(yǎng)對個(gè)人故事的同理心。論文的工作表明,這類模型可以用于敘事分析,從而獲得以人為中心的社會(huì)和行為洞察。


二、論文的簡單介紹

2.1 論文的背景


同理心是一種基礎(chǔ)的心理過程,驅(qū)動(dòng)著許多親社會(huì)功能,通常通過講故事和分享個(gè)人經(jīng)歷來傳達(dá)。故事喚起的同理心反應(yīng)受到故事內(nèi)容之外的因素影響——傳遞方式、情境和讀者特征都對此有所貢獻(xiàn)。             


【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

              圖1:敘事風(fēng)格可以通過講述故事的方式喚起敘事共鳴。本研究引入了HEART,一個(gè)理論驅(qū)動(dòng)的敘事元素分類法,這些元素有助于產(chǎn)生共鳴    

敘事的情感共鳴。大多數(shù)關(guān)于敘事共鳴及其相關(guān)構(gòu)念的研究集中在讀者的特征和故事內(nèi)容上。然而,直覺上,人們也會(huì)對故事的講述方式或敘事中使用的文體手法做出反應(yīng)(圖1)。

自然語言處理(NLP)社區(qū)中敘事分析的一個(gè)關(guān)鍵挑戰(zhàn)是,提取與共鳴相關(guān)的文體特征并非易事。先前的工作使用基于詞數(shù)的方法或?qū)O其有限的故事集使用手工制作的特征(來量化敘事元素。然而,更復(fù)雜的敘事手法,如情節(jié)轉(zhuǎn)折或情感的生動(dòng)性,僅憑詞匯更難以概括。盡管有少數(shù)工作探索了使用大型語言模型(LLMs)進(jìn)行更復(fù)雜的敘事分析任務(wù),但文體手法的建模程度以及LLM提取的特征如何用于下游社會(huì)洞察的研究尚未充分展開。

敘事風(fēng)格及其在共情中的作用。先前的工作理論化了敘事風(fēng)格的轉(zhuǎn)變?nèi)绾斡绊懝适碌墓睬樾Ч?。Keen(2006)提出了一種敘事共情理論,該理論利用敘事技巧來增強(qiáng)共情,例如,角色的平坦或圓潤性,角色的意識(shí)模式,以及對場景的生動(dòng)運(yùn)用。van Krieken等人(2017)提出了一種語言線索框架,用于衡量與敘事角色的認(rèn)同,包括角色的維度,如故事的情感或感知主體。該框架涵蓋了故事的背景元素,這些元素可以促進(jìn)沉浸式體驗(yàn),以及前景元素(如比喻語言),這些元素有助于與文本的美學(xué)體驗(yàn)(Jacobs, 2015)。             

【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

圖2:敘事共情與風(fēng)格分類,理論界定了與對敘事的共情相關(guān)的敘事風(fēng)格方面

讀者特征與敘事共情。盡管敘事風(fēng)格可以影響共情,但其他因素,如讀者的特征或閱讀過程中的經(jīng)歷,也會(huì)影響共情。例如,心理學(xué)、經(jīng)濟(jì)學(xué)和神經(jīng)科學(xué)研究表明,性別對人們的認(rèn)知共情有顯著影響,女性在各個(gè)年齡段表現(xiàn)出比男性更高的認(rèn)知共情。敘事共情的水平也可能受到個(gè)人特質(zhì)共情水平(Kon-rath et al., 2018)、閱讀時(shí)的情緒狀態(tài)或?qū)ξ膶W(xué)的一般接觸的影響。解開這些因素的影響可能具有挑戰(zhàn)性,已有一些先前的研究嘗試,但結(jié)果各異。    

2.2 HEART共情與敘事風(fēng)格分類法

基于上述理論和實(shí)證研究,論文提出了HEART,一種能夠?qū)е鹿睬榈臄⑹嘛L(fēng)格元素的分類法。在《敘事共情理論》中,Keen認(rèn)為角色塑造、敘事情境、內(nèi)部視角以及表現(xiàn)角色意識(shí)的技巧等方面可以促進(jìn)敘事共情。論文利用這些概念作為開發(fā)HEART的前導(dǎo)。論文的理論模型作為理解敘事特征的哪些方面可能引發(fā)共情以及論文如何使用計(jì)算方法來衡量這些因素的起點(diǎn)。

圖2展示了論文的完整分類法,該分類法通過四個(gè)主要類別來界定敘事風(fēng)格與敘事共情之間的關(guān)系:(1) 角色認(rèn)同 (2) 情節(jié) (3) 觀點(diǎn) (4) 背景。

角色認(rèn)同 論文提到的角色認(rèn)同元素是指吸引讀者進(jìn)入敘述者視角的故事方面,無論是跨越內(nèi)部維度(情感/認(rèn)知)還是外部維度(感知/時(shí)間)。論文定義了六個(gè)高級(jí)分類法元素,這些元素可以在故事中促進(jìn)與角色的認(rèn)同,主要基于van Krieken等人(2017)關(guān)于角色認(rèn)同的工作:

1.角色的扁平/圓形,包括通過故事過程中的角色發(fā)展或角色脆弱性表現(xiàn)出的角色深度。

2.情感主體,指情感在語氣和情感生動(dòng)性方面的表達(dá)方式。

3.認(rèn)知主體,捕捉諸如思考、計(jì)劃和決策等認(rèn)知表達(dá)。

4.道德主體(,主要指通過故事傳達(dá)的敘述者評價(jià)或意見表達(dá)。

5.行動(dòng)主體,指角色行動(dòng)的表達(dá)。

6.主體感知,捕捉角色經(jīng)歷的感知和身體感覺的生動(dòng)性。

7.時(shí)間參照,包含表達(dá)的懷舊(回顧過去)或預(yù)測和期待(展望未來)。    


【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

表1:兩位專家人類注釋者在論文分類法的敘事元素上的一致性。分?jǐn)?shù)乘以100并四舍五入以提高可讀性,并按KA排序。斯皮爾曼相關(guān)性p表示顯著性

情節(jié) 定義情節(jié)一直是敘事分析中的關(guān)鍵任務(wù),并通過在關(guān)鍵時(shí)刻增強(qiáng)敘述者的故事來促進(jìn)共情。論文界定了與敘事共情相關(guān)的三個(gè)情節(jié)方面:

1.情節(jié)容量捕捉了故事中事件的頻率和重要性。

2.情感變化指示了故事整體情感軌跡的波動(dòng)(如從低到高價(jià)值反之亦然)。

3.解決捕捉了角色經(jīng)歷主要沖突后的緊張釋放。

視角 先前的研究指出,視角可以影響對敘述者的共情(Eekhof 等人,2023;Fernandez-Quintanilla,2020;Spitale 等人,2022)。例如,第一人稱視角可以強(qiáng)調(diào)故事的個(gè)人性質(zhì),并使讀者深入敘述者的角色。

背景 最后,敘述者的環(huán)境和背景可以促進(jìn)敘事共情(Pille-mer,1992;van Krieken 等人,2017),例如通過構(gòu)建世界來增強(qiáng)敘事傳遞。論文通過敘事中背景描述的生動(dòng)性來捕捉這一要素。    

2.3 HEART-felt Stories 數(shù)據(jù)集標(biāo)注

論文對 HEART-felt Stories 數(shù)據(jù)集進(jìn)行了標(biāo)注,這是一個(gè)包含專家對部分故事評級(jí)的個(gè)人敘事語料庫。

2.3.1 故事數(shù)據(jù)集

為了實(shí)證觀察 HEART 的敘事元素,論文從 EMPATHICSTORIES(Shen 等人,2023)和 EMPATHICSTORIES++(數(shù)據(jù)集中選取了一個(gè)種子數(shù)據(jù)集,這些數(shù)據(jù)集專門設(shè)計(jì)來包含意義深遠(yuǎn)且脆弱的個(gè)人故事,涵蓋了多樣化的敘述者和話題(如人際關(guān)系、心理健康、職業(yè)和學(xué)業(yè)等)。

EMPATHICSTORIES 數(shù)據(jù)集包含來自社交媒體網(wǎng)站(Facebook、Reddit)、眾包個(gè)人敘事和轉(zhuǎn)錄播客的 -1,500 個(gè)個(gè)人敘事。EMPATHICSTORIES++ 數(shù)據(jù)集包含約 500 個(gè)自動(dòng)轉(zhuǎn)錄的與 AI 互動(dòng)的對話式個(gè)人故事。論文過濾掉了可能有害的話題(如提及性侵犯、過度咒罵),并排除了字?jǐn)?shù)少于 200 字的故事(可能不包含豐富的敘事風(fēng)格元素),最終得到一個(gè)包含 874 個(gè)個(gè)人故事的數(shù)據(jù)集。

2.3.2 專家敘事風(fēng)格標(biāo)注

論文從最終的874個(gè)故事數(shù)據(jù)集中隨機(jī)抽樣了50個(gè)故事,以獲取專家對敘事元素的標(biāo)注,并驗(yàn)證大型語言模型(LLM)在該任務(wù)上的表現(xiàn)。論文從分類法中選取了12個(gè)難以從現(xiàn)有NLP工具包中提取的敘事元素,這些元素需要人類判斷,因?yàn)槿蝿?wù)的主觀性。論文的研究團(tuán)隊(duì)中三位具有文本分析和標(biāo)注專業(yè)知識(shí)的獨(dú)立成員,通過迭代設(shè)計(jì)了一個(gè)編碼本(附錄C),其中包含評估每個(gè)元素存在的指導(dǎo)和示例。

隨后,兩位獨(dú)立的專家標(biāo)注員對50個(gè)采樣故事中12個(gè)敘事元素的存在情況進(jìn)行了評分。表1顯示了使用Krippendorf的α系數(shù)(KA)、成對一致性百分比(PPA)和Spearman相關(guān)系數(shù)(ρ)計(jì)算的2位標(biāo)注員之間的一致性。所有評分都呈正相關(guān),但不同的敘事元素有不同程度的一致性。    

【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

表2:論文分類法中敘事元素的聚合人類標(biāo)注者(黃金評分)與GP1-4評分之間的協(xié)議。

【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)


2.4 用于敘事風(fēng)格提取的大型語言模型

在表2中,論文報(bào)告了同樣50個(gè)采樣故事上人類評分平均值和GPT-4評分之間的一致性。論文觀察到GPT-4和人類標(biāo)注員之間的一致性模式與論文兩位專家標(biāo)注員之間的一致性相似。GPT-4為人物脆弱性、樂觀性和故事結(jié)局等敘事特征提供了高度一致的評分。因此,論文使用GPT-4提取語料庫中所有剩余故事的敘事元素,并在后續(xù)的實(shí)證研究中排除與人類黃金標(biāo)準(zhǔn)標(biāo)簽一致性低的特征。    

2.4.1 大型語言模型與詞典的性能比較

論文發(fā)現(xiàn),GPT-4提取的樂觀基調(diào)、生動(dòng)情感和人物脆弱性特征與人類評分的一致性優(yōu)于LIWC對應(yīng)項(xiàng),盡管只有人物脆弱性在統(tǒng)計(jì)學(xué)上顯著更高(Fisher精確檢驗(yàn)的p值<0.001)。然而,LIWC在認(rèn)知類別上優(yōu)于GPT-4,盡管統(tǒng)計(jì)學(xué)上不顯著。論文在下面的錯(cuò)誤分析中討論了使用GPT-4提取敘事認(rèn)知水平的潛在錯(cuò)誤來源。

2.4.2 錯(cuò)誤分析

論文觀察到,與人類注釋者相比,GPT-4在評估故事中表達(dá)的評估和認(rèn)知水平時(shí)始終過高。通過定性分析GPT-4和人類在故事上存在較大分歧的示例(,GPT-4通常將情感反應(yīng)與評估、歸因或欲望混為一談(例如:“它讓我想起了我第一次上大學(xué)的情景...我的父母多么為我興奮和害怕。我自己也是既興奮又害怕?!保τ谡J(rèn)知錯(cuò)誤,論文發(fā)現(xiàn)這些系統(tǒng)性錯(cuò)誤通常是由于GPT-4將回憶與認(rèn)知演示混淆,而實(shí)際上故事中并沒有包含更多的內(nèi)在思考過程。

最終,論文的驗(yàn)證研究表明,LLMs可以近似提取與共情相關(guān)的敘事元素,這與先前的工作(相印證,但某些特征對模型來說更難以識(shí)別。論文在下一節(jié)中展示,即使沒有完全一致,GPT-4的敘事評分仍然揭示了關(guān)于敘事共情的趣味行為見解。

2.5 測量共情的人類研究

這里論文將討論論文的研究參與者、任務(wù)程序以及論文的數(shù)據(jù)收集和使用的度量。

2.5.1 參與者

論文在Prolific上招募了2,624名參與者,以閱讀并評價(jià)對個(gè)人故事的共情。參與者的概況見附錄A。參與者性別平衡,主要是白人,平均具有較高的特質(zhì)共情。

2.5.2 研究程序

在獲得IRB批準(zhǔn)的研究開始時(shí),參與者首先評價(jià)他們當(dāng)前的情緒狀態(tài)(喚醒/效價(jià)),然后閱讀一個(gè)個(gè)人故事。閱讀故事后,他們被要求評價(jià)對故事的共情程度,并檢查論文的分類法中哪些敘事元素對其對故事的情感反應(yīng)貢獻(xiàn)最大。論文還提出了一個(gè)開放式問題,詢問敘事風(fēng)格的哪些方面使他們與故事產(chǎn)生共鳴。    

在此之后,論文要求參與者回答與以下內(nèi)容相關(guān)的問題:(1) 敘述-讀者互動(dòng)效應(yīng),這包括與閱讀敘述過程相關(guān)的讀者因素(敘述傳輸、與故事中發(fā)生的事件相關(guān)的先前經(jīng)驗(yàn),以及與敘述者的感知相似性);(2) 讀者特征(年齡、性別、種族、特質(zhì)同理心、他們閱讀娛樂的頻率、流利語言和教育水平)。調(diào)查測量和選擇這些測量的理由將在下一部分詳細(xì)說明。所有參與者回答調(diào)查后獲得1美元報(bào)酬,參與者平均花費(fèi)7分鐘完成整個(gè)任務(wù)。874個(gè)故事中的每一個(gè)都至少被獨(dú)立讀者評價(jià)了3次,總計(jì)產(chǎn)生了2,624次對故事的同理反應(yīng)。

2.5.3 數(shù)據(jù)收集與測量

論文的用戶研究旨在捕捉對多樣敘述集合的同理心,這些敘述集合由具有不同讀者特征的多樣參與者組成,此外還包括可能調(diào)節(jié)敘述風(fēng)格對同理心影響的變量?;谔剿髋c同理心相關(guān)因素的實(shí)證工作,論文設(shè)計(jì)了以下調(diào)查(所有調(diào)查均包含在附錄E中以供可重復(fù)性。論文公開了數(shù)據(jù)集,以促進(jìn)對敘事共情分析的深入研究。

【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

圖3:敘事風(fēng)格元素和讀者特征如何影響讀者對敘事的體驗(yàn)(敘事-讀者交互效應(yīng))的可視化。所有這些組件結(jié)合起來進(jìn)而影響下游的敘事共情    

共情與敘事風(fēng)格偏好 論文通過狀態(tài)共情量表來衡量對故事的共情。為了評估敘事風(fēng)格偏好,參與者從論文的分類法中勾選出那些他們認(rèn)為有助于對故事產(chǎn)生共情的元素。此外,論文還要求提供關(guān)于哪些敘事風(fēng)格元素有助于對故事產(chǎn)生共情的定性自由反饋。

敘事-讀者交互效應(yīng) 論文將讀者特征與閱讀敘事體驗(yàn)的交集處的影響定義為敘事-讀者交互效應(yīng)。這些包括:(1) 敘事沉浸,通過沉浸量表簡版/TS-SF測量;(2) 先前經(jīng)驗(yàn),通過利克特量表衡量讀者認(rèn)為自己與敘述者所處情境的相似程度;(3) 對敘述者的感知相似性,通過感知關(guān)系多樣性量表(Clark, 2002)測量。這些特征使論文能更好地理解敘事風(fēng)格元素如何通過與敘事-讀者交互作用導(dǎo)致下游共情的途徑。

讀者特征 論文基于與共情相關(guān)的屬性的全面文獻(xiàn)回顧收集讀者特征。這些特征包括:(1) 讀者在閱讀故事前的情緒狀態(tài),通過喚醒/效價(jià)量表測量;(2) 基本人口統(tǒng)計(jì)信息,包括年齡、性別、種族,(3)參與者為了娛樂而閱讀的頻率,以及(4)特質(zhì)共情,通過單一項(xiàng)目特質(zhì)共情量表/SITES和多倫多共情問卷/TEQ進(jìn)行測量。Prolific 自動(dòng)提供參與者的額外人口統(tǒng)計(jì)信息,如流利語言、國籍、就業(yè)和學(xué)生身份。             

【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

              圖4:比較每種敘事特征高與低存在時(shí)的平均共情,論文發(fā)現(xiàn),在角色發(fā)展和情節(jié)量更多的故事中,共情顯著增加

2.6 敘事共情的實(shí)證洞察

通過注釋的敘事元素、個(gè)人故事的多樣共情評分以及讀者特征,論文展示了論文的分類法在探索與數(shù)據(jù)集中相關(guān)特征子集有關(guān)的共情實(shí)證問題方面的有效性。

敘事風(fēng)格影響共情 首先,論文通過取3位評分者的平均值來聚合每篇故事的共情評分。然后,論文將故事分為每種敘事特征的高與低存在,并對故事的平均狀態(tài)共情應(yīng)用Mann-Whitney u檢驗(yàn)。圖4顯示,高度聚合的共情故事具有更多的角色發(fā)展和情節(jié)量。

敘事共情并非一刀切 盡管論文之前的分析捕捉到了聚合的共情,但不同的人對同一故事可能會(huì)有不同的情感反應(yīng)。在圖6(附錄B)中,論文展示了同一故事狀態(tài)共情得分的標(biāo)準(zhǔn)差,發(fā)現(xiàn)平均而言,這個(gè)標(biāo)準(zhǔn)差顯著大于零(p < 0.001),表明同一敘事可以引發(fā)不同水平的共情。

敘事的生動(dòng)情感表達(dá)導(dǎo)致敘事共情 鑒于論文的發(fā)現(xiàn),敘事共情并非“一刀切”,論文進(jìn)行了分析,考慮了每個(gè)故事ID的隨機(jī)效應(yīng),使用semopy庫進(jìn)行結(jié)構(gòu)方程建模。結(jié)構(gòu)方程建模是社會(huì)科學(xué)中用于結(jié)構(gòu)化假設(shè)檢驗(yàn)的標(biāo)準(zhǔn)方法,它使用廣義線性模型的表述來考慮在提出元素間關(guān)系的理論模型時(shí)固定效應(yīng)和隨機(jī)效應(yīng)。

【LLM】大語言模型的情感理解和共情能力-AI.x社區(qū)

圖5:敘事風(fēng)格元素如何導(dǎo)致敘事沉浸的結(jié)構(gòu)方程模型,同時(shí)考慮了讀者與敘述者共享相似經(jīng)歷以及讀者的基線特質(zhì)共情的影響

根據(jù)論文在圖3中的理論模型,論文看到情感的生動(dòng)性顯著影響敘事沉浸,進(jìn)而影響對故事的下游共情。圖5展示了敘事特征如何促進(jìn)敘事沉浸,導(dǎo)致下游共情,并考慮了非風(fēng)格因素,如讀者與敘述者共享相似經(jīng)歷以及讀者的特質(zhì)共情水平。論文發(fā)現(xiàn),敘述者對故事中發(fā)生的事情的先前經(jīng)歷以及他們的基線特質(zhì)共情都是對故事共情的重要預(yù)測因子,但不如敘事沉浸那么顯著。    

敘事風(fēng)格偏好與共情的關(guān)系是個(gè)性化的 最后,論文展示了不同的群體可能偏好不同的敘事方式,其中偏好通過敘事共情來衡量。在論文的結(jié)構(gòu)模型中加入交互項(xiàng),論文發(fā)現(xiàn)生動(dòng)的情感對狀態(tài)共情有顯著的交互效應(yīng)(est = 0.252,p < 0.001)。這表明,隨著特質(zhì)共情的增加,生動(dòng)情感與狀態(tài)共情之間的關(guān)系增強(qiáng),暗示敘事風(fēng)格偏好因群體而異。

盡管論文的實(shí)證分析肯定不是詳盡無遺的,但它展示了如何使用HEART來獲得關(guān)于敘事風(fēng)格如何促進(jìn)同理心的有趣行為見解。特別是,論文注意到,在敘事同理心中考慮個(gè)性化,以及情境化讀者因素(如他們的特質(zhì)同理心水平)對于同理心預(yù)測至關(guān)重要,而這些因素在現(xiàn)有的同理心任務(wù)中常常被忽視。

論文標(biāo)題:HEART-felt Narratives:Tracing Empathy and Narrative Style in Personal Stories with LLMs

論文鏈接:??https://arxiv.org/pdf/2405.17633??  




標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦