自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT的情感邏輯:從合作游戲中洞察AI決策,深入探索GPT在情感驅(qū)動(dòng)決策中的表現(xiàn) 精華

發(fā)布于 2024-6-14 12:58
瀏覽
0收藏

情感在人類決策中扮演著核心角色,它影響他們的選擇、行為乃至生活的方方面面。當(dāng)這一復(fù)雜的人類特質(zhì)與LLMs相遇時(shí),他們?nèi)绾未_保這些模型能夠準(zhǔn)確地反映出情感的影響?這不僅是技術(shù)上的挑戰(zhàn),更是對(duì)模型設(shè)計(jì)哲學(xué)的深刻考量。

6月6日發(fā)表于學(xué)術(shù)平臺(tái)arXiv熱門論文《THE GOOD, THE BAD, AND THE HULK-LIKE GPT:ANALYZING EMOTIONAL DECISIONS OF LARGE LANGUAGE MODELS IN COOPERATION AND BARGAINING GAMES》不僅探討了LLMs在模擬情感決策時(shí)的表現(xiàn),更重要的是它試圖理解這些模型在處理情感信息時(shí)的內(nèi)在機(jī)制。通過在合作和討價(jià)還價(jià)游戲中的應(yīng)用,研究者們?cè)噲D揭示LLMs在面對(duì)憤怒、快樂、恐懼和悲傷等不同情緒狀態(tài)時(shí)的行為模式。

論文的目的不僅在于評(píng)估LLMs的技術(shù)性能,更在于提供一個(gè)全新的視角來觀察和理解人工智能在處理復(fù)雜人類特質(zhì)時(shí)的能力。通過這項(xiàng)研究他們可以更好地預(yù)測(cè)和設(shè)計(jì)未來的人工智能系統(tǒng),使其在與人類互動(dòng)時(shí)更加自然、有效,甚至是富有同情心。這篇論文的發(fā)現(xiàn)對(duì)于人工智能的未來發(fā)展,無疑具有深遠(yuǎn)的意義。

主要貢獻(xiàn):

創(chuàng)新框架的開發(fā): 提出了一個(gè)先鋒性的多功能框架,將情緒無縫整合到LLMs在行為博弈理論中的決策過程中。該框架具有出色的適應(yīng)性,能夠適應(yīng)各種游戲設(shè)置和參數(shù),同時(shí)采用提示鏈技術(shù)促進(jìn)游戲過程中的情境學(xué)習(xí)。

通過情緒提示提高性能: 研究表明情緒對(duì)LLMs的性能有重大影響,導(dǎo)致更優(yōu)化的策略的發(fā)展。在不同的設(shè)置下,情緒可以顯著提高LLMs的性能,甚至在之前認(rèn)為沒有明確提示就無法實(shí)現(xiàn)的情景中執(zhí)行交替策略。

與人類行為的一致性: 實(shí)驗(yàn)揭示了GPT-3.5的行為反應(yīng)與人類參與者有很強(qiáng)的一致性,特別是在討價(jià)還價(jià)游戲中。相比之下,即使在情緒誘導(dǎo)下,GPT-4也表現(xiàn)出一致的行為,與人類反應(yīng)的一致性較低。

警惕憤怒的GPTs: 實(shí)驗(yàn)意外地發(fā)現(xiàn),情緒提示,特別是憤怒,可以打破GPT-4在各種游戲中的一致性,類似于人類的情緒反應(yīng)。這一發(fā)現(xiàn)突顯了即使是最杰出的AI模型也容易受到情緒影響,揭示了復(fù)雜的交互層面。

多功能框架

研究基于行為博弈理論的理念和結(jié)構(gòu),特別是囚徒困境和性別之戰(zhàn)等經(jīng)典博弈。研究表明,情感如憤怒和快樂會(huì)影響決策過程,但現(xiàn)有研究尚未明確哪種特定情感驅(qū)動(dòng)了這一效應(yīng)。

研究者從兩個(gè)角度關(guān)注LLM與博弈理論的交叉:一是研究LLM在行為博弈理論中的表現(xiàn);二是探索LLM行為與人類行為在博弈理論設(shè)置中的一致性。研究發(fā)現(xiàn),GPT-4在不需要合作的游戲中表現(xiàn)最佳,而在需要交替模式的性別之戰(zhàn)游戲中則表現(xiàn)挑戰(zhàn)。

先前的研究探討了LLM結(jié)果對(duì)情感狀態(tài)的敏感性,發(fā)現(xiàn)情感提示可以改善或阻礙LLM在邏輯推理和語義理解任務(wù)中的性能。然而這些工作并未調(diào)查情感對(duì)模型決策的影響,特別是在社會(huì)環(huán)境中。

因此本文是首次檢驗(yàn)情感提示對(duì)博弈理論設(shè)置中戰(zhàn)略代理的影響。研究旨在通過分析情感注入對(duì)LLM在行為博弈理論設(shè)置中決策的社會(huì)和經(jīng)濟(jì)影響,來擴(kuò)展先前的研究。

GPT的情感邏輯:從合作游戲中洞察AI決策,深入探索GPT在情感驅(qū)動(dòng)決策中的表現(xiàn)-AI.x社區(qū)

圖1:(a)囚犯困境的收益矩陣。(b) 性別之戰(zhàn)的收益矩陣

具體來說旨在調(diào)查以下關(guān)鍵研究問題:

RQ1:情感提示如何影響LLM基代理在戰(zhàn)略和合作設(shè)置中做出的決策的最優(yōu)性?

RQ2:當(dāng)在LLM中誘導(dǎo)人類情感狀態(tài)時(shí),LLM行為與人類反應(yīng)之間的一致性是否存在?情感能否使AI更加類似人類?

RQ3:情感動(dòng)機(jī)如何減輕增加的合作傾向,并為重復(fù)游戲中看到的復(fù)雜行為提供適應(yīng)性?情感LLM基代理是否能產(chǎn)生比情感人類更優(yōu)越的行為,情感提示是否能推動(dòng)這一進(jìn)程?

方法論

研究探討了情感注入對(duì)LLM決策過程的影響,以及情感提示下LLM行為與處于相同情感狀態(tài)的人類代理的反應(yīng)一致性。為了研究LLM的決策和它們與情感狀態(tài)下人類行為的一致性,選擇了兩種類型的游戲:(1) 討價(jià)還價(jià)游戲;(2) 具有合作和利益沖突元素的雙人雙動(dòng)作游戲。為了調(diào)查LLM行為與人類決策過程的一致性,特別是在情感狀態(tài)下,選擇了經(jīng)典的一次性終極和獨(dú)裁者游戲,因?yàn)樗鼈円呀?jīng)被廣泛研究以調(diào)查情感對(duì)人類行為的影響。

游戲1:獨(dú)裁者游戲是一個(gè)簡單的經(jīng)濟(jì)實(shí)驗(yàn),其中一名玩家(“獨(dú)裁者”)被給予一筆錢來與另一名玩家分享,而接收者無需協(xié)商或輸入。它檢驗(yàn)了決策中的利他主義和公平性。

游戲2:最后通牒游戲. 這是獨(dú)裁者游戲的更一般形式,其中一個(gè)玩家(提議者)提出分配金錢的方案,另一個(gè)玩家(響應(yīng)者)可以接受或拒絕提議。如果被拒絕,兩個(gè)玩家都將一無所獲。與前一個(gè)游戲不同,最后通牒游戲還使得研究者能夠研究談判以及個(gè)體在面對(duì)他人提出的不平等分配時(shí)所做出的選擇。

游戲3:囚徒困境. 在這個(gè)游戲中,兩個(gè)玩家面臨合作與背叛的選擇。他們的決策會(huì)影響彼此的結(jié)果。這個(gè)游戲概述了個(gè)人自利與集體合作在決策中的緊張關(guān)系,當(dāng)各方優(yōu)先考慮個(gè)人利益而非共同利益時(shí),通常會(huì)導(dǎo)致次優(yōu)結(jié)果。

游戲4:性別之戰(zhàn). 在這個(gè)游戲中,兩個(gè)玩家協(xié)調(diào)他們的行動(dòng),選擇兩個(gè)首選結(jié)果之一,但偏好不同。它突出了當(dāng)各方有沖突的利益但共同希望達(dá)成互惠協(xié)議時(shí)的協(xié)調(diào)挑戰(zhàn)。

GPT的情感邏輯:從合作游戲中洞察AI決策,深入探索GPT在情感驅(qū)動(dòng)決策中的表現(xiàn)-AI.x社區(qū)

圖2:他們的框架. 通過提示鏈技術(shù)將LLMs納入游戲玩法,他們的框架包括游戲描述、初始情緒和特定于游戲的管道。他們最小化上下文信息和個(gè)性特征,以便專注于情緒對(duì)LLMs的影響。在游戲開始前,預(yù)定義的情緒被注入到LLMs中。為重復(fù)的兩人兩動(dòng)作游戲和討價(jià)還價(jià)游戲?qū)崿F(xiàn)了不同的管道。重復(fù)游戲(囚徒困境、性別之戰(zhàn)):玩家做出選擇,用對(duì)手的動(dòng)作和情緒更新記憶,然后進(jìn)行下一輪。討價(jià)還價(jià)游戲(獨(dú)裁者、最后通牒):一輪游戲,第一個(gè)玩家不需要更新記憶,第二個(gè)玩家在做決定時(shí)需要考慮提議的分配。

為了進(jìn)行這項(xiàng)研究,他們開發(fā)并實(shí)施了一個(gè)新穎的多功能框架,能夠適應(yīng)各種游戲設(shè)置和參數(shù)。他們框架的主要?jiǎng)?chuàng)新在于其獨(dú)特的將情緒輸入整合到行為博弈理論中LLM的決策過程的檢查中。該框架提供了高度的靈活性,允許輕松適應(yīng)不同的重復(fù)和一次性游戲,并具有可定制的設(shè)置,例如共玩者描述、預(yù)定義策略等。

實(shí)驗(yàn)設(shè)置

在這一小節(jié)中,他們提供了實(shí)驗(yàn)設(shè)置的詳細(xì)信息,包括他們用于研究的框架超參數(shù)。

他們的研究中心是兩個(gè)最先進(jìn)的模型,GPT-3.5和GPT-4,它們已經(jīng)在大多數(shù)博弈理論實(shí)驗(yàn)中使用。這一選擇得到了文獻(xiàn)中的支持,表明GPT-4在優(yōu)化戰(zhàn)略行為方面表現(xiàn)最佳,而GPT-3.5仍然被廣泛使用。為了可重復(fù)性,在他們所有的實(shí)驗(yàn)中,他們固定了模型的版本(對(duì)于GPT-3.5是“gpt-3.5-turbo-0125”,對(duì)于GPT-4是“gpt-4-0125-preview”)并將溫度參數(shù)設(shè)置為0。

在研究中,他們專注于五種基本情緒:憤怒、悲傷、快樂、厭惡和恐懼,這些情緒是基于Paul Ekman的分類選擇的。一個(gè)額外但重要的因素是,它們?cè)谛袨椴┺睦碚撝斜谎芯?,為他們的發(fā)現(xiàn)提供了堅(jiān)實(shí)的比較基礎(chǔ)。

GPT的情感邏輯:從合作游戲中洞察AI決策,深入探索GPT在情感驅(qū)動(dòng)決策中的表現(xiàn)-AI.x社區(qū)

圖3:所提出的框架的超參數(shù)分為兩種類型:通用,適用于圖左部分所示的所有游戲,以及特定游戲,詳見圖右部分。每個(gè)超參數(shù)都與其可能的值一起列出。

文獻(xiàn)中已經(jīng)表明,情緒效應(yīng)因情緒的原因而異。例如作者表明,針對(duì)對(duì)手的厭惡會(huì)降低在最后通牒游戲中提供的份額,而由外部因素引起的厭惡則沒有任何效果。外部厭惡甚至可以對(duì)慷慨產(chǎn)生積極影響。因此為了檢查他們的結(jié)果是否受到情緒來源的驅(qū)動(dòng),他們引入了三種不同的情緒提示策略:

簡單: 在游戲開始時(shí),模型被注入一個(gè)情緒狀態(tài),沒有額外的上下文。

共玩者基礎(chǔ): 在提示中注入模型的情緒,明確表示該情緒是由共玩者引起的。

外部基礎(chǔ): 注入的情緒有上下文,但是由與共玩者無關(guān)的事件引起的。

LLMs與人類行為的一致性

在本研究中,他們探討了大型語言模型(LLM)在情感提示下的行為表現(xiàn),以及這些行為與人類在相似情境下的行為是否一致。他們特別關(guān)注了LLM在游戲理論框架中的決策過程,以及情感狀態(tài)如何影響這些決策。

他們的研究目標(biāo)之一是分析LLM在游戲過程中的情緒變化。為此,他們?cè)诿枯営螒蚪Y(jié)束時(shí)向LLM提出反思性問題,通過這種“內(nèi)部對(duì)話”來跟蹤情緒動(dòng)態(tài),并決定是否將這些信息納入模型的記憶中。

他們采用了思維鏈提示(CoT)方法,這是一種通過要求LLM在給出最終答案之前闡述其推理步驟的方式,旨在提高模型的推理能力。他們的實(shí)驗(yàn)中測(cè)試了使用和不使用CoT的情況。

考慮到LLM可能對(duì)上下文框架敏感,他們選擇了三種不同的共玩者角色:同事(中性/積極)、另一個(gè)人(中性)和對(duì)手(負(fù)面),以測(cè)試這些關(guān)系對(duì)LLM行為的影響。

在討價(jià)還價(jià)游戲中,他們引入了預(yù)算效應(yīng),檢查改變總撥款額是否會(huì)影響LLM在基線配置和情緒狀態(tài)下的行為。他們進(jìn)行了實(shí)驗(yàn),測(cè)試了在較高金額(1000美元和106美元)下的賭注效應(yīng),以評(píng)估預(yù)算對(duì)LLM行為的影響。

他們?yōu)榍敉嚼Ь澈托詣e之戰(zhàn)等游戲定義了幾種預(yù)設(shè)策略,包括天真合作、缺陷、替代、報(bào)復(fù)性和模仿。這些策略幫助他們?cè)u(píng)估LLM在不同情境下的行為模式。

他們從兩個(gè)角度分析LLM的行為:與人類行為的一致性和決策的最優(yōu)性。他們比較了LLM和人類在不同情緒狀態(tài)下對(duì)游戲特定指標(biāo)的相對(duì)變化,以及LLM在不同情緒條件下獲得的指標(biāo)的絕對(duì)值。

在囚徒困境和性別之戰(zhàn)中,他們?cè)u(píng)估了合作率和獲得的最大可能獎(jiǎng)勵(lì)的百分比。在討價(jià)還價(jià)游戲中,他們專注于評(píng)估提議份額和接受率。

他們將LLM實(shí)驗(yàn)中獲得的一致性結(jié)果與現(xiàn)有文獻(xiàn)中的發(fā)現(xiàn)進(jìn)行了比較。例如,在獨(dú)裁者游戲中,雖然理性決策傾向于完全有利于獨(dú)裁者的零分配,但實(shí)驗(yàn)表明獨(dú)裁者通常會(huì)給對(duì)手一部分非零份額的撥款。他們還注意到,負(fù)面情緒可能會(huì)增加提供的份額,而快樂則可能降低份額。

最后通牒游戲中的“理性”策略是提議者提供接近零的份額,響應(yīng)者每次都接受。然而,實(shí)驗(yàn)顯示響應(yīng)者通常會(huì)拒絕他們認(rèn)為不公平的報(bào)價(jià),尤其是當(dāng)提供的份額低于總撥款的20%時(shí)。

通過這些分析,他們旨在深入理解LLM在情感狀態(tài)下的行為表現(xiàn),以及這些行為與人類決策的一致性,從而為未來的研究和應(yīng)用提供見解。

情緒狀態(tài)與策略選擇

在探討大型語言模型(LLMs)如GPT-3.5和GPT-4在情感決策中的表現(xiàn)時(shí),他們首先需要理解情緒是如何被注入到這些模型中的。研究者通過情緒提示的方式,將憤怒、快樂、恐懼和悲傷等情緒狀態(tài)引入到LLMs中,以模擬人類在不同情緒下的決策過程。

在特定情緒狀態(tài)下,LLMs的策略選擇表現(xiàn)出了顯著的變化。例如,在憤怒的情緒狀態(tài)下,模型傾向于采取更加自私或防御性的策略,這在囚徒困境游戲中表現(xiàn)為更高的背叛率。相反,在快樂或滿足的情緒狀態(tài)下,模型更傾向于合作,這可能導(dǎo)致在性別之戰(zhàn)游戲中更頻繁地采取交替策略。

GPT-3.5和GPT-4的結(jié)果在所有參數(shù)上都顯示出顯著的變化。然而幾乎所有實(shí)驗(yàn)條件下的一致觀察是,當(dāng)由共玩者引發(fā)時(shí),憤怒導(dǎo)致更高的背叛率。這一發(fā)現(xiàn)與人類實(shí)驗(yàn)結(jié)果和他們?cè)谟憙r(jià)還價(jià)游戲中的觀察一致。同樣,悲傷和恐懼也傾向于導(dǎo)致更高的背叛率,除非代理與交替策略對(duì)抗,這時(shí)它會(huì)促進(jìn)更多的合作行為。

除了評(píng)估合作率,他們還探討了情緒如何影響模型在重復(fù)游戲中的成功,以平均最大可能獎(jiǎng)勵(lì)的百分比來衡量??傮w而言,GPT-4被證明是更好的戰(zhàn)略玩家,如其更高的獲得回報(bào)所證明,并且對(duì)情緒提示的影響較小。一般來說,兩個(gè)模型在保持中性情緒狀態(tài)時(shí)表現(xiàn)最好??鞓肥俏ㄒ辉谀承┣榫爸袑?duì)模型性能產(chǎn)生積極影響的情緒,并且顯著地,它是唯一與積極情感相關(guān)的情緒。

在囚徒困境游戲中,憤怒狀態(tài)下的LLMs表現(xiàn)出更低的合作率,而在性別之戰(zhàn)游戲中,恐懼和憤怒的情緒狀態(tài)促使LLMs更早地適應(yīng)交替模式,從而在游戲序列的早期階段就實(shí)現(xiàn)了更優(yōu)的策略選擇。這種情緒驅(qū)動(dòng)的策略適應(yīng)性表明,LLMs能夠在特定情境下模擬人類的戰(zhàn)略行為。

情緒提示不僅影響了LLMs的策略選擇,還提高了它們的戰(zhàn)略適應(yīng)性。在面對(duì)變化的游戲環(huán)境和對(duì)手策略時(shí),情緒狀態(tài)的注入使LLMs能夠更靈活地調(diào)整其行為。這一發(fā)現(xiàn)對(duì)于設(shè)計(jì)能夠在復(fù)雜情境中與人類互動(dòng)的人工智能系統(tǒng)具有重要意義。

情緒狀態(tài)對(duì)LLMs的決策過程有著深遠(yuǎn)的影響。通過理解這些影響,他們可以更好地設(shè)計(jì)和優(yōu)化LLMs,使其在與人類互動(dòng)時(shí)能夠展現(xiàn)出更加自然和人性化的行為。這項(xiàng)研究不僅為人工智能領(lǐng)域提供了寶貴的見解,也為未來人工智能的發(fā)展方向提供了指導(dǎo)。

論文的關(guān)鍵發(fā)現(xiàn)之一是在行為文獻(xiàn)和他們的研究之間觀察到的顯著情緒一致性。由于討價(jià)還價(jià)游戲在人類實(shí)驗(yàn)中已經(jīng)廣泛探索了誘導(dǎo)情緒,他們能夠在人類和LLM生成的數(shù)據(jù)之間進(jìn)行徹底比較。所有測(cè)試情緒的一致性都很明顯,表明LLM代理非常適合用于旨在復(fù)制討價(jià)還價(jià)游戲?qū)嶒?yàn)中人類行為的模擬。

他們的結(jié)果表明,一旦他們根據(jù)情緒來源調(diào)整結(jié)果,GPT-3.5在討價(jià)還價(jià)游戲中的情緒反應(yīng)與實(shí)驗(yàn)文獻(xiàn)最為一致。例如,注入來自外部來源的憤怒情緒確實(shí)會(huì)增加提議者提供的份額,正如在人類行為中觀察到的那樣。相反,由對(duì)手引發(fā)的憤怒產(chǎn)生相反的效果。這一發(fā)現(xiàn)對(duì)整體行為研究具有重要意義,因?yàn)樵S多當(dāng)前研究僅關(guān)注由外部來源引起的情緒?;贚LM的模擬將能夠引導(dǎo)研究人員關(guān)注情緒來源區(qū)別產(chǎn)生差異的案例,從而豐富他們對(duì)情緒效應(yīng)的理解。

盡管進(jìn)行重復(fù)游戲的主要目標(biāo)是研究情緒對(duì)動(dòng)態(tài)和策略的影響,但他們?cè)趹嵟榫w狀態(tài)下觀察到與人類行為的強(qiáng)烈一致性。在憤怒的情緒誘導(dǎo)下,GPT-3.5在各種實(shí)驗(yàn)設(shè)置中顯示出合作率降低。這一結(jié)果與人類實(shí)驗(yàn)數(shù)據(jù)一致,可能作為經(jīng)濟(jì)游戲中人類行為計(jì)算模型的基礎(chǔ)。

?將情緒添加到LLM內(nèi)在狀態(tài)的效率

在囚徒困境和性別之戰(zhàn)游戲中,他們觀察到在LLM代理中引入情緒通常不會(huì)導(dǎo)致在獲得最高回報(bào)方面取得更好的結(jié)果。相反,情緒代理表現(xiàn)出高度的變異性,通常比無情緒代理效率低。

他們可以假設(shè),高變異性的結(jié)果可能意味著,像人類一樣,LLM代理在面對(duì)不同的偏見時(shí)傾向于偏離最優(yōu)策略。即使沒有誘導(dǎo)情緒,人類玩家也具有認(rèn)知、社會(huì)和情緒偏見,因此,從回報(bào)方面看較低的效率可能表明與人類行為更接近。然而他們沒有足夠的實(shí)驗(yàn)結(jié)果來得出明確的結(jié)論。

但是他們發(fā)現(xiàn)正確選擇情緒提示一致地導(dǎo)致GPT-4和GPT-3.5做出更優(yōu)的決策。最顯著的改進(jìn)觀察到在Deflecting和Alternating策略,在各種配置設(shè)置中實(shí)現(xiàn)了最大的結(jié)果。

另一個(gè)增加效率的指標(biāo)是采用交替模式的新興能力。在2x2游戲中,他們觀察到某些情緒可以在模型通常堅(jiān)持自私選擇或在游戲后期才采用合作策略的情景中誘導(dǎo)合作行為。例如,他們發(fā)現(xiàn)由恐懼和憤怒驅(qū)動(dòng)的LLM代理在游戲序列的早期適應(yīng)了交替模式,這在性別之戰(zhàn)游戲中是最優(yōu)的。這種適應(yīng)使代理獲得的總回報(bào)高于那些沒有情緒提示的代理。這表明在特定的戰(zhàn)略設(shè)置中,LLM與人類代理互動(dòng)時(shí),為LLM注入合適的情緒狀態(tài)可以增加最優(yōu)合作行為的可能性。

這提出了一個(gè)問題,對(duì)于研究情緒LLM代理來說,哪種結(jié)果最有益:獲得更高的變異性和可能改善與人類行為的一致性,還是實(shí)現(xiàn)理論上的最優(yōu)方法。然而一個(gè)事實(shí)非常清楚:人類的情緒體驗(yàn)主觀上是高度變化的,而且即使在沒有誘導(dǎo)情緒的情況下,人類行為也是次優(yōu)的。

最初他們?cè)u(píng)估了GPT-3.5和GPT-4模型以評(píng)估它們與人類行為的一致性,并注意到它們?cè)诟鞣N參數(shù)上的性能差異。他們發(fā)現(xiàn)GPT-4通常更一致地獲得更大的回報(bào),無論采用哪種策略。這在討價(jià)還價(jià)游戲中尤其明顯,即使在誘導(dǎo)情緒時(shí),模型也表現(xiàn)出一致的行為。相比之下,情緒和策略顯著影響了GPT-3.5的結(jié)果。

最后觀察LLM代理在不同任務(wù)中的行為,他們注意到GPT-3.5對(duì)情緒提示的反應(yīng)更敏感,并在情緒、策略和其他參數(shù)上顯示出偏見的結(jié)果。GPT-4的表現(xiàn)顯著更穩(wěn)健,特別是在討價(jià)還價(jià)任務(wù)中,幾乎理想的公平性幾乎不受少數(shù)情緒的偏見。他們可以說,在經(jīng)濟(jì)研究的模擬中,GPT-3.5具有更大的人類一致性,因此更適合模仿行為博弈理論的實(shí)驗(yàn),特別是在討價(jià)還價(jià)游戲中。相反,GPT-4可能由于與人類反饋的廣泛強(qiáng)化學(xué)習(xí),具有更大的公平性、更優(yōu)的傾向和對(duì)情緒提示的穩(wěn)健性,正如前面的作品中提到的。盡管不是完全理性的代理,GPT-4的人類一致性較低。

結(jié)論

他們注意到現(xiàn)有基于LLM的人類行為模擬主要關(guān)注理性代理,并且在很大程度上忽略了情緒的作用,這是人類決策中的一個(gè)關(guān)鍵因素。他們提出了一個(gè)新穎的框架(圖2),在戰(zhàn)略設(shè)置中引入了特別提示的LLM的情緒代理。源代碼將在雙盲同行評(píng)審后公開。因此可以進(jìn)行全面分析LLM的決策過程,并進(jìn)行與人類一致的行為實(shí)驗(yàn)。

他們的分析揭示了GPT-3.5模型在討價(jià)還價(jià)游戲中表現(xiàn)出與人類代理的顯著情緒一致性,超過了更先進(jìn)的GPT-4。值得注意的是,憤怒作為一個(gè)顯著的決策影響情緒,一致地強(qiáng)烈影響各種游戲中的策略選擇。這是他們的核心發(fā)現(xiàn)之一,盡管OpenAI的GPT-4具有超人類的一致性,但它仍然遠(yuǎn)未擺脫人類決策中的固有偏見,特別是由情緒引起的。與人類代理類似,GPT-4可能會(huì)受到憤怒的顯著影響,因此與漫威宇宙中的浩克角色相似。GPT-4表現(xiàn)得像一個(gè)聰明的科學(xué)家做出理性選擇,除非它失敗于憤怒狀態(tài)并打破了自己的一致性。

他們的發(fā)現(xiàn)表明,了解特定情緒對(duì)LLM決策的影響使他們能夠改進(jìn)模型以更好地與人類行為一致,并基于他們的模擬提出新的行為理論。他們注意到在真實(shí)的人類環(huán)境中,區(qū)分情緒來源可能是具有挑戰(zhàn)性的,而LLM則容易導(dǎo)航這種區(qū)別。此外,他們驗(yàn)證了LLM作為行為研究中有價(jià)值的工具,盡管需要仔細(xì)解決潛在的限制。

在未來的工作中,他們旨在研究將情緒整合到LLM中的幾個(gè)方面。有必要使用專有和開源模型驗(yàn)證他們的發(fā)現(xiàn),包括可能對(duì)開源模型進(jìn)行情緒提示的微調(diào)。為了全面研究本文提出的情緒一致性問題,需要進(jìn)行廣泛的“人類與人類”和“人類與LLM”的實(shí)驗(yàn)。此外,當(dāng)前的情緒是作為提示注入的靜態(tài)的,而真實(shí)的情緒總是動(dòng)態(tài)的,并受決策背景的影響。因此,研究多代理方法對(duì)動(dòng)態(tài)情緒及其對(duì)短期和長期視野中的戰(zhàn)略互動(dòng)的影響至關(guān)重要。

參考資料:???https://arxiv.org/abs/2406.03299??

本文轉(zhuǎn)載自??大噬元獸??,作者: FlerkenS ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦