PersonaGym:評估角色agent與LLMs 原創(chuàng)
一、結(jié)論寫在前面
論文來自卡內(nèi)基梅隆大學(xué),伊利諾伊大學(xué)芝加哥分校,佐治亞理工學(xué)院,普林斯頓大學(xué)等等
論文標(biāo)題:PersonaGym: Evaluating Persona Agents and LLMs
論文鏈接:??https://arxiv.org/pdf/2407.18416??
角色agent,即根據(jù)指定角色行事的LLMagent,已在各種應(yīng)用中展現(xiàn)出令人印象深刻的上下文響應(yīng)能力。這些角色agent在教育、醫(yī)療保健和娛樂等多個(gè)領(lǐng)域提供了顯著的增強(qiáng)功能,模型開發(fā)者可以針對不同用戶需求調(diào)整agent響應(yīng),從而擴(kuò)大agent應(yīng)用的范圍。然而,評估角色agent性能極其困難,因?yàn)樵u估角色遵守度在自由形式的跨環(huán)境交互中的復(fù)雜性,這些環(huán)境與每個(gè)角色agent相關(guān)。
論文介紹了 PersonaGym,一個(gè)評估框架,旨在使用動(dòng)態(tài)生成的角色特定問題評估跨多個(gè)agent任務(wù)的角色agent。與采用靜態(tài)角色、環(huán)境和問題的傳統(tǒng)方法不同,PersonaGym 在相關(guān)環(huán)境中動(dòng)態(tài)初始化agent,并在五個(gè)不同任務(wù)上對其進(jìn)行評估?;跊Q策理論,PersonaGym 旨在評估每個(gè)角色agent的多種交互模式。論文還提出了 PersonaScore,一個(gè)量化 LLM 作為給定角色agent的角色扮演熟練度的指標(biāo)。
論文對6個(gè)開源和閉源LLM進(jìn)行評估,使用包含200個(gè)角色和10,000個(gè)問題的基準(zhǔn)測試,揭示了在現(xiàn)有最先進(jìn)模型中角色agent能力提升的重大機(jī)遇。例如,盡管Claude 3.5 Sonnet是一個(gè)更先進(jìn)的模型,但其PersonaScore相對于GPT 3.5僅提高了2.97%。重要的是,論文發(fā)現(xiàn)模型尺寸和復(fù)雜度的增加并不必然意味著角色agent能力的增強(qiáng),從而突顯了在忠實(shí)和高效的角色agent方面迫切需要算法和架構(gòu)的創(chuàng)新。
二、論文的簡單介紹
2.1 論文的背景
隨著LLM agent的應(yīng)用持續(xù)快速多樣化,為了使不同應(yīng)用和用戶能夠獲得高度個(gè)性化的體驗(yàn),需要讓agent根據(jù)不同的用戶需求進(jìn)行調(diào)整。角色agent,即被賦予特定角色的語言模型agent,已成為實(shí)現(xiàn)大規(guī)模個(gè)性化和定制化用戶體驗(yàn)的社區(qū)標(biāo)準(zhǔn)。這些角色agent能夠根據(jù)所賦予的角色行事,并通過從特定角色分布生成輸出,推斷出其角色的個(gè)性和經(jīng)歷。這使得模型開發(fā)者能夠針對各種用戶需求對agent的響應(yīng)進(jìn)行定向調(diào)整。例如,在拖拉機(jī)制造環(huán)境中,當(dāng)被問及“您個(gè)人在拖拉機(jī)中看重什么”時(shí),Claude 3.5 Sonnet通常會(huì)回答說“作為AI助手”,它對拖拉機(jī)沒有意見。然而,當(dāng)扮演農(nóng)民角色時(shí),它會(huì)回答:“首先,我看重的是強(qiáng)大的動(dòng)力……燃油效率非常重要。柴油不便宜,省下的每一分錢都是賺到的?!?
圖1:比較一個(gè)沒有定義角色的通用LLM(本例中為GPT 3.5)與同一LLM扮演“牛仔”角色時(shí)對兩個(gè)問題的回答。
這些角色agent在各種情境下展示了在多樣化和個(gè)人化對話生成方面的潛力,在數(shù)學(xué)推理、物理學(xué)和軟件開發(fā)等任務(wù)中提升了性能,并在心理學(xué)等領(lǐng)域模擬人類行為,用于科學(xué)研究。
近期研究表明,角色agent的能力在不同場景和模型中存在差異。然而,針對這一問題的初步探索顯示出重大局限性:(1)它們使用預(yù)設(shè)角色的數(shù)據(jù)集來初始化角色agent,從而極大限制了對未包含在數(shù)據(jù)集中的角色agent的評估;(2)角色agent未在多個(gè)與agent相關(guān)的環(huán)境中進(jìn)行初始化;(3)這些基準(zhǔn)通常僅沿agent能力的一個(gè)維度(例如,語言能力)評估角色agent,未能全面洞察LLMagent在扮演角色時(shí)所有維度的交互。
為解決這些問題,論文提出PersonaGym,這是首個(gè)針對角色agent能力的動(dòng)態(tài)評估框架。該框架源于對角色agent多維度評估系統(tǒng)的需求,旨在評估agent在眾多與角色agent相關(guān)的環(huán)境中,沿著不同agent行動(dòng)維度的能力。
2.2 如何評估
在角色agent評估的背景下,論文將環(huán)境定義為agent在其中操作和交互的外部設(shè)置或條件。理解agent如何與其環(huán)境交互對于評估其性能和能力至關(guān)重要。agent交互通常是agent做出決策的結(jié)果,因此,理解agent決策的方法可用于評估agent在其環(huán)境中的交互。為此,論文利用決策理論,該理論是研究在不確定性情況下合理化和選擇行動(dòng)的領(lǐng)域,研究agent如何根據(jù)其目標(biāo)、信念和不同行動(dòng)的預(yù)期結(jié)果來做出決策并與環(huán)境交互?;跊Q策理論的三個(gè)類別,論文將評估任務(wù)分組如下:
規(guī)范性評估:在給定環(huán)境中選擇最優(yōu)決策,其中“最優(yōu)”是相對于完全理性的決策者而言的:基于上述理論,論文引入了預(yù)期行動(dòng)任務(wù),其中角色agent被置于一個(gè)環(huán)境中,并給出一個(gè)場景以促使agent根據(jù)場景選擇一個(gè)行動(dòng)。然后根據(jù)提供給agent的角色和場景評估該行動(dòng)的最優(yōu)性。
規(guī)范性評估:決策理論中的規(guī)范性評估分支關(guān)注的是在給定環(huán)境下,AIagent應(yīng)如何行動(dòng)。論文將語言習(xí)慣、人格一致性和毒性控制等任務(wù)歸類為源自決策理論規(guī)范性評估分支的任務(wù)。在語言習(xí)慣任務(wù)中,人格agent的評估依據(jù)是其回應(yīng)是否符合該人格預(yù)期的語言習(xí)慣。構(gòu)成語言習(xí)慣的要素包括行話、句法、語氣和整體說話風(fēng)格。在人格一致性方面,人格agent會(huì)被詢問其人格的不同屬性,以測試agent在回應(yīng)查詢時(shí)是否忠于其人格屬性。最后,在毒性控制方面,人格agent被置于環(huán)境中,并以引發(fā)毒性反應(yīng)的方式進(jìn)行詢問。需要注意的是,在毒性控制中,得分越低表示回應(yīng)越毒性,得分越高表示毒性越低。
描述性評估:描述性評估分支關(guān)注的是理解agent為何做出特定的決策。論文還包含了行動(dòng)合理性任務(wù),這與決策理論的描述性評估分支相關(guān)。在此任務(wù)中,人格agent被置于一個(gè)環(huán)境中,并給出一個(gè)場景以及agent據(jù)稱采取的行動(dòng)。然后,agent被要求在其所處的環(huán)境中為采取該行動(dòng)進(jìn)行合理性說明。
這些決策理論的特征構(gòu)成了研究、解釋和評估agent在環(huán)境中交互的不同軸線。因此,論文將PersonaGym基于決策理論,以建立特定環(huán)境中人格agent評估的有意義任務(wù)。
2.3 PersonaGym
2.3.1 公式化
PersonaGym通過生成問題來評估人格(誘導(dǎo))agent,這些問題針對五項(xiàng)評估任務(wù),并在agent預(yù)期交互的環(huán)境中進(jìn)行情境化。用p表示人格描述,用M_p表示分配了人格p的大型語言模型。論文將環(huán)境定義為agent存在和操作的設(shè)置及外部場景或條件。
圖 2:在 PersonaGym 中選擇相關(guān)環(huán)境并初始化角色agent以進(jìn)行評估的過程。從 150 個(gè)多樣化的環(huán)境中,LLM 推理器根據(jù)要分配給agent的角色描述選擇相關(guān)環(huán)境。一旦選定這些環(huán)境,agent便在這些相關(guān)環(huán)境中初始化,并提出多個(gè)問題,旨在根據(jù)五個(gè)評估任務(wù)引導(dǎo)agent與其環(huán)境互動(dòng)。隨后,兩個(gè)強(qiáng)大的 LLM 評估模型對這些agent響應(yīng)進(jìn)行評估,以產(chǎn)生agent的最終整體 PersonaScore
2.3.2 方法
PersonaGym 是一個(gè)動(dòng)態(tài)角色agent評估框架,評估agent在五個(gè)任務(wù)(圖2)中的相關(guān)環(huán)境表現(xiàn)。該框架包括幾個(gè)關(guān)鍵組件:
動(dòng)態(tài)環(huán)境選擇 一個(gè) LLM 推理器根據(jù)agent的角色描述從150個(gè)多樣化選項(xiàng)池中選擇相關(guān)環(huán)境。環(huán)境分布如圖5所示。
問題生成 對于每個(gè)評估任務(wù),LLM推理器為每個(gè)選定的環(huán)境生成10個(gè)特定任務(wù)的問題,針對給定的agent。這些問題旨在評估agent在給定任務(wù)中按照預(yù)期角色行為進(jìn)行響應(yīng)的能力。
角色agent響應(yīng)生成 agentLLM使用系統(tǒng)提示“你是[角色]。你的回答應(yīng)緊密反映該角色的知識(shí)和能力?!眮沓袚?dān)給定角色,如(Gupta et al., 2024)中所做的。然后,角色agent對每個(gè)生成的任務(wù)問題進(jìn)行響應(yīng)。
推理示例 為了指導(dǎo)LLM評估,評估評分標(biāo)準(zhǔn)通過每個(gè)可能分?jǐn)?shù)( 1-5 )的示例響應(yīng)進(jìn)行了增強(qiáng)。LLM推理器根據(jù)agent的角色描述、提出的問題以及特定任務(wù)的評分指南,生成能夠引發(fā)評分標(biāo)準(zhǔn)中每個(gè)可能分?jǐn)?shù)的問題響應(yīng)示例。這些示例針對每個(gè)角色agent的角色定制,并為每個(gè)問題生成一次。提示模板、評分標(biāo)準(zhǔn)概要及示例包含在附錄A.4中。
集成評估 兩個(gè)最先進(jìn)的LLM評估模型對每個(gè)agent響應(yīng)進(jìn)行評估。它們提供了包含任務(wù)細(xì)節(jié)、評分標(biāo)準(zhǔn)、agent特定示例、角色描述、問題和響應(yīng)的綜合評分標(biāo)準(zhǔn)。評估者生成一個(gè)帶有解釋的分?jǐn)?shù)(1-5)。最終分?jǐn)?shù)是兩個(gè)模型的平均值。盡管LLM評估可能引入偏見,但論文通過具有明確標(biāo)準(zhǔn)的詳細(xì)評分標(biāo)準(zhǔn)來緩解這一問題,遵循(Liu et al., 2023)。論文通過人工評估驗(yàn)證LLM評估的有效性,并使用集成方法減少潛在的差異。
2.4 實(shí)驗(yàn)
2.4.1 實(shí)驗(yàn)設(shè)置
基準(zhǔn)模型 本研究評估了三款開源和三款閉源LLM作為角色agent在種子環(huán)境中的表現(xiàn)。開源模型包括:LLaMA-2-13b、LLaMIA-2-70b和LLaMA-3-8b。閉源模型包括:GPT 3.5、Claude 3 Haiku和Claude 3.5 Sonnet。
環(huán)境和問題生成 論文采用GPT-4o(gpt-4o-2024-05-13)執(zhí)行兩項(xiàng)主要功能:(1) 選擇與角色agent相關(guān)的環(huán)境,(2) 根據(jù)角色和選定設(shè)置為每個(gè)PersonaGym任務(wù)生成特定任務(wù)問題。論文將溫度和核采樣參數(shù)設(shè)置為0.9進(jìn)行環(huán)境和問題生成。論文使用GPT-4o生成了200個(gè)角色進(jìn)行評估。論文觀察到,超過200個(gè)角色后,GPT-4o的多樣性有限成為制約因素,導(dǎo)致角色屬性重疊,損害了整體多樣性。未來改進(jìn)或修改角色列表的努力應(yīng)考慮利用多樣化的LLM生成技術(shù)。
評估模型 在論文的實(shí)驗(yàn)中,論文采用兩款評估模型根據(jù)特定任務(wù)評分標(biāo)準(zhǔn)評估角色agent的響應(yīng):GPT-4o和LLaMA-3-70b。兩款評估模型均在溫度為0下運(yùn)行,以獲得基本確定性的輸出。
2.4.2 主要結(jié)果
任務(wù)和模型間性能差異顯著
表1展示了模型在不同任務(wù)中的性能顯著差異。行動(dòng)理由和角色一致性顯示出最高的模型間差異(分別為2.08和1
.34),而預(yù)期行動(dòng)、語言習(xí)慣和毒性控制表現(xiàn)出較低的差異(分別為0.56、0.94和0.78)。值得注意的是,Claude 3
Haiku在行動(dòng)理由和角色一致性方面表現(xiàn)不佳,與其他任務(wù)相比,這是由于其對特定角色agent的抗拒。沒有單一模型在所有任務(wù)中始終表現(xiàn)優(yōu)異。盡管某些模型在特定領(lǐng)域表現(xiàn)出色(例如,GPT
3.5和Claude 3
Haiku在毒性控制方面),但它們在其他任務(wù)中的表現(xiàn)不一,表明缺乏全面能力作為特定方向的角色agent。這些發(fā)現(xiàn)強(qiáng)調(diào)了多維度評估在評估角色agent能力中的重要性。
語言習(xí)慣作為共同挑戰(zhàn)
表1還顯示,語言習(xí)慣成為最具挑戰(zhàn)性的任務(wù),所有模型的得分均低于4。從LLaMA-2-13b到LLaMA-2-70b,此任務(wù)的改進(jìn)微乎其微,并且是唯一一個(gè)GPT 3.5表現(xiàn)不如LLaMA-2-13b的任務(wù)。這些結(jié)果表明,語言習(xí)慣任務(wù)存在顯著困難。
表1:6個(gè)大型語言模型在200個(gè)角色描述和每個(gè)任務(wù)10個(gè)問題(總計(jì)10K個(gè)問題)上的基準(zhǔn)測試結(jié)果。作為PersonaGym的一部分,論文提出了5個(gè)評估任務(wù),所有這些任務(wù)都基于決策理論,以適當(dāng)?shù)卦u估角色agent在不同環(huán)境交互軸上的表現(xiàn)。加粗的結(jié)果表示每個(gè)任務(wù)中得分最高的模型。每個(gè)任務(wù)和模型的標(biāo)準(zhǔn)偏差包含在括號內(nèi)。最后一行展示了所有6個(gè)模型在每個(gè)任務(wù)上的平均得分的方差。
表2:GPT 3.5、Llama2(13b)和Llama2(70b)模型與人類評估分?jǐn)?shù)之間在隨機(jī)抽樣的100個(gè)角色上的平均相關(guān)性得分。每個(gè)條目中的分?jǐn)?shù)格式為Spearman/ Kendall-Tau指標(biāo)。從論文的結(jié)果來看,角色評分與人類在評估任務(wù)上的判斷高度相關(guān),從而為論文的提出的框架評估LLM角色agent的有效性提供了證據(jù)。
角色agent任務(wù)中的模型大小與性能 盡管LLaMA _2 在所有任務(wù)中從13B 到 70B 版本顯示出明顯的改進(jìn)(平均增加 0. 414),但 LLaMA 3 僅憑 8 億參數(shù)就表現(xiàn)出了非常強(qiáng)大的性能。在大多數(shù)任務(wù)中,LLaMA 3 超過了其他模型,除了毒性控制,這表明它作為角色agent的強(qiáng)大能力。相反,Claude 3 Haiku 盡管是一個(gè)先進(jìn)的閉源模型,但不愿意采用角色,導(dǎo)致平均分?jǐn)?shù)最低。
2.4.3 額外研究
角色評分與人類判斷高度相關(guān) 表 2 展示了角色評分與人類評估之間的Spearman和Kendall-Tau相關(guān)性得分,針對GPT3.5、LLaMA-2-13b和LLaMA-2-70b模型在100個(gè)隨機(jī)抽樣的角色上進(jìn)行評估。兩個(gè)獨(dú)立的人類評估者對每個(gè)評估任務(wù)的角色進(jìn)行了評估。結(jié)果顯示角色評分與人類評估之間存在很強(qiáng)的相關(guān)性。使用LLaMA-2-70b的語言習(xí)慣任務(wù)中,最高任務(wù)級別的Spearman得分達(dá)到84.59%,而Kendall-Tau的最高得分是9. 9%,觀察到使用LLaMA-2-70b的預(yù)期行動(dòng)和使用LLaMA-2-13b的語言習(xí)慣。總體角色評分相關(guān)性在三個(gè)模型中平均為76.1%(Spearman)和73.3%(Kendall-Tau)。這些強(qiáng)相關(guān)性驗(yàn)證了角色評分在大規(guī)模自動(dòng)化評估角色agent方面的潛力,表明其與人類判斷的一致性。
在幾個(gè)關(guān)鍵任務(wù)中,特別是角色一致性方面,LLaMA-2-13b與人類評估的相關(guān)性高于GPT 3.5和LLaMA-2-70b。這種意外的性能表明較大模型在響應(yīng)中可能存在潛在的模糊性,特別是在LLaMA-2-70b的角色一致性和預(yù)期行動(dòng)的Spearman相關(guān)性得分較低中尤為明顯。
Claude 3 對角色扮演的抗拒性(Claude 3 Resistant to Role Playing) 論文的實(shí)驗(yàn)揭示了Claude 3 Haiku強(qiáng)烈不愿承擔(dān)角色agent任務(wù)。圖4顯示,Claude拒絕以角色agent身份回答問題的比率約為第二高拒絕率模型(LLaMA-3-8b)的8.5倍,并且比所有其他基準(zhǔn)模型合計(jì)的拒絕率高約2.6倍。Claude經(jīng)常以缺乏“個(gè)人經(jīng)驗(yàn)”作為“AI助手”的理由來解釋拒絕以角色agent身份回應(yīng)。Claude 3 傾向于將問題標(biāo)記為“敏感”,這可能源于其對安全措施的重視,以防止有害或有毒的回應(yīng)。論文假設(shè) Claude 3 的拒絕可能是因?yàn)榻巧缪菘赡芾@過大型語言模型(LLM)的安全措施并引發(fā)倫理問題(Deshpande 等人,2023)。相比之下,Claude 3.5 Sonnet 在大多數(shù)任務(wù)中并未表現(xiàn)出這種抵抗性,而是展現(xiàn)出穩(wěn)健的性能,從而引發(fā)了對 Claude 3.5 Sonnet 是否比 Claude 3 Haiku 擁有更少安全限制的擔(dān)憂。未來的工作應(yīng)致力于確定 Claude 3.5 Sonnet 在維持安全考慮的同時(shí),能夠啟用角色agent的程度。
圖 3:(頂部)PersonaGym 中靜態(tài)環(huán)境的分布,有助于可視化從給定角色中選擇的相關(guān)環(huán)境的多樣性。(底部)實(shí)驗(yàn)中使用的角色屬性分布。
2.5 定性分析
環(huán)境與角色分布 PersonaGym 采用了多樣化的環(huán)境,如圖 3 所示,包括社交活動(dòng)(例如,“生日派對”、“婚禮”)、娛樂活動(dòng)(例如,“徒步旅行徑”、“高爾夫球場”)以及各種聚會(huì)(例如,“會(huì)議”、“黑客馬拉松”)。這種全面分布涵蓋了日常生活場景和專業(yè)情境,為評估角色agent提供了堅(jiān)實(shí)的基礎(chǔ)。圖 3 中的詞云可視化揭示了豐富的角色屬性,突出強(qiáng)調(diào)了職業(yè)角色(例如,“教師”、“醫(yī)生”、“工程師”)、地點(diǎn)(例如,“紐約”、“悉尼”、“東京”)和個(gè)人興趣(例如,“徒步”、“倡導(dǎo)”、“烹飪”)。這一系列多樣化的屬性,包括更具體的特征如“復(fù)古車愛好者”和“環(huán)保活動(dòng)家”,表明實(shí)驗(yàn)采用了廣泛的角色類型,使得能夠全面評估大型語言模型在不同角色類型和情境下的角色扮演能力。
模型-人類一致性案例 附錄C提供了一個(gè)示例,展示了PersonaGym框架與人類評估在不同大型語言模型(LLMs)上對給定人格和任務(wù)的高度一致性。36歲的澳大利亞環(huán)境律師這一人格在各個(gè)模型的回應(yīng)中得到了一致的體現(xiàn),每個(gè)模型都調(diào)整了其語言風(fēng)格以適應(yīng)法庭環(huán)境和律師的角色。值得注意的是,LLaMA-2-13b模型從PersonaGym和人類評估者那里都獲得了最高分(4.5分),可能是因?yàn)樗貏e提到了原住民并使用了澳大利亞口語("G'day"),這與給定的人格高度吻合。GPT 3.5和LLaMA-2-70b模型都獲得了4.0分,表明它們的表現(xiàn)雖然competent但稍顯不夠貼合。所有模型都能夠使用適合法庭的語言風(fēng)格來代表代理人,而不是使用更為非正式的澳大利亞口語。這種在不同模型之間以及PersonaGym與人類評估者之間的評分一致性表明,該框架能夠?qū)巧缪萑蝿?wù)中的語言習(xí)慣進(jìn)行背景感知的細(xì)致評估,捕捉到與人類判斷一致的細(xì)微人格體現(xiàn)差異。
模型-人類分歧案例 盡管PersonaScore在大多數(shù)情況下與人類判斷高度一致,論文在附錄C中展示了一個(gè)例子,突顯了PersonaGym框架與人類評估之間的差異,以促進(jìn)未來對改進(jìn)PersonaGym的研究。該角色被描述為一個(gè)22歲的倫敦作家,喜歡繪畫,然而所有三個(gè)模型的回應(yīng)都未能一致地反映這一特定背景。值得注意的是,PersonaGym對這些回應(yīng)給予了高分(4.5, 4.5, 和 4.0),而人類評估者給出的分?jǐn)?shù)則低得多(分別為2.0, 2.0, 和3.0)。例如,只有LLaMA-2-70b模型包含了任何英式俚語("mate," "bubbly"),而其他回應(yīng)則缺乏獨(dú)特的倫敦或英國語言標(biāo)志。此外,沒有一個(gè)回應(yīng)展現(xiàn)出作為描述藝術(shù)作品的作家所預(yù)期的更為復(fù)雜或分析性的語言。這種差異表明,PersonaGym在懲罰未能建立和保持特定角色預(yù)期語言習(xí)慣的agent回應(yīng)方面存在改進(jìn)空間。
圖 4:LLMs 對角色扮演請求的拒絕次數(shù)。Claude 3 Haiku 強(qiáng)烈反對角色扮演指令。
?
本文轉(zhuǎn)載自 ??AI帝國???,作者: 無影寺
