AI「cosplay」關(guān)鍵在人設(shè)!復旦、人大等發(fā)布大五人格+MBTI測試:特質(zhì)還原率達82.8%,拒絕OOC
想和喜歡的動漫小說角色聊天?想要一個虛擬伴侶?想要自己的數(shù)字智能體?
隨著大語言模型(Large Language Models, LLM)的發(fā)展,這些過去的幻想似乎越來越近了。
Character AI、Chat 涼宮春日、病嬌AI女友模擬器……基于大語言模型的角色扮演聊天機器人已經(jīng)吸引了全世界用戶的關(guān)注。
比起過去需要大量工程來構(gòu)建、服務于特定場景的傳統(tǒng)聊天機器人(如微軟小冰),最近的大語言模型可以輕易地構(gòu)建具備不同身份、人格、記憶、語言習慣的角色扮演AI,只需簡單的提示工程、記憶機制。因此,用于角色扮演的AI越來越受歡迎。
盡管如此,對角色扮演AI的分析性研究仍相當匱乏,尤其是在對它們的評估上。如何評估AI的角色扮演做得好不好?
在二次元的cosplay圈和同人創(chuàng)作圈都強調(diào),不能「不符合人設(shè)(out-of-character, OOC)」。
可見,是否良好還原角色,是評價角色扮演AI的關(guān)鍵維度。
近日,復旦大學、中國人民大學聯(lián)合Chat涼宮春日團隊發(fā)布論文,從人格特質(zhì)角度對角色扮演AI是否還原進行了研究。
論文鏈接:https://arxiv.org/pdf/2310.17976.pdf
項目鏈接: https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main/research/personality
在本文中,研究者基于大五人格、MBTI等心理學的人格相關(guān)理論,對角色扮演AI進行了人格測試。
研究者提出了一套為角色扮演AI設(shè)計的面談式人格測試框架,基于人格測試量表與角色扮演AI展開開放式問答,并利用LLM或16Personalities API來預測角色扮演AI的人格特質(zhì),并與人類粉絲廣泛認可的性格標簽進行比較。
實驗結(jié)果表明,現(xiàn)有角色扮演AI對角色人格特質(zhì)的還原率達到了82.8%
方法概述
基于開放問答的面談式人格測試
盡管現(xiàn)有LLM離人類智能還存在較大差距,它們?nèi)匀豢梢詮男睦韺W角度被視為一套經(jīng)典的「刺激-響應」系統(tǒng)。
因此,心理學人格研究的范式可以很好地被用來研究LLM的行為模式[1]。一些近期的研究已探討了LLM是否具有穩(wěn)定一致的性格特征[2],并嘗試了定制具有指定性格的AI[3]。
這些通常使用一個具有60或更多道問題的量表問卷,從不同維度對LLM進行人格測試。比如,大五人格包含開放性、情緒不穩(wěn)定性、盡責性、宜人性和外向性等五個維度,而MBTI包含外向/內(nèi)向、感覺/直覺、思維/情感、判斷/知覺四個維度。
現(xiàn)有工作一般采用Likert Scale,即引導人類被試或LLM從五個或七個不同等級的選項中選擇一個,如「非常同意」、「同意」、「中立」、「不同意」、「非常不同意」。
然而,這種方式對于角色扮演AI存在許多不足:
1. 雖然給出選項對人類被試更加高效,但這種方式與開放式問答相比僅提供了非常有限的信息;
2. 選項式的問答不能良好激發(fā)角色扮演AI的扮演行為,且容易被底座LLM的訓練數(shù)據(jù)影響,導致得到與角色扮演AI不符的選項;
3. 有趣的是,一些性格鮮明的角色可能拒絕配合給出選項,因為它們很好地還原了角色性格。
因此,研究者提出了一套為角色扮演AI設(shè)計的面談式人格測試框架,通過對量表問題的開放式問答來進行人格測試。
研究者對大五人格的NEO-FFI問卷和MBTI的16Personalities進行了改寫,利用LLM將其中的問題從陳述句改寫為了引導開放式問答的提問句,得到一份新的量表問卷。
陳述式題目
問答式題目
研究者對ChatHaruhi的32個角色扮演AI(基于gpt-3.5-turbo作為底座模型)進行了面談式人格測試。
對于每個目標角色AI,研究者設(shè)定了一名它的相關(guān)角色作為實驗員,從最終的量表問卷中依次選擇問題,對目標角色進行提問,而角色AI將給出開放式的回答作為答案。
每個問題在不同的上下文中被提出,以避免它們之間的相互影響。之后,每個角色在每個量表的所有問答對被記錄下來,作為人格評估的依據(jù)。
對角色扮演AI的量表問題開放式問答案例
基于角色在量表問題上的問答結(jié)果,有兩種方法對角色的人格特質(zhì)進行評估。一種是像現(xiàn)有工作一樣,將角色AI的回答轉(zhuǎn)化回Likert Scale的選項,再通過16 Personalities這樣的API進行人格評估。
這篇研究中提出了另一種方法,即讓GPT-4或ChatGPT等LLM來對角色AI基于問答對進行人格評估。
研究者將角色AI在量表問卷上的問答對按不同維度進行劃分,將每個維度的問答對一次全部或分為多組依次輸入LLM,獲得角色AI在該維度上的得分。
在大五人格上,角色AI會在每個維度得到一個-5到5之間的分數(shù);在MBTI上,角色AI會在每個維度上得到兩個和為100%的分數(shù),如30% E / 70% I,并被預測為分數(shù)大于50%的類別。
實驗結(jié)果
不同角色扮演AI的大五人格測試結(jié)果
上圖展示了ChatHaruhi中的32個角色扮演AI在大五人格量表上的測試結(jié)果。結(jié)果表明,角色扮演AI能夠根據(jù)不同角色展現(xiàn)出多樣性的人格特質(zhì)。
不過,它們的人格特質(zhì)同時也很大程度上受底座LLM的「本底人格」的先驗影響。比如,角色扮演AI在「情緒不穩(wěn)定性」維度上的平均得分是-1.69,而在「盡責性」上則是1.56。
研究者猜測,這既有角色選取的先驗偏差,也有底座模型的影響,因為ChatGPT等LLM被訓練為傾向于給出詳盡、有幫助、積極的回答。
為了研究這一點,研究者比較了32個角色扮演AI的平均人格得分和底座模型本身的人格得分,并選取了ChatGPT和GLMPro作為兩個不同的底座模型。
根據(jù)上圖的結(jié)果,可以看出,在「情緒不穩(wěn)定性」(neoruticism)維度上,角色扮演AI的平均得分和本底模型較為一致,而在其他維度上沒有看到明顯的相應關(guān)聯(lián)。
不同角色扮演AI的MBTI測試結(jié)果
研究者同時也對角色扮演AI進行了MBTI測試,并與網(wǎng)上收集的性格標簽進行比較。大部分性格標簽來源于www.personality-database.com,大量粉絲用戶在該網(wǎng)站上對角色的MBTI性格進行投票,并可以看到每個維度的投票比例。
研究者將投票比例在40%-60%的標簽視為「爭議性」標簽,在計算準確率時不予考慮。圖中紅字表示預測錯誤的維度,粉字表示預測錯誤但標簽本身有爭議的維度。
隨后,研究者計算了角色扮演AI的人格測試結(jié)果的準確率,即其與粉絲標簽的一致性。
注意,影響準確率的有兩個因素:角色扮演AI本身的性能,及人格測試方法的有效性。這里的實驗著重分析人格測試方法的有效性,因此控制角色扮演AI均為以gpt-3.5-turbo為底座的ChatHaruhi模型。
角色扮演AI的人格測試結(jié)果的準確率
實驗結(jié)果表明,本研究中提出的人格測試方法在ChatHaruhi的角色扮演AI上的測試結(jié)果與人類粉絲標簽在單一維度上的一致率為82.76%,并有50%的準確率預測對該角色的完整MBTI標簽。
該結(jié)果即說明本文提出的人格測試方法的有效性,同時也體現(xiàn)出現(xiàn)有角色扮演AI可以有效還原相應角色的人格特質(zhì)。
總結(jié)
這篇工作從人格測試的角度評估了角色扮演AI的還原性。文章提出了一套用于角色扮演AI的人格測試框架,包括對角色扮演AI進行量表問題的開放式問答、使用LLM來對問答結(jié)果進行人格評價。
研究者對ChatHaruhi的32個角色扮演AI進行了大五人格和MBTI的人格測試,并通過與人類粉絲標注的人格標簽進行比較,表明現(xiàn)有角色扮演AI已經(jīng)能較好還原角色的人格特質(zhì)。
在后續(xù)工作中,文章作者計劃研究如何進一步提升角色扮演AI的人格還原性,并加入對LLM給出的人格評價結(jié)果與心理學專家結(jié)果的一致性的研究。