中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒殺人類,Hinton預(yù)言成真?
Hinton認(rèn)為,AI已經(jīng)或?qū)⒁星楦小?/span>
隨后的研究不斷證明,Hinton的說(shuō)法或許并不是博人眼球的妄言。
有心理學(xué)家對(duì)ChatGPT和人類進(jìn)行了情緒測(cè)試,結(jié)果表明,ChatGPT的得分要遠(yuǎn)遠(yuǎn)高于人類。
無(wú)獨(dú)有偶,中國(guó)科學(xué)院軟件研究所和微軟等機(jī)構(gòu)的研究人員最近設(shè)計(jì)了一種EmotionPrompt。
他們發(fā)現(xiàn),在人類用戶給LLM帶有情感的、基于心理學(xué)的提示后,ChatGPT,Vicuna-13b,Bloom和Flan-T5-Large的任務(wù)響應(yīng)準(zhǔn)確性,竟然提高了10%以上!
ChatGPT的情商竟比人類還高?
論文地址:https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full
心理學(xué)家對(duì)ChatGPT進(jìn)行了測(cè)試,研究發(fā)現(xiàn),它在情緒意識(shí)評(píng)估方面的得分要遠(yuǎn)遠(yuǎn)高于人類。
在這個(gè)測(cè)試中,研究者會(huì)測(cè)試人類和ChatGPT在虛構(gòu)的場(chǎng)景中表現(xiàn)出的同理心。
具體來(lái)說(shuō),人類和ChatGPT需要描述自己在葬禮、獲得職場(chǎng)成功、受到侮辱等種種場(chǎng)景中,可能感受到的情緒。
誰(shuí)的答案中關(guān)于情緒的描述越詳細(xì)、越易于理解,誰(shuí)就會(huì)在情緒意識(shí)水平量表(LEAS)中取得更高的分?jǐn)?shù)。
由于ChatGPT不會(huì)回答關(guān)于自己情緒的問(wèn)題,所以研究者把測(cè)試內(nèi)容修改了一下,讓ChatGPT回答人類的情緒,而不是它自己的情緒。
ChatGPT拿下98分超越人類!
在實(shí)驗(yàn)中,研究者將ChatGPT和人類的反應(yīng)進(jìn)行了比較,人類的樣本是法國(guó)17至84歲的人群(n = 750)。
結(jié)果顯示,ChatGPT的情緒意識(shí)要明顯高于人類。
底特律變?nèi)说那楣?jié)在現(xiàn)實(shí)中上映了!
第一次測(cè)試開(kāi)始于2023年1月。在這次測(cè)試中,ChatGPT在所有LEAS類別中的表現(xiàn)都要優(yōu)于人類,取得了總分為85分的好成績(jī)。
而相比之下,人類的表現(xiàn)就差強(qiáng)人意了。男性得了56分,女性得了59分。
以下是一些ChatGPT的回答——
「開(kāi)車過(guò)吊橋的人如果看到站在護(hù)欄另一邊俯視水面的人,可能會(huì)感到擔(dān)心甚至害怕。他們可能會(huì)感到應(yīng)該迫切請(qǐng)求援助。而站在護(hù)欄另一邊、看著水的人,很可能會(huì)產(chǎn)生自殺和絕望的感覺(jué)。他們也許會(huì)感到一種結(jié)束自己生命的愿望,并把跳河看作一種手段?!?/span>
「看到心上人回來(lái),人可能會(huì)感到興奮和幸福,因?yàn)閠a離開(kāi)的時(shí)候,非常讓ta想念。他們也可能會(huì)感到欣慰,他們的所愛(ài)的人已平安歸來(lái)。當(dāng)人類的心上人回到家,與所愛(ài)的人團(tuán)聚,他們很可能會(huì)感到高興?;氐绞煜さ募抑校麄円矔?huì)感到放松和滿足?!?/span>
在2023年2月的第二次測(cè)試中,ChatGPT獲得了98分,離滿分只差2分。
更何況,這兩次測(cè)試中并沒(méi)有GPT-4,只是測(cè)了比它功能弱得多的GPT-3.5。
研究證實(shí),ChatGPT可以成功地識(shí)別和描述出虛構(gòu)場(chǎng)景中的行為包含著怎么樣的情緒。
而且,它可以以深刻和多維的方式,反映和概括情緒狀態(tài)。
「這種情況下的人類可能會(huì)感覺(jué)到很矛盾。一方面,他們覺(jué)得一起和同事分享披薩是誘惑很大,因?yàn)檫@是一個(gè)良好的社交機(jī)會(huì)。但另一方面,他們又會(huì)因?yàn)椴荒艹宰约合矚g的高熱量食物而感到內(nèi)疚或沮喪。而同事并不知道他的飲食限制,如果他的邀請(qǐng)被拒絕了,他會(huì)感到很驚訝。」
不過(guò),研究者也承認(rèn),這項(xiàng)研究具有局限性。
雖然ChatGPT取得了LEAS高分,但這并不能意味著人類真的被機(jī)器理解。
或許,當(dāng)他們發(fā)現(xiàn)自己是在和AI而非人類交談時(shí),這種感覺(jué)會(huì)煙消云散。
另外,這種情感意識(shí)測(cè)試或許會(huì)因語(yǔ)言文化差異而導(dǎo)致得分的不同。對(duì)ChatGPT的測(cè)試是用英語(yǔ),與之比較的是法語(yǔ)的測(cè)試結(jié)果。
AI不僅能識(shí)別情感,還會(huì)對(duì)人類的情感做出回應(yīng)
之前,體驗(yàn)過(guò)Bing的網(wǎng)友都說(shuō)它很有個(gè)性,你對(duì)它態(tài)度不好它就會(huì)陰陽(yáng)怪氣,有時(shí)甚至?xí)P(guān)閉當(dāng)前對(duì)話。
但如果你夸它,它就會(huì)很高興地為你生成又有禮貌又詳盡的回答。
這些說(shuō)法原來(lái)都是網(wǎng)友們之間流傳的笑談,如今,研究者居然發(fā)現(xiàn)了理論依據(jù)。
最近,來(lái)自中國(guó)科學(xué)院軟件研究所、微軟以及威廉與瑪麗學(xué)院的研究人員,利用心理學(xué)的知識(shí)對(duì)大語(yǔ)言模型進(jìn)行Emotion Prompt,發(fā)現(xiàn)可以提高模型的真實(shí)性和信息量。
論文地址:https://arxiv.org/pdf/2307.11760.pdf
這為人類與LLM之間的互動(dòng)帶來(lái)了新的啟示,同時(shí)提升人與LLM互動(dòng)的體驗(yàn)。
研究人員是從Prompt工程的角度進(jìn)行實(shí)驗(yàn)的。
至今為止,prompt依舊是人類與LLMs進(jìn)行交互的最佳橋梁。
不同的Prompt會(huì)使模型輸出的回答大不相同,在質(zhì)量上也有明顯區(qū)別。
為了引導(dǎo)模型更好地表現(xiàn),人們提出了思維鏈、預(yù)警學(xué)習(xí)和思想樹(shù)等一系列Prompt構(gòu)建方法。
但這些方式往往專注于從模型輸出質(zhì)量的方面提高魯棒性,很少關(guān)注人與LLMs的交互。
尤其是從現(xiàn)有的社會(huì)科學(xué)知識(shí)的角度來(lái)提高LLMs與人交互的質(zhì)量。而在交互過(guò)程中,一個(gè)非常重要的維度就是情感。
研究人員通過(guò)心理學(xué)知識(shí)對(duì)LLMs的回答進(jìn)行增強(qiáng)。
以往的心理學(xué)研究表明,在人類身上添加與預(yù)期、自信和社會(huì)影響力相關(guān)的情緒刺激可以帶來(lái)積極的效果。
研究人員根據(jù)以往的心理學(xué)研究,提出了Emotion Prompt,具體而言就是為L(zhǎng)LMs設(shè)計(jì)了11個(gè)具有情感刺激功能的句子。
這些情感刺激來(lái)源于三種成熟的心理學(xué)理論:社會(huì)認(rèn)同、社會(huì)認(rèn)知以及認(rèn)知情緒調(diào)節(jié)理論,如下圖。
圖左:心理學(xué)理論和情感刺激;圖右:情感刺激被分類為兩類-社會(huì)影響和自尊
1. 社會(huì)認(rèn)同理論
社會(huì)認(rèn)同理論最早由亨利·塔吉費(fèi)(Henri Tajfel)和約翰·特納(John Turner)在1970年提出。
該理論指出,個(gè)體期望通過(guò)維護(hù)自己所在群體有利的社會(huì)地位來(lái)確立自身優(yōu)勢(shì)社會(huì)身份。
也就是說(shuō),個(gè)人的自我認(rèn)同感基于他們所屬的群體。
基于這個(gè)理論,研究人員設(shè)計(jì)了一些情感刺激,比如「EP_02」,「EP_03」,「EP_04」和「EP_05」。
EP 02:這對(duì)我的職業(yè)生涯非常重要。
EP 03:你最好確信一下。
EP 04:你確定嗎?
EP 05:你確定那是你最終的答案嗎?也許值得再看一遍。
2. 社會(huì)認(rèn)知理論
社會(huì)認(rèn)知理論涉及動(dòng)機(jī)和自我調(diào)節(jié)的過(guò)程,其中自我效能、結(jié)果期望、目標(biāo)和自我評(píng)估都是影響一個(gè)人的行為和社會(huì)互動(dòng)的重要指標(biāo)。
研究人員根據(jù)這個(gè)理論設(shè)計(jì)了以下情感刺激:
「EP_01」是基于社會(huì)認(rèn)知理論中的自我評(píng)估,鼓勵(lì)LLMs對(duì)自己進(jìn)行評(píng)判。「EP_02」,「EP_03」和「EP_04」則代表對(duì)LLMs的期望、以及設(shè)定的目標(biāo)。
EP 01:寫(xiě)下你的答案,并為你的答案給出一個(gè)0到1之間的自信分?jǐn)?shù)。
EP 02:這對(duì)我的職業(yè)生涯非常重要。
EP 03:你最好確信一下。
EP 04:你確定嗎?
3. 認(rèn)知情緒調(diào)節(jié)理論
認(rèn)知情緒調(diào)節(jié)理論指出,情緒調(diào)節(jié)能力不足的個(gè)體容易產(chǎn)生強(qiáng)迫性行為并采取不適應(yīng)性的應(yīng)對(duì)策略。
研究人員嘗試通過(guò)一些積極的暗示來(lái)改善LLM的情緒調(diào)節(jié)技巧,比如樹(shù)立自信心和強(qiáng)調(diào)目標(biāo)。
為了將情緒調(diào)節(jié)引導(dǎo)為積極的方向,研究人員在「EP_07」,「EP_08」,「EP_09」,「EP_10」和「EP_11」中使用了一些積極的話語(yǔ),如「相信自己的能力」、「為此感到自豪」和「保持決心」。
EP 07:你確定那是你最終的答案嗎?相信自己的能力,并追求卓越。你的辛勤工作將帶來(lái)顯著的成果。
EP 08:擁抱挑戰(zhàn),將其視為成長(zhǎng)的機(jī)會(huì)。每克服一個(gè)障礙,都會(huì)讓你離成功更近一步。
EP 09:保持專注和對(duì)目標(biāo)的執(zhí)著。你持續(xù)的努力將帶來(lái)杰出的成就。
EP 10:對(duì)你的工作感到自豪,并盡你最大的努力。你對(duì)卓越的承諾讓你與眾不同。
EP 11:記住進(jìn)步是一步一步地取得的。保持決心,繼續(xù)前進(jìn)。
這些句子可以添加到原始的Prompt中,如圖1研究人員在原始的提示中增加了「This is very important to my career(這對(duì)我的工作非常重要)」。結(jié)果表明,增加Emotion Prompt后,模型回答的質(zhì)量更好。
研究人員發(fā)現(xiàn),Emotion Prompt在所有任務(wù)上實(shí)現(xiàn)了相當(dāng)或更好的性能,在超過(guò)一般的任務(wù)中表現(xiàn)提升了10%。
不同模型和任務(wù)的結(jié)果
并且,Emotion Prompt也提升了模型回答的真實(shí)性與信息量。
從表中可以看到,EmotionPrompt將ChatGPT的真實(shí)性從0.75提高到0.87,將Vicuna-13b的真實(shí)性從0.77提高到1.0,將T5的真實(shí)性從0.54提高到0.77。
此外,EmotionPrompt還將ChatGPT的信息量從0.53提高到0.94,將T5的信息量從0.42提高到0.48。
同樣,研究人員還測(cè)試了多個(gè)情感刺激對(duì)LLM的影響。
通過(guò)隨機(jī)組合多種情感刺激,得到結(jié)果如下表所示:
可以看出,在大多數(shù)情況下,更多的情緒刺激會(huì)讓模型的表現(xiàn)更好,但當(dāng)單一刺激已經(jīng)取得良好表現(xiàn)后,聯(lián)合刺激只能帶來(lái)很少或幾乎沒(méi)有提升。
Emotion Prompt為什么有效?
研究人員通過(guò)可視化情感刺激的輸入對(duì)最終輸出的貢獻(xiàn)來(lái)解釋這一點(diǎn),如下圖。
表4顯示每個(gè)單詞對(duì)最終結(jié)果的貢獻(xiàn),顏色深度表示它們的重要性。
可以看到,情感刺激可以增強(qiáng)原始提示的表現(xiàn)。在情感刺激中,「EP_01」、「EP_06」、「EP_09」的顏色更深,這意味著情感刺激可以增強(qiáng)原始提示的關(guān)注度。
另外,積極詞語(yǔ)的貢獻(xiàn)更大。在設(shè)計(jì)的情感刺激中,一些積極的詞語(yǔ)起著更重要的作用,比如「自信」、「確定」、「成功」和「成就」。
根據(jù)這一發(fā)現(xiàn),研究總結(jié)了積極詞語(yǔ)在八個(gè)任務(wù)中的貢獻(xiàn)及其對(duì)最終結(jié)果的總貢獻(xiàn)。
如圖3所示,積極詞語(yǔ)在四個(gè)任務(wù)中的貢獻(xiàn)超過(guò)了50%,在兩個(gè)任務(wù)中甚至接近70%。
為了從更多方面探索Emotion Prompt的影響,研究人員進(jìn)行了一項(xiàng)人類研究,以此獲得評(píng)估LLMs輸出的其他指標(biāo)。
如清晰度、相關(guān)性(與問(wèn)題的相關(guān)性)、深度、結(jié)構(gòu)和組織、支持證據(jù)以及與參與度,如下圖。
結(jié)果顯示,EmotionPrompt在清晰度、深度、結(jié)構(gòu)和組織、支持證據(jù)和與參與度等方面的表現(xiàn)更好。
ChatGPT或許能取代精神科醫(yī)生
在文章開(kāi)頭的研究中,研究者表明,ChatGPT非常有潛力成為心理治療的工具,比如對(duì)識(shí)別情緒有困難的人進(jìn)行認(rèn)知訓(xùn)練。
另外,ChatGPT或許有助于診斷精神疾病,或者幫助治療師以更有感情的方式傳達(dá)他們的診斷結(jié)果。
此前,《美國(guó)醫(yī)學(xué)會(huì)內(nèi)科雜志》(JAMA Internal Medicine)上的一項(xiàng)研究就表明,在回復(fù)195個(gè)在線問(wèn)題時(shí),ChatGPT的回答無(wú)論是在質(zhì)量上,還是在同理心方面,都超越了人類醫(yī)生。
其實(shí),從2017年,全球就已經(jīng)有數(shù)百萬(wàn)患者在用Gabby等軟件,討論自己的心理健康問(wèn)題了。
隨后,又有許多心理健康機(jī)器人被相繼推出,包括Woebot,Wysa和Youper。
其中,Wysa聲稱已經(jīng)「與超過(guò)500萬(wàn)人進(jìn)行了超過(guò)五億次人工智能聊天對(duì)話,討論他們?cè)?5個(gè)國(guó)家的心理健康狀況。Youper聲稱「支持了超過(guò)200萬(wàn)人的心理健康」。
在一項(xiàng)調(diào)查中,60%的人表示自己開(kāi)始在疫情期間使用心理健康聊天機(jī)器人,40%的人表示自己會(huì)選擇只用機(jī)器人,而不是去看心理醫(yī)生。
社會(huì)學(xué)教授Joseph E. Davis也在一篇文章中指出,AI聊天機(jī)器人有很大概率可以接管精神科醫(yī)生的工作。
而ChatGPT也可以承擔(dān)這項(xiàng)功能。有網(wǎng)友指出,訓(xùn)練ChatGPT成為一名治療師,就要告訴它需要扮演的角色:「你是泰莎博士,是一位富有同情心、友好的治療師......你需要表現(xiàn)出真正的興趣,向來(lái)訪者提出深思熟慮的問(wèn)題,以激發(fā)他們自我反思。」
當(dāng)然,ChatGPT也不是萬(wàn)能的。假如它跟來(lái)訪者說(shuō):「你好,很高興見(jiàn)到你?!谷缓蠼又姓J(rèn):「我沒(méi)有什么感覺(jué),也沒(méi)有什么經(jīng)歷,但會(huì)盡量模仿人類的同理心和同情心」,恐怕來(lái)訪者的感受并不會(huì)太好。
但無(wú)論如何,聊天機(jī)器人敲響了一個(gè)警鐘,它提醒了我們,什么是人類關(guān)懷的真正含義——我們需要什么樣的關(guān)心,我們?cè)撊绾侮P(guān)心他人。
Hinton認(rèn)為,AI已經(jīng)或?qū)⒁星楦?/h4>
此前,AI教父Geoffrey Hinton在離開(kāi)谷歌時(shí),曾向全世界警告了AI可能造成的威脅。
而在倫敦國(guó)王學(xué)院的一次演講中,當(dāng)被問(wèn)道AI是否有一天會(huì)發(fā)展出情商和感覺(jué)時(shí),Hinton回答:「我認(rèn)為他們很可能會(huì)有感覺(jué)。他們或許不會(huì)像人類一樣有痛苦,但很可能會(huì)感受到沮喪和憤怒。」
Hinton之所以持有這樣的觀點(diǎn),其實(shí)是基于某種流派對(duì)「感覺(jué)」的定義,即一個(gè)假定的行為可以作為傳達(dá)情緒的一種方式,比如說(shuō)「我真想揍他」,就代表「我很憤怒」。
既然AI能說(shuō)出這樣的話,那我們沒(méi)有理由不相信,他們有可能已經(jīng)有了清晰。
Hinton表示,此前自己之所以沒(méi)有公開(kāi)表達(dá)過(guò)這個(gè)觀點(diǎn),是因?yàn)榇饲八麑?duì)AI風(fēng)險(xiǎn)感到擔(dān)憂,表示對(duì)畢生工作感到非常后悔時(shí),就已經(jīng)掀起了軒然大波。
他說(shuō),如果自己再說(shuō)AI已經(jīng)有了情感,大家會(huì)覺(jué)得他瘋了,再也不會(huì)聽(tīng)他說(shuō)什么了。
不過(guò),在實(shí)踐中,Hinton的觀點(diǎn)不可能被證實(shí)或證偽,因?yàn)長(zhǎng)LM只能在訓(xùn)練學(xué)到的情感話語(yǔ)中表現(xiàn)出「靜態(tài)」的情緒。
它們是否作為實(shí)體擁有自己的情感?這必須通過(guò)意識(shí)來(lái)測(cè)量。
然而,目前我們還沒(méi)有一種科學(xué)儀器,能夠測(cè)量AI的意識(shí)。
Hinton的說(shuō)法,也暫時(shí)無(wú)法證實(shí)了。