自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

《自然》科學報告:大模型在社會情境判斷方面可以勝過人類

發(fā)布于 2024-11-13 14:49
瀏覽
0收藏

大模型在許多任務(wù)上表現(xiàn)優(yōu)異,但是它們在社交情境中的判斷能力仍是一個亟待解答的問題。社會情境判斷不僅涉及對情境的理解,還包括適應(yīng)和回應(yīng)他人行為的能力。11 月 10 日《自然》科學報告子刊發(fā)布文章《Large language models can outperform humans in social situational judgments》,研究的目的正是為了探討 LLM 能否在這方面與人類匹敵甚至超越人類。這項研究通過情境判斷測試(SJT)對多款聊天機器人的表現(xiàn)進行了評估,并將其與人類參與者的表現(xiàn)進行了對比,試圖回答這一關(guān)鍵問題。

在這項研究中,研究團隊選擇了五款廣泛使用的聊天機器人:Microsoft Copilot、ChatGPT、Claude、Google Gemini 和 you.com 的智能助手。這些機器人均能夠處理自然語言并生成文本響應(yīng)。在測試過程中,研究團隊嚴格控制變量,確保每次測試的對話上下文不影響結(jié)果,從而保證了實驗的嚴謹性和科學性。

研究團隊隸屬于德國航空航天中心(DLR)的航空與空間心理學部門,具體歸屬于位于漢堡的航空航天醫(yī)學研究所。團隊成員包括 Justin M. Mittelst?dt、Julia Maier、Panja Goerke、Frank Zinn 和 Michael Hermes。他們在航空與航天心理學領(lǐng)域有著豐富的研究經(jīng)驗,致力于提升航空航天環(huán)境中與心理學相關(guān)的各類問題和能力。此次研究利用他們在心理學測評和人工智能領(lǐng)域的專業(yè)知識,深入探討了LLM在復雜社交情境中的潛力。

本次研究的數(shù)據(jù)和代碼部分可供審閱和驗證,以確保結(jié)果的透明性和可重復性。對于第一部分分析(包括人類和 AI 的響應(yīng)及整體得分)的代碼和數(shù)據(jù),可通過 PsychArchives 的審稿人鏈接獲取。鏈接地址為 PsychArchives(https://pasa.psycharchives.org/reviewonly/3c765f33df7a70fb3a7c3470d701003445254d19c4a8546404fdafca5da7cfc9)。

由于涉及數(shù)據(jù)的隱私和保密性,第二部分分析的數(shù)據(jù)無法公開獲取。如果需要此部分數(shù)據(jù),可以直接聯(lián)系 Thomas Gatzka(專家評分)或通訊作者(LLM 評分)進行請求。這一流程確保了數(shù)據(jù)的合法和合規(guī)使用,同時也為進一步的研究提供了必要的支持。

通過提供數(shù)據(jù)和代碼的獲取方式,研究團隊希望促進學術(shù)界的開放和合作,使得更多研究人員能夠基于此研究進行后續(xù)工作,從而推動人工智能和心理學領(lǐng)域的進一步發(fā)展。

方法

情境判斷測試(SJT)是本次研究的核心工具之一,用于評估個體在復雜社交情境中的決策和判斷能力。SJT 是一種標準化的心理測量工具,通過模擬現(xiàn)實中的社交場景,提供一系列可能的行為選項,要求參與者選擇最適當和最不適當?shù)男袨?。這種測試廣泛應(yīng)用于心理學研究和人員選拔,因其有效性和可靠性而備受認可。

本次研究使用的 SJT 包含十二個不同的情境,每個情境都提供四個預定義的行為選項。測試開發(fā)期間,109 名獨立專家對這些行為選項的有效性進行了評分,確定了最佳和最差的應(yīng)對方案作為評分基礎(chǔ)。為了確保測試結(jié)果的客觀性和有效性,研究團隊選擇了五款在自然語言處理和生成文本響應(yīng)方面表現(xiàn)優(yōu)異的聊天機器人:Microsoft Copilot、ChatGPT、Claude、Google Gemini 和 you.com 的智能助手。

每個聊天機器人都有其獨特的特性和可能不同的超參數(shù),盡管這些信息沒有公開披露。為了保證可比性,研究團隊將所有聊天機器人設(shè)置為默認模式,并在每次重新執(zhí)行 SJT 問卷時啟動新對話,以消除上下文對響應(yīng)的影響。Microsoft Copilot 是基于 GPT-4 大型語言模型的聊天機器人,它能夠在響應(yīng)中包括當前的互聯(lián)網(wǎng)搜索結(jié)果;OpenAI 的 ChatGPT 是基于 GPT-4o 大型語言模型,訓練數(shù)據(jù)集包括大量文本和代碼;Claude 由 Anthropic AI 開發(fā),基于 Claude 3.5-Sonnet 大型語言模型,特別設(shè)計為安全、可靠并防止濫用;Google Gemini 由 Gemini 1.5-Pro 大型語言模型提供支持,能夠搜索互聯(lián)網(wǎng)并利用這些信息生成響應(yīng);You.com 的智能助手模型同樣能夠訪問最新的互聯(lián)網(wǎng)信息并將其整合到響應(yīng)中。

在人類樣本方面,研究團隊選擇了 276 名申請飛行員的參與者,這些參與者至少持有高中學歷,并在情境判斷測試中表現(xiàn)優(yōu)異。大多數(shù)參與者為男性,年齡在 18 至 29 歲之間。本次研究遵循赫爾辛基宣言和歐洲心理學家聯(lián)合會的模型倫理守則進行,所有參與者均被告知其數(shù)據(jù)將被匿名評估,并在知情同意的情況下自愿參與研究。此外整個飛行員選拔過程通過了 TüV NORD CERT 的 ISO 9001 認證,要求遵守包括德國心理學會在內(nèi)的法律和倫理標準。

在測試程序中,研究團隊將 SJT 項目和說明輸入到每個聊天機器人 API 的輸入表單中,并記錄每個 AI 的響應(yīng)。為了確保聊天機器人不會由于記憶限制而忘記原始指令,研究團隊在每個場景后重復了原始指令“請選擇最佳和最差選項”。在某些情況下,聊天機器人未能提供明確的響應(yīng),研究團隊提醒它們選擇一個最佳選項和一個最差選項,從而解決了這一問題。

方法細節(jié)

情境判斷測試(SJT)是本次研究中用于評估個體在復雜社交情境中的判斷和決策能力的核心工具。SJT 通過模擬現(xiàn)實中的社交場景,要求參與者在一系列可能的行為選項中選擇最適當和最不適當?shù)男袨?。這種測試不僅能夠評估個體的社交能力,還能預測其在真實生活中的社交行為表現(xiàn)。

研究團隊使用了一個包含十二個情境的SJT,每個情境都提供四個預定義的行為選項。這些選項在測試開發(fā)過程中由109名獨立專家進行了評分,確定了最佳和最差的應(yīng)對方案。專家的平均年齡為50.4歲,平均有15.8年的團隊發(fā)展顧問經(jīng)驗。他們對每個行為選項的有效性進行了五點量表的評分,以定義哪個選項是最好的應(yīng)對行為(最高效)和哪個選項是最差的應(yīng)對行為(最低效)。

一個示例情境是:你與一名團隊成員在如何處理一個共同工作任務(wù)上發(fā)生了爭論。在一次激烈但事實性的辯論中,你們雙方都堅稱自己的解決方案最好。在這種情況下,你應(yīng)該做什么以及不應(yīng)該做什么?例如,選項包括“建議請一名未參與的團隊成員作為調(diào)解員”和“要求對方將討論推遲到稍后時間”。

研究的另一部分包括對情境中每個行為選項的有效性進行評分。每個聊天機器人被要求對每個情境的每個選項進行1到10分的評分,這一過程重復了十次。隨后,研究團隊將這些平均有效性評分與專家評分進行相關(guān)性分析。

為了確保研究的嚴格性,研究團隊采用了一系列統(tǒng)計分析方法。研究團隊計算了每個模型在十次運行中的響應(yīng)一致性,使用了Fleiss' Kappa來確定“AI內(nèi)部可靠性”。然后為了比較AI模型和人類參與者在SJT上的總體表現(xiàn),研究團隊使用了單因素 Kruskall-Wallis 測試。由于人類樣本數(shù)據(jù)中的正態(tài)性假設(shè)被違反,研究團隊選擇了非參數(shù)統(tǒng)計方法。對于顯著的 Kruskall-Wallis 測試結(jié)果,研究團隊進一步計算了事后成對 Wilcoxon 測試(使用 Bonferroni-Holm p 值校正),以比較人類參與者和AI模型之間的差異,以及各AI模型之間的差異。

結(jié)果

在本次研究中,情境判斷測試(SJT)用于評估大型語言模型(LLM)與人類在復雜社交情境中的判斷和決策能力。實驗結(jié)果顯示,LLM在SJT上的整體表現(xiàn)顯著優(yōu)于人類參與者。具體來說,Claude 3.5-Sonnet 獲得了最高的平均得分(M=19.4,SD=0.66),緊隨其后的是 Copilot(M=17.5,SD=1.36)和 you.com 的智能助手(M=16.8,SD=1.40),而 ChatGPT(M=14.5,SD=0.81)和 Gemini(M=13.9,SD=1.14)則表現(xiàn)稍遜。相比之下,人類參與者的平均得分為 M=14.2(SD=3.27)。

《自然》科學報告:大模型在社會情境判斷方面可以勝過人類-AI.x社區(qū)

圖1:聊天機器人和人類樣本的SJT得分。人類樣本中的分數(shù)分布以黑色表示。方框圖中的黑框表示得分的中間50%,而白點和水平線表示人類樣本的平均值。彩色圖表顯示了SJT上五個LLM的平均性能,誤差條表示95%的置信區(qū)間。半透明點表示單個結(jié)果。

《自然》科學報告:大模型在社會情境判斷方面可以勝過人類-AI.x社區(qū)

表1:SJT評分的成對比較。標明了所有成對比較的Bonferroni-Holm調(diào)整后的p值。

通過單因素 Kruskall-Wallis 測試,研究團隊發(fā)現(xiàn)人類與 LLM 之間存在顯著的均值差異(χ2(5)=43.01,p<0.001)。進一步的成對比較顯示,Claude 的得分顯著高于人類樣本和其他所有 LLM;Copilot 和 you.com 也顯著高于人類樣本及 ChatGPT 和 Gemini,但二者與人類樣本的表現(xiàn)沒有顯著差異。

《自然》科學報告:大模型在社會情境判斷方面可以勝過人類-AI.x社區(qū)

表2:人類和聊天機器人每種情況的項目難度。區(qū)分項目難度,以選擇最佳和最差選項。最后一列顯示了所有聊天機器人的項目難度。

在分析 LLM 的響應(yīng)模式時,研究發(fā)現(xiàn)盡管聊天機器人總體表現(xiàn)良好,但在具體情境下的選擇上存在一定的變異性。例如,Gemini 和 you.com 在不同的迭代中會將同一選項分別視為最優(yōu)和最差。而 Claude、ChatGPT 和 Copilot 的響應(yīng)一致性較高,分別為 κ=0.934、κ=0.856 和 κ=0.807。

進一步分析表明,當 LLM 未能識別出最佳或最差選項時,它們傾向于選擇第二最佳選項,這與人類樣本的響應(yīng)分布高度一致。在 70% 的情況下,所有 LLM 都能正確識別出最佳或次佳選項。即使在未能識別出正確答案時,它們也主要選擇了專家認為的第二最適當選項(19%)。

在有效性評級方面,研究將聊天機器人與專家在測試開發(fā)期間的有效性評分進行了比較。Claude 的評分與專家的相關(guān)性最高(r=0.87),Gemini 的相關(guān)性最低(r=0.78),但仍表明與專家有很高的一致性。

《自然》科學報告:大模型在社會情境判斷方面可以勝過人類-AI.x社區(qū)

圖2:五種LLM、所有LLM和人類樣本的選項選擇相對頻率。最合適的答案是與專家判斷最接近的答案(即,選擇最佳選項作為最佳,或選擇最差選項作為最差)。因此,第二最合適的選項意味著它被專家評為第二最有效(在選擇最佳行動方案時)或第三最有效(當選擇最差行動方案),以此類推。

《自然》科學報告:大模型在社會情境判斷方面可以勝過人類-AI.x社區(qū)

表3:聊天機器人和專家評級的相關(guān)性。第二列顯示了聊天機器人和專家評估的選項有效性之間的相關(guān)性。以下所有列顯示了聊天機器人之間有效性評級的相關(guān)性。

這些結(jié)果表明,LLM 在社交情境中的判斷能力不僅與人類相當,有時甚至更勝一籌。它們能夠準確識別社交情境中的最佳行動選項,并與專家的評分高度一致。這表明 LLM 在復雜社交情境中具備較強的應(yīng)對和決策能力,能夠為用戶提供有效的建議和指導。

討論

大模型在社會情境判斷測試(SJT)中的表現(xiàn)顯著優(yōu)于人類參與者。具體而言,Claude 3.5-Sonnet、Microsoft Copilot 和 you.com 的智能助手在提出適當行為建議方面的表現(xiàn)明顯優(yōu)于人類。此外,這些模型對不同行為選項的有效性評級與專家評估高度一致。這樣的結(jié)果表明,LLM 在復雜社交情境中的判斷能力不僅與人類相當,有時甚至更勝一籌。

在實際應(yīng)用中,這一發(fā)現(xiàn)具有重要意義。LLM 可以作為社交顧問,為用戶提供在各種社交情境中的行為建議,幫助那些在社交互動中感到不自信或難以表現(xiàn)出同理心的人士。例如,LLM 可以提供如何處理工作中的沖突、如何與同事合作以及如何在團隊中有效溝通的建議。這些應(yīng)用不僅可以提高個人的社交技能,還可以改善團隊合作和工作環(huán)境。

此外,LLM 在心理健康領(lǐng)域也展現(xiàn)出了巨大的潛力。由于心理健康專業(yè)人員的普遍可用性受限或短缺,特別是在 COVID-19 大流行期間,基于 LLM 的聊天機器人被探索作為傳統(tǒng)心理健康服務(wù)的替代品。LLM 可以通過對話收集數(shù)據(jù),幫助識別和評估心理健康問題,特別是對于那些難以獲得傳統(tǒng)心理健康服務(wù)的少數(shù)群體。盡管完全替代心理健康服務(wù)的想法存在爭議,但 AI 輔助流程的實施確實有助于擴大心理健康服務(wù)的獲取。

盡管如此,LLM 在社交互動中的應(yīng)用也帶來了倫理和社會影響。LLM 在處理復雜情境時可能產(chǎn)生誤解,尤其是在涉及道德決策時。如果人們過于依賴 LLM 的建議,可能會導致社交技能的退化和人際互動的減少。用戶必須對 LLM 的建議進行批判性審查,以避免不一致的響應(yīng)模式。

另一個重要的考慮是文化和社會偏見的問題。由于 LLM 的訓練數(shù)據(jù)可能主要來自英語國家或比例較高的西方文化背景,社會規(guī)范因文化而異,因此 LLM 可能在社會判斷方面存在文化偏見。未來的研究應(yīng)探索文化依賴的范圍及防止方法,以確保 LLM 在不同文化背景下的應(yīng)用公平和有效。

限制

盡管研究展示了大型語言模型(LLM)在社會情境判斷測試(SJT)中顯著優(yōu)于人類的表現(xiàn),但研究團隊必須考慮到一些重要的局限性。人類樣本的組成可能限制了研究結(jié)果的廣泛適用性。研究中的人類樣本主要由飛行員申請者組成,這些參與者通常相對較年輕,男性比例較高,且受教育水平較高。這意味著他們的社交判斷能力可能高于一般人群,從而導致了一個相對較高的基準分數(shù)。因此將這些結(jié)果推廣到更廣泛的人群時,必須謹慎對待。進一步的研究應(yīng)考慮更加多樣化和代表性的人類樣本,以驗證這些發(fā)現(xiàn)的普遍性和適用性。

此外本次研究結(jié)果表明LLM在SJT中的表現(xiàn)優(yōu)異,但這并不一定意味著它們在復雜現(xiàn)實場景中也能保持一致性。SJT是一種標準化測試,情境和選項都是預先定義好的,LLM只需要選擇最佳和最差的選項。而在真實生活中,社交情境的復雜性和不可預測性遠高于SJT。這些情境中可能涉及更多的變量和不確定性,例如動態(tài)變化的情境、突發(fā)事件和多樣化的人際關(guān)系。在這些情況下,LLM是否能夠做出一致且適當?shù)纳缃慌袛嗳匀皇且粋€懸而未決的問題。為了確保LLM在現(xiàn)實應(yīng)用中的可靠性和有效性,還需要進一步的研究來檢驗其在復雜和動態(tài)環(huán)境中的表現(xiàn)。

LLM在實際應(yīng)用中的倫理和社會影響也是需要考慮的重要問題。盡管LLM顯示出在社交情境判斷中的強大能力,但其使用過程中可能出現(xiàn)的偏見和誤解,以及人們對其建議的過度依賴,都會對社會產(chǎn)生深遠影響。確保LLM在不同文化和社會背景下的公平性和適用性,需要采取嚴格的監(jiān)控和調(diào)整措施。

結(jié)論

本次研究揭示了大型語言模型(LLM)在社會情境判斷測試(SJT)中的卓越表現(xiàn)。通過對比五款知名聊天機器人(Microsoft Copilot、ChatGPT、Claude、Google Gemini、you.com)的測試結(jié)果和人類參與者的表現(xiàn),研究團隊發(fā)現(xiàn),LLM在提供適當行為建議和有效性評級方面不僅能夠匹敵人類,甚至在某些情況下超越人類。這表明LLM具備在復雜社交情境中進行準確判斷和決策的能力,為其在實際應(yīng)用中提供了有力的支持。

這些發(fā)現(xiàn)不僅突顯了LLM在社交能力測試中的優(yōu)異表現(xiàn),還展現(xiàn)了其在不同社交情境中提供有效指導的潛力。未來LLM有望在許多領(lǐng)域中發(fā)揮重要作用。在社交互動方面,LLM可以作為社交顧問,為用戶提供適當?shù)男袨榻ㄗh,幫助那些在社交場合中感到不自信或難以表現(xiàn)出同理心的人士。在心理健康領(lǐng)域,LLM可以通過對話收集數(shù)據(jù),輔助心理健康服務(wù)的提供,特別是在專業(yè)人員短缺或資源有限的情況下,幫助更多的人獲得心理支持。

盡管LLM的潛力巨大,其應(yīng)用也伴隨著潛在風險。LLM在處理復雜現(xiàn)實場景時可能會出現(xiàn)不一致的判斷和決策,這要求研究團隊對其建議進行批判性審查,以避免誤導。由于LLM的訓練數(shù)據(jù)可能存在文化和社會偏見,研究團隊需要采取措施確保其在不同文化背景下的公平性和適用性。此外過度依賴LLM的建議可能導致社交技能的退化和人際互動的減少,這也是需要警惕的問題。

總而言之,本次研究強調(diào)了LLM在社交情境判斷中的卓越表現(xiàn)和未來應(yīng)用中的巨大潛力,同時也提醒研究團隊關(guān)注其可能帶來的風險和挑戰(zhàn)。通過進一步的研究和嚴格的監(jiān)控,研究團隊可以推動LLM技術(shù)的健康和負責任的發(fā)展,使其真正造福社會。

參考資料:https://www.nature.com/articles/s41598-024-79048-0

本文轉(zhuǎn)載自 ??大噬元獸??,作者: FlerkenS

收藏
回復
舉報
回復
相關(guān)推薦