自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用「AI人」模擬社會學(xué)實驗,居然成功了?斯坦福、NYU用GPT-4模仿人類,準確度驚人!

人工智能 新聞
斯坦福和NYU的研究者發(fā)現(xiàn),GPT-4這樣的「AI人」,可以被用來復(fù)制社會科學(xué)實驗了。調(diào)查了1萬個AI,結(jié)果比真人還真?

最近,斯坦福和NYU的一項研究發(fā)現(xiàn),GPT-4能夠很好地模擬人類,高精度地復(fù)制社會科學(xué)實驗了!

圖片論文地址:https://docsend.com/view/qeeccuggec56k9hd

通過提示,AI可以以隨機人口統(tǒng)計特征的形式回答調(diào)查問題,調(diào)查了數(shù)千名「AI人」后,一份社會科學(xué)實驗報告就順利出爐了。

圖片點進這個頁面,就可以使用這個演示,模擬被試生成預(yù)測的實驗效果了

社會科學(xué)實驗中最困難的過程之一,就是田野調(diào)查了。

而現(xiàn)在,可以采用LLM預(yù)測社會科學(xué)實驗的結(jié)果了?

不過有個問題:用LLM模擬真實的人類,結(jié)果能準嗎?

研究者發(fā)現(xiàn),在70項研究中,模擬效果和觀察到的效果,存在驚人的一致性。

準確性超越人類專家

用LLM進行社會科學(xué)實驗,預(yù)測的準確性有多高?

研究者使用GPT-4,從70個實驗中預(yù)測了465種效應(yīng)。

其中包括

-通過NSF資助的TESS計劃進行的50項調(diào)查實驗

-20項額外的重復(fù)研究

圖片

給模型的提示詞,是(a)從美國人的代表性數(shù)據(jù)集中提取的人口統(tǒng)計資料和(b)實驗刺激。

通過匯總模型響應(yīng)估計的效果,可以看出它們與實際的實驗效果密切相關(guān)!

圖片

另外研究者們還發(fā)現(xiàn),隨著模型的演進,它們的預(yù)測準確性越來越高。

到了GPT-4時,已經(jīng)超越了美國人在線樣本(N=2,659)的預(yù)測。

圖片

這里就有人要問了:有沒有可能,LLM只是從訓(xùn)練數(shù)據(jù)中檢索和重現(xiàn)已知的實驗結(jié)果呢?

研究者找到了證據(jù),證明并非如此。

他們特意找到了GPT-4訓(xùn)練數(shù)據(jù)截止時未發(fā)表的研究,發(fā)現(xiàn)預(yù)測的準確性仍然很高。

我們找到了反對這一點的證據(jù):僅分析 GPT4 訓(xùn)練數(shù)據(jù)截止時「未發(fā)表」的研究,我們發(fā)現(xiàn)預(yù)測準確性很高。

圖片

不過還有一個問題,此前人們曾發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)中的歧視,會引發(fā)LLM的偏見。

這些偏差是否會影響實驗結(jié)果預(yù)測的準確性呢?

為此,研究者從以下三方面,對結(jié)果進行了比較:

- 女性和男性

- 黑人和白人

- 民主黨和共和黨

結(jié)果顯示,盡管已知訓(xùn)練數(shù)據(jù)不平等,但LLM得出的預(yù)測準確性,在各個亞組之間仍然具有可比性。

然而,研究的實驗效果幾乎沒有異質(zhì)性,因此,還需要更多的研究,來評估LLM實驗結(jié)果的預(yù)測是否存在偏差,以及是怎樣的偏差。

圖片

此外,研究者還評估了大型研究的預(yù)測準確性,比較了大量干預(yù)措施的影響。

通過9項調(diào)查和實地大型研究可以發(fā)現(xiàn),LLM得出的預(yù)測相當準確。

尤其值得注意的是,它們的準確性已經(jīng)等同或超過了人類預(yù)測專家。

圖片

最后,研究者發(fā)現(xiàn)LLM可以準確預(yù)測對社會有害結(jié)果的影響,例如FB上antivax的帖子對vax意圖的影響。

這種能力,可能產(chǎn)生積極的用途,比如幫助內(nèi)容審核,不過也同時凸顯了濫用的風險。

圖片

總的來說,這項研究發(fā)現(xiàn),LLM在實驗中給出的預(yù)測,要比外行和人類專家的樣本都更準確。

這種能力,在科學(xué)和實踐方面有多種應(yīng)用。

比如,運行低成本的試點,來確定有希望的干預(yù)措施,或模擬可能對參與者有害的實驗。

不過也存在局限性和風險,包括偏見、過度使用和誤用。

圖片

用LLM復(fù)制社會科學(xué)實驗,可行嗎?

LLM是一種最新的機器學(xué)習模型,經(jīng)過大量人類語言語料庫的訓(xùn)練后,它們具有驚人的能力來模擬人類如何思考、交流和行為。

因此,它們能夠模仿廣泛的人類高級能力,例如社會互動和協(xié)調(diào)、道德判斷、談判、情感支持和說服。

隨著LLM越來越能夠模擬人類語言的使用,那它們能否被用于社會和行為科學(xué)的研究呢?

在這項研究中,研究者探討了LLM是否可以用于準確預(yù)測行為的結(jié)果實驗。如果有效,這種能力就能為建立科學(xué)理論和行為干預(yù)帶來無數(shù)好處。

圖片

他們檢查了先進的公開LLM——GPT-4,是否可用于預(yù)測在大量有力的、預(yù)先注冊的、具有全國代表性的實驗中觀察到的原始實驗效果(a)NSF 資助的多學(xué)科社會科學(xué)分時實驗(TESS)計劃和(b)最近復(fù)制研究的檔案,它們共同代表了廣泛的不同領(lǐng)域(例如社會心理學(xué)、政治學(xué)、社會學(xué)、公共政策、公共衛(wèi)生)。

研究者讓GPT-4模擬了大量不同人口的美國人樣本對實驗刺激的反應(yīng)。

然后,他們比較了不同實驗條件下的平均響應(yīng),以生成LLM預(yù)測的實驗效應(yīng)大小,然后將其與原始實驗效應(yīng)相關(guān)聯(lián)。

研究者評估了LLM得出的預(yù)測對一般美國人和具有獨特學(xué)術(shù)興趣的幾個亞群體的準確性,系統(tǒng)地對LLM用于預(yù)測調(diào)查實驗中觀察到的干預(yù)效應(yīng)的能力進行了基準測試。

圖片

最后,他們超越了這個初步的測試檔案,收集并分析多種大型多處理實驗,包括涉及行為測量的研究、干預(yù)措施的現(xiàn)場測試和政策影響評估,以更好地評估LLM預(yù)測實驗結(jié)果的價值和當前局限。」

結(jié)果顯示,LLM雖然不會取代人類被試,但廉價、快速且可能大量開展基于LLM的試點研究的能力,可以幫助研究人員確定更有前途的研究想法,促進理論和假設(shè)的建立,更好地估計未知的效應(yīng)大小,以確定所需的效果樣本大小,并優(yōu)先考慮需要復(fù)現(xiàn)的已發(fā)表研究。

這種能力也可能具有應(yīng)用價值。例如,政策制定者可以利用LLM來有效評估許多公共信息傳遞方法,以鼓勵理想的行為(例如公共衛(wèi)生行為、福利計劃注冊)。

目前,預(yù)測實驗結(jié)果的最佳可用工具是從專家或非專業(yè)預(yù)測者那里收集預(yù)測。

然而,雖然有時具有預(yù)測性,但系統(tǒng)地收集預(yù)測既耗時又昂貴,而基于LLM的低成本工具,可以使預(yù)測性預(yù)測廣泛可用。

研究者研究了LLM在代表性樣本調(diào)查實驗中準確模擬人類反應(yīng)的能力。

他們使用LLM,來模擬了人類對各種主題(包括人格特質(zhì)、道德判斷和政治態(tài)度)的調(diào)查問題的反應(yīng),并取得了不同程度的成功。

圖片

研究概述

他們研究了是否可以利用當前一代的LLM,來準確預(yù)測在美國進行的社會科學(xué)實驗效果的方向和程度。

他們首先建立了一個大型的多學(xué)科測試檔案,其中包含通過美國國家科學(xué)基金會資助的50個調(diào)查實驗——2016年至2022年社會科學(xué)共享實驗(TESS)項目,全部在全國代表性概率樣本上進行。

我們通過最近的復(fù)制項目中的另外20項實驗對此進行了補充,這些實驗也是在全國代表性樣本上進行的。

對于每個實驗,他們都重新分析了原始的、公開的數(shù)據(jù)集,使用一致的分析方法估計所有實驗對比。

這個測試檔案有幾個優(yōu)點。

首先,實驗質(zhì)量高:它們都是高度統(tǒng)計、預(yù)先注冊、同行評審、針對全國代表性樣本進行,并且材料是開放獲取的。

使用具有全國代表性的美國人樣本特別有價值,使他們能夠評估LLM對人口亞組的預(yù)測的準確性。

其次,檔案內(nèi)容廣泛且多樣化。

這些實驗由來自不同領(lǐng)域(例如政治學(xué)、心理學(xué)、社會學(xué)、社會政策、公共衛(wèi)生、傳播學(xué))的77名社會和行為科學(xué)家設(shè)計,并測試了許多不同類型的實驗治療的效果(例如框架效應(yīng)、顯著性)主題、啟動社會身份對一系列結(jié)果(如政治、文化和宗教態(tài)度、對少數(shù)群體的偏見、幸福)的影響。

第三,研究者不依賴他人的分析,而是采用致的分析方法來估計實驗治療效果。這樣做可以讓他們避免研究人員的偏見,還可以估計所有可能的實驗對比,包括原始研究人員沒有假設(shè)的那些影響,因為它們不太可能在已發(fā)表或公開發(fā)表的論文中出現(xiàn)。

第四,在GPT-4訓(xùn)練數(shù)據(jù)窗口結(jié)束時,大量實驗的結(jié)果尚未發(fā)表或公開發(fā)布,這樣研究者就能專門測試LLM在GPT-4無法接觸過的實驗中的預(yù)測能力。

當然,測試檔案也有重要的局限性。最關(guān)鍵的是,它只包含代表美國人口的研究,無法在該范圍之外進行評估。

此外,雖然它包括來自多個學(xué)科的研究,但許多學(xué)科并未包括在內(nèi)(例如認知心理學(xué)、行為經(jīng)濟學(xué)、發(fā)展經(jīng)濟學(xué)、營銷學(xué))。

最后,檔案完全由基于文本的刺激和自我報告的相關(guān)測量的調(diào)查實驗組成,不包括現(xiàn)場實驗、行為因變量或圖像或視頻刺激。

為了開始解決主要測試檔案的一些局限性,研究者對下面的補充數(shù)據(jù)集進行了額外的分析。

他們的研究設(shè)計如下圖所示。為了對測試檔案中的實驗結(jié)果生成基于LLM的預(yù)測,他們獲得了原始研究材料,包括所有實驗條件、結(jié)果變量和反應(yīng)量表的刺激文本。

圖片

從廣義上講,LLM可以被提示(a)直接預(yù)測實驗結(jié)果,或(b)模擬個體參與者對實驗刺激的反應(yīng)。

這里,研究者采用了后一種策略。

他們向LLM提出了:

(a)介紹性信息(如「您將被要求預(yù)測人們對各種信息的反應(yīng)」),包括對研究背景的簡要描述;

(b)研究參與者的具體人口統(tǒng)計概況模仿——包括有關(guān)性別、年齡、種族、教育、意識形態(tài)和黨派偏見的信息,從具有全國代表性的大型樣本中隨機抽??;

(c)實驗刺激的文本;

(d)用于評估結(jié)果的問題文本變量,以及結(jié)果啦應(yīng)量表和標簽。

然后,他們提示LLM估計參與者在受到實驗刺激后將如何回應(yīng)結(jié)果問題。

他們使用了集成方法來減少對任何單一提示格式的特殊響應(yīng)。

對于每個實驗條件和結(jié)果測量,研究者都對所有LLM的響應(yīng)進行了平均。

結(jié)果

為了評估當前一代的LLM是否可以用來預(yù)測實驗中的干預(yù)效應(yīng),研究者首先檢查了GPT-4預(yù)測的干預(yù)效應(yīng)與實際估計的干預(yù)效應(yīng)之間的相關(guān)性。

在對從存檔中的70個實驗計算出的476個實驗效果進行分析時,可以發(fā)現(xiàn)GPT-4得出的預(yù)測與原始效果大小密切相關(guān)。

僅檢査在原始實驗中具有統(tǒng)計顯著效果的成對對比,可以發(fā)現(xiàn)對于90%的對比,GPT-4得出的預(yù)測方向是正確的。

以下幾個圖,顯示了LLM在美國進行的基于文本的社會科學(xué)實驗中,得到了準確的預(yù)測效果。

(a)在包含70個基于文本的實驗(具有476個效果)的數(shù)據(jù)集中,LLM得出的對許多提示的干預(yù)效應(yīng)的估計,與原始干預(yù)效應(yīng)密切相關(guān)。

圖片

(b)LLM得出的預(yù)測的準確性,在幾代LLM中得到了提高,其準確性超過了從一般人群中收集的預(yù)測。

圖片

(c)對于那些不可能出現(xiàn)在LLM訓(xùn)練數(shù)據(jù)中的研究,LLM得出的預(yù)測仍然高度準確,因為這些研究沒有在LLM訓(xùn)練數(shù)據(jù)截止日期之前發(fā)布。

圖片

(d)在各個實驗子集的穩(wěn)健性檢査分析中,LLM得出的預(yù)測的準確性仍然很高。在面板A和中,不同的顏色代表不同的研究。

圖片

LLM得出的預(yù)測(a)在各個亞組中的準確性相似,并且(b)當存在效應(yīng)異質(zhì)性時,交互效應(yīng)相當準確。圖中描繪了減弱的相關(guān)性。

圖片

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-26 14:56:59

模型訓(xùn)練

2023-07-21 14:28:54

2023-10-17 13:33:00

AI數(shù)據(jù)

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-03-15 10:35:16

GPTAI

2023-10-06 12:48:43

AI論文

2024-01-29 12:49:00

AI模型

2019-12-16 14:33:01

AI人工智能斯坦福

2024-09-11 14:59:00

2024-03-25 07:15:00

AI模型

2023-09-21 12:31:54

AI數(shù)據(jù)

2024-11-26 08:42:14

2023-06-05 15:44:15

GPT-4AI

2023-12-16 09:45:56

論文GPT-4AI

2023-02-17 09:01:50

ChatGPT對話機器人

2024-01-22 00:25:00

GPT-4ChatGPTQA 模型

2023-07-21 14:16:15

2023-10-07 13:16:20

GPT-4NatureICLR

2023-08-10 14:01:08

開源虛擬

2023-11-13 18:42:29

GPT-4VSOTA
點贊
收藏

51CTO技術(shù)棧公眾號