用「AI人」模擬社會學(xué)實驗,居然成功了?斯坦福、NYU用GPT-4模仿人類,準確度驚人!
最近,斯坦福和NYU的一項研究發(fā)現(xiàn),GPT-4能夠很好地模擬人類,高精度地復(fù)制社會科學(xué)實驗了!
論文地址:https://docsend.com/view/qeeccuggec56k9hd
通過提示,AI可以以隨機人口統(tǒng)計特征的形式回答調(diào)查問題,調(diào)查了數(shù)千名「AI人」后,一份社會科學(xué)實驗報告就順利出爐了。
點進這個頁面,就可以使用這個演示,模擬被試生成預(yù)測的實驗效果了
社會科學(xué)實驗中最困難的過程之一,就是田野調(diào)查了。
而現(xiàn)在,可以采用LLM預(yù)測社會科學(xué)實驗的結(jié)果了?
不過有個問題:用LLM模擬真實的人類,結(jié)果能準嗎?
研究者發(fā)現(xiàn),在70項研究中,模擬效果和觀察到的效果,存在驚人的一致性。
準確性超越人類專家
用LLM進行社會科學(xué)實驗,預(yù)測的準確性有多高?
研究者使用GPT-4,從70個實驗中預(yù)測了465種效應(yīng)。
其中包括
-通過NSF資助的TESS計劃進行的50項調(diào)查實驗
-20項額外的重復(fù)研究
給模型的提示詞,是(a)從美國人的代表性數(shù)據(jù)集中提取的人口統(tǒng)計資料和(b)實驗刺激。
通過匯總模型響應(yīng)估計的效果,可以看出它們與實際的實驗效果密切相關(guān)!
另外研究者們還發(fā)現(xiàn),隨著模型的演進,它們的預(yù)測準確性越來越高。
到了GPT-4時,已經(jīng)超越了美國人在線樣本(N=2,659)的預(yù)測。
這里就有人要問了:有沒有可能,LLM只是從訓(xùn)練數(shù)據(jù)中檢索和重現(xiàn)已知的實驗結(jié)果呢?
研究者找到了證據(jù),證明并非如此。
他們特意找到了GPT-4訓(xùn)練數(shù)據(jù)截止時未發(fā)表的研究,發(fā)現(xiàn)預(yù)測的準確性仍然很高。
我們找到了反對這一點的證據(jù):僅分析 GPT4 訓(xùn)練數(shù)據(jù)截止時「未發(fā)表」的研究,我們發(fā)現(xiàn)預(yù)測準確性很高。
不過還有一個問題,此前人們曾發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)中的歧視,會引發(fā)LLM的偏見。
這些偏差是否會影響實驗結(jié)果預(yù)測的準確性呢?
為此,研究者從以下三方面,對結(jié)果進行了比較:
- 女性和男性
- 黑人和白人
- 民主黨和共和黨
結(jié)果顯示,盡管已知訓(xùn)練數(shù)據(jù)不平等,但LLM得出的預(yù)測準確性,在各個亞組之間仍然具有可比性。
然而,研究的實驗效果幾乎沒有異質(zhì)性,因此,還需要更多的研究,來評估LLM實驗結(jié)果的預(yù)測是否存在偏差,以及是怎樣的偏差。
此外,研究者還評估了大型研究的預(yù)測準確性,比較了大量干預(yù)措施的影響。
通過9項調(diào)查和實地大型研究可以發(fā)現(xiàn),LLM得出的預(yù)測相當準確。
尤其值得注意的是,它們的準確性已經(jīng)等同或超過了人類預(yù)測專家。
最后,研究者發(fā)現(xiàn)LLM可以準確預(yù)測對社會有害結(jié)果的影響,例如FB上antivax的帖子對vax意圖的影響。
這種能力,可能產(chǎn)生積極的用途,比如幫助內(nèi)容審核,不過也同時凸顯了濫用的風險。
總的來說,這項研究發(fā)現(xiàn),LLM在實驗中給出的預(yù)測,要比外行和人類專家的樣本都更準確。
這種能力,在科學(xué)和實踐方面有多種應(yīng)用。
比如,運行低成本的試點,來確定有希望的干預(yù)措施,或模擬可能對參與者有害的實驗。
不過也存在局限性和風險,包括偏見、過度使用和誤用。
用LLM復(fù)制社會科學(xué)實驗,可行嗎?
LLM是一種最新的機器學(xué)習模型,經(jīng)過大量人類語言語料庫的訓(xùn)練后,它們具有驚人的能力來模擬人類如何思考、交流和行為。
因此,它們能夠模仿廣泛的人類高級能力,例如社會互動和協(xié)調(diào)、道德判斷、談判、情感支持和說服。
隨著LLM越來越能夠模擬人類語言的使用,那它們能否被用于社會和行為科學(xué)的研究呢?
在這項研究中,研究者探討了LLM是否可以用于準確預(yù)測行為的結(jié)果實驗。如果有效,這種能力就能為建立科學(xué)理論和行為干預(yù)帶來無數(shù)好處。
他們檢查了先進的公開LLM——GPT-4,是否可用于預(yù)測在大量有力的、預(yù)先注冊的、具有全國代表性的實驗中觀察到的原始實驗效果(a)NSF 資助的多學(xué)科社會科學(xué)分時實驗(TESS)計劃和(b)最近復(fù)制研究的檔案,它們共同代表了廣泛的不同領(lǐng)域(例如社會心理學(xué)、政治學(xué)、社會學(xué)、公共政策、公共衛(wèi)生)。
研究者讓GPT-4模擬了大量不同人口的美國人樣本對實驗刺激的反應(yīng)。
然后,他們比較了不同實驗條件下的平均響應(yīng),以生成LLM預(yù)測的實驗效應(yīng)大小,然后將其與原始實驗效應(yīng)相關(guān)聯(lián)。
研究者評估了LLM得出的預(yù)測對一般美國人和具有獨特學(xué)術(shù)興趣的幾個亞群體的準確性,系統(tǒng)地對LLM用于預(yù)測調(diào)查實驗中觀察到的干預(yù)效應(yīng)的能力進行了基準測試。
最后,他們超越了這個初步的測試檔案,收集并分析多種大型多處理實驗,包括涉及行為測量的研究、干預(yù)措施的現(xiàn)場測試和政策影響評估,以更好地評估LLM預(yù)測實驗結(jié)果的價值和當前局限。」
結(jié)果顯示,LLM雖然不會取代人類被試,但廉價、快速且可能大量開展基于LLM的試點研究的能力,可以幫助研究人員確定更有前途的研究想法,促進理論和假設(shè)的建立,更好地估計未知的效應(yīng)大小,以確定所需的效果樣本大小,并優(yōu)先考慮需要復(fù)現(xiàn)的已發(fā)表研究。
這種能力也可能具有應(yīng)用價值。例如,政策制定者可以利用LLM來有效評估許多公共信息傳遞方法,以鼓勵理想的行為(例如公共衛(wèi)生行為、福利計劃注冊)。
目前,預(yù)測實驗結(jié)果的最佳可用工具是從專家或非專業(yè)預(yù)測者那里收集預(yù)測。
然而,雖然有時具有預(yù)測性,但系統(tǒng)地收集預(yù)測既耗時又昂貴,而基于LLM的低成本工具,可以使預(yù)測性預(yù)測廣泛可用。
研究者研究了LLM在代表性樣本調(diào)查實驗中準確模擬人類反應(yīng)的能力。
他們使用LLM,來模擬了人類對各種主題(包括人格特質(zhì)、道德判斷和政治態(tài)度)的調(diào)查問題的反應(yīng),并取得了不同程度的成功。
研究概述
他們研究了是否可以利用當前一代的LLM,來準確預(yù)測在美國進行的社會科學(xué)實驗效果的方向和程度。
他們首先建立了一個大型的多學(xué)科測試檔案,其中包含通過美國國家科學(xué)基金會資助的50個調(diào)查實驗——2016年至2022年社會科學(xué)共享實驗(TESS)項目,全部在全國代表性概率樣本上進行。
我們通過最近的復(fù)制項目中的另外20項實驗對此進行了補充,這些實驗也是在全國代表性樣本上進行的。
對于每個實驗,他們都重新分析了原始的、公開的數(shù)據(jù)集,使用一致的分析方法估計所有實驗對比。
這個測試檔案有幾個優(yōu)點。
首先,實驗質(zhì)量高:它們都是高度統(tǒng)計、預(yù)先注冊、同行評審、針對全國代表性樣本進行,并且材料是開放獲取的。
使用具有全國代表性的美國人樣本特別有價值,使他們能夠評估LLM對人口亞組的預(yù)測的準確性。
其次,檔案內(nèi)容廣泛且多樣化。
這些實驗由來自不同領(lǐng)域(例如政治學(xué)、心理學(xué)、社會學(xué)、社會政策、公共衛(wèi)生、傳播學(xué))的77名社會和行為科學(xué)家設(shè)計,并測試了許多不同類型的實驗治療的效果(例如框架效應(yīng)、顯著性)主題、啟動社會身份對一系列結(jié)果(如政治、文化和宗教態(tài)度、對少數(shù)群體的偏見、幸福)的影響。
第三,研究者不依賴他人的分析,而是采用致的分析方法來估計實驗治療效果。這樣做可以讓他們避免研究人員的偏見,還可以估計所有可能的實驗對比,包括原始研究人員沒有假設(shè)的那些影響,因為它們不太可能在已發(fā)表或公開發(fā)表的論文中出現(xiàn)。
第四,在GPT-4訓(xùn)練數(shù)據(jù)窗口結(jié)束時,大量實驗的結(jié)果尚未發(fā)表或公開發(fā)布,這樣研究者就能專門測試LLM在GPT-4無法接觸過的實驗中的預(yù)測能力。
當然,測試檔案也有重要的局限性。最關(guān)鍵的是,它只包含代表美國人口的研究,無法在該范圍之外進行評估。
此外,雖然它包括來自多個學(xué)科的研究,但許多學(xué)科并未包括在內(nèi)(例如認知心理學(xué)、行為經(jīng)濟學(xué)、發(fā)展經(jīng)濟學(xué)、營銷學(xué))。
最后,檔案完全由基于文本的刺激和自我報告的相關(guān)測量的調(diào)查實驗組成,不包括現(xiàn)場實驗、行為因變量或圖像或視頻刺激。
為了開始解決主要測試檔案的一些局限性,研究者對下面的補充數(shù)據(jù)集進行了額外的分析。
他們的研究設(shè)計如下圖所示。為了對測試檔案中的實驗結(jié)果生成基于LLM的預(yù)測,他們獲得了原始研究材料,包括所有實驗條件、結(jié)果變量和反應(yīng)量表的刺激文本。
從廣義上講,LLM可以被提示(a)直接預(yù)測實驗結(jié)果,或(b)模擬個體參與者對實驗刺激的反應(yīng)。
這里,研究者采用了后一種策略。
他們向LLM提出了:
(a)介紹性信息(如「您將被要求預(yù)測人們對各種信息的反應(yīng)」),包括對研究背景的簡要描述;
(b)研究參與者的具體人口統(tǒng)計概況模仿——包括有關(guān)性別、年齡、種族、教育、意識形態(tài)和黨派偏見的信息,從具有全國代表性的大型樣本中隨機抽??;
(c)實驗刺激的文本;
(d)用于評估結(jié)果的問題文本變量,以及結(jié)果啦應(yīng)量表和標簽。
然后,他們提示LLM估計參與者在受到實驗刺激后將如何回應(yīng)結(jié)果問題。
他們使用了集成方法來減少對任何單一提示格式的特殊響應(yīng)。
對于每個實驗條件和結(jié)果測量,研究者都對所有LLM的響應(yīng)進行了平均。
結(jié)果
為了評估當前一代的LLM是否可以用來預(yù)測實驗中的干預(yù)效應(yīng),研究者首先檢查了GPT-4預(yù)測的干預(yù)效應(yīng)與實際估計的干預(yù)效應(yīng)之間的相關(guān)性。
在對從存檔中的70個實驗計算出的476個實驗效果進行分析時,可以發(fā)現(xiàn)GPT-4得出的預(yù)測與原始效果大小密切相關(guān)。
僅檢査在原始實驗中具有統(tǒng)計顯著效果的成對對比,可以發(fā)現(xiàn)對于90%的對比,GPT-4得出的預(yù)測方向是正確的。
以下幾個圖,顯示了LLM在美國進行的基于文本的社會科學(xué)實驗中,得到了準確的預(yù)測效果。
(a)在包含70個基于文本的實驗(具有476個效果)的數(shù)據(jù)集中,LLM得出的對許多提示的干預(yù)效應(yīng)的估計,與原始干預(yù)效應(yīng)密切相關(guān)。
(b)LLM得出的預(yù)測的準確性,在幾代LLM中得到了提高,其準確性超過了從一般人群中收集的預(yù)測。
(c)對于那些不可能出現(xiàn)在LLM訓(xùn)練數(shù)據(jù)中的研究,LLM得出的預(yù)測仍然高度準確,因為這些研究沒有在LLM訓(xùn)練數(shù)據(jù)截止日期之前發(fā)布。
(d)在各個實驗子集的穩(wěn)健性檢査分析中,LLM得出的預(yù)測的準確性仍然很高。在面板A和中,不同的顏色代表不同的研究。
LLM得出的預(yù)測(a)在各個亞組中的準確性相似,并且(b)當存在效應(yīng)異質(zhì)性時,交互效應(yīng)相當準確。圖中描繪了減弱的相關(guān)性。