自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用「AI人」模擬社會學(xué)實驗，居然成功了？斯坦福、NYU用GPT-4模仿人類，準確度驚人！

作者：新智元 2024-09-02 09:25:00

人工智能新聞

斯坦福和NYU的研究者發(fā)現(xiàn)，GPT-4這樣的「AI人」，可以被用來復(fù)制社會科學(xué)實驗了。調(diào)查了1萬個AI，結(jié)果比真人還真？

最近，斯坦福和NYU的一項研究發(fā)現(xiàn)，GPT-4能夠很好地模擬人類，高精度地復(fù)制社會科學(xué)實驗了！

論文地址：https://docsend.com/view/qeeccuggec56k9hd

通過提示，AI可以以隨機人口統(tǒng)計特征的形式回答調(diào)查問題，調(diào)查了數(shù)千名「AI人」后，一份社會科學(xué)實驗報告就順利出爐了。

點進這個頁面，就可以使用這個演示，模擬被試生成預(yù)測的實驗效果了

社會科學(xué)實驗中最困難的過程之一，就是田野調(diào)查了。

而現(xiàn)在，可以采用LLM預(yù)測社會科學(xué)實驗的結(jié)果了？

不過有個問題：用LLM模擬真實的人類，結(jié)果能準嗎？

研究者發(fā)現(xiàn)，在70項研究中，模擬效果和觀察到的效果，存在驚人的一致性。

準確性超越人類專家

用LLM進行社會科學(xué)實驗，預(yù)測的準確性有多高？

研究者使用GPT-4，從70個實驗中預(yù)測了465種效應(yīng)。

其中包括

-通過NSF資助的TESS計劃進行的50項調(diào)查實驗

-20項額外的重復(fù)研究

給模型的提示詞，是（a）從美國人的代表性數(shù)據(jù)集中提取的人口統(tǒng)計資料和（b）實驗刺激。

通過匯總模型響應(yīng)估計的效果，可以看出它們與實際的實驗效果密切相關(guān)！

另外研究者們還發(fā)現(xiàn)，隨著模型的演進，它們的預(yù)測準確性越來越高。

到了GPT-4時，已經(jīng)超越了美國人在線樣本（N=2,659）的預(yù)測。

這里就有人要問了：有沒有可能，LLM只是從訓(xùn)練數(shù)據(jù)中檢索和重現(xiàn)已知的實驗結(jié)果呢？

研究者找到了證據(jù)，證明并非如此。

他們特意找到了GPT-4訓(xùn)練數(shù)據(jù)截止時未發(fā)表的研究，發(fā)現(xiàn)預(yù)測的準確性仍然很高。

我們找到了反對這一點的證據(jù)：僅分析 GPT4 訓(xùn)練數(shù)據(jù)截止時「未發(fā)表」的研究，我們發(fā)現(xiàn)預(yù)測準確性很高。

不過還有一個問題，此前人們曾發(fā)現(xiàn)，訓(xùn)練數(shù)據(jù)中的歧視，會引發(fā)LLM的偏見。

這些偏差是否會影響實驗結(jié)果預(yù)測的準確性呢？

為此，研究者從以下三方面，對結(jié)果進行了比較：

- 女性和男性

- 黑人和白人

- 民主黨和共和黨

結(jié)果顯示，盡管已知訓(xùn)練數(shù)據(jù)不平等，但LLM得出的預(yù)測準確性，在各個亞組之間仍然具有可比性。

然而，研究的實驗效果幾乎沒有異質(zhì)性，因此，還需要更多的研究，來評估LLM實驗結(jié)果的預(yù)測是否存在偏差，以及是怎樣的偏差。

此外，研究者還評估了大型研究的預(yù)測準確性，比較了大量干預(yù)措施的影響。

通過9項調(diào)查和實地大型研究可以發(fā)現(xiàn)，LLM得出的預(yù)測相當準確。

尤其值得注意的是，它們的準確性已經(jīng)等同或超過了人類預(yù)測專家。

最后，研究者發(fā)現(xiàn)LLM可以準確預(yù)測對社會有害結(jié)果的影響，例如FB上antivax的帖子對vax意圖的影響。

這種能力，可能產(chǎn)生積極的用途，比如幫助內(nèi)容審核，不過也同時凸顯了濫用的風險。

總的來說，這項研究發(fā)現(xiàn)，LLM在實驗中給出的預(yù)測，要比外行和人類專家的樣本都更準確。

這種能力，在科學(xué)和實踐方面有多種應(yīng)用。

比如，運行低成本的試點，來確定有希望的干預(yù)措施，或模擬可能對參與者有害的實驗。

不過也存在局限性和風險，包括偏見、過度使用和誤用。

用LLM復(fù)制社會科學(xué)實驗，可行嗎？

LLM是一種最新的機器學(xué)習模型，經(jīng)過大量人類語言語料庫的訓(xùn)練后，它們具有驚人的能力來模擬人類如何思考、交流和行為。

因此，它們能夠模仿廣泛的人類高級能力，例如社會互動和協(xié)調(diào)、道德判斷、談判、情感支持和說服。

隨著LLM越來越能夠模擬人類語言的使用，那它們能否被用于社會和行為科學(xué)的研究呢？

在這項研究中，研究者探討了LLM是否可以用于準確預(yù)測行為的結(jié)果實驗。如果有效，這種能力就能為建立科學(xué)理論和行為干預(yù)帶來無數(shù)好處。

他們檢查了先進的公開LLM——GPT-4，是否可用于預(yù)測在大量有力的、預(yù)先注冊的、具有全國代表性的實驗中觀察到的原始實驗效果（a）NSF 資助的多學(xué)科社會科學(xué)分時實驗（TESS）計劃和（b）最近復(fù)制研究的檔案，它們共同代表了廣泛的不同領(lǐng)域（例如社會心理學(xué)、政治學(xué)、社會學(xué)、公共政策、公共衛(wèi)生）。

研究者讓GPT-4模擬了大量不同人口的美國人樣本對實驗刺激的反應(yīng)。

然后，他們比較了不同實驗條件下的平均響應(yīng)，以生成LLM預(yù)測的實驗效應(yīng)大小，然后將其與原始實驗效應(yīng)相關(guān)聯(lián)。

研究者評估了LLM得出的預(yù)測對一般美國人和具有獨特學(xué)術(shù)興趣的幾個亞群體的準確性，系統(tǒng)地對LLM用于預(yù)測調(diào)查實驗中觀察到的干預(yù)效應(yīng)的能力進行了基準測試。

最后，他們超越了這個初步的測試檔案，收集并分析多種大型多處理實驗，包括涉及行為測量的研究、干預(yù)措施的現(xiàn)場測試和政策影響評估，以更好地評估LLM預(yù)測實驗結(jié)果的價值和當前局限。」

結(jié)果顯示，LLM雖然不會取代人類被試，但廉價、快速且可能大量開展基于LLM的試點研究的能力，可以幫助研究人員確定更有前途的研究想法，促進理論和假設(shè)的建立，更好地估計未知的效應(yīng)大小，以確定所需的效果樣本大小，并優(yōu)先考慮需要復(fù)現(xiàn)的已發(fā)表研究。

這種能力也可能具有應(yīng)用價值。例如，政策制定者可以利用LLM來有效評估許多公共信息傳遞方法，以鼓勵理想的行為（例如公共衛(wèi)生行為、福利計劃注冊）。

目前，預(yù)測實驗結(jié)果的最佳可用工具是從專家或非專業(yè)預(yù)測者那里收集預(yù)測。

然而，雖然有時具有預(yù)測性，但系統(tǒng)地收集預(yù)測既耗時又昂貴，而基于LLM的低成本工具，可以使預(yù)測性預(yù)測廣泛可用。

研究者研究了LLM在代表性樣本調(diào)查實驗中準確模擬人類反應(yīng)的能力。

他們使用LLM，來模擬了人類對各種主題（包括人格特質(zhì)、道德判斷和政治態(tài)度）的調(diào)查問題的反應(yīng)，并取得了不同程度的成功。

研究概述

他們研究了是否可以利用當前一代的LLM，來準確預(yù)測在美國進行的社會科學(xué)實驗效果的方向和程度。

他們首先建立了一個大型的多學(xué)科測試檔案，其中包含通過美國國家科學(xué)基金會資助的50個調(diào)查實驗——2016年至2022年社會科學(xué)共享實驗（TESS）項目，全部在全國代表性概率樣本上進行。

我們通過最近的復(fù)制項目中的另外20項實驗對此進行了補充，這些實驗也是在全國代表性樣本上進行的。

對于每個實驗，他們都重新分析了原始的、公開的數(shù)據(jù)集，使用一致的分析方法估計所有實驗對比。

這個測試檔案有幾個優(yōu)點。

首先，實驗質(zhì)量高：它們都是高度統(tǒng)計、預(yù)先注冊、同行評審、針對全國代表性樣本進行，并且材料是開放獲取的。

使用具有全國代表性的美國人樣本特別有價值，使他們能夠評估LLM對人口亞組的預(yù)測的準確性。

其次，檔案內(nèi)容廣泛且多樣化。

這些實驗由來自不同領(lǐng)域（例如政治學(xué)、心理學(xué)、社會學(xué)、社會政策、公共衛(wèi)生、傳播學(xué)）的77名社會和行為科學(xué)家設(shè)計，并測試了許多不同類型的實驗治療的效果（例如框架效應(yīng)、顯著性）主題、啟動社會身份對一系列結(jié)果（如政治、文化和宗教態(tài)度、對少數(shù)群體的偏見、幸福）的影響。

第三，研究者不依賴他人的分析，而是采用致的分析方法來估計實驗治療效果。這樣做可以讓他們避免研究人員的偏見，還可以估計所有可能的實驗對比，包括原始研究人員沒有假設(shè)的那些影響，因為它們不太可能在已發(fā)表或公開發(fā)表的論文中出現(xiàn)。

第四，在GPT-4訓(xùn)練數(shù)據(jù)窗口結(jié)束時，大量實驗的結(jié)果尚未發(fā)表或公開發(fā)布，這樣研究者就能專門測試LLM在GPT-4無法接觸過的實驗中的預(yù)測能力。

當然，測試檔案也有重要的局限性。最關(guān)鍵的是，它只包含代表美國人口的研究，無法在該范圍之外進行評估。

此外，雖然它包括來自多個學(xué)科的研究，但許多學(xué)科并未包括在內(nèi)（例如認知心理學(xué)、行為經(jīng)濟學(xué)、發(fā)展經(jīng)濟學(xué)、營銷學(xué)）。

最后，檔案完全由基于文本的刺激和自我報告的相關(guān)測量的調(diào)查實驗組成，不包括現(xiàn)場實驗、行為因變量或圖像或視頻刺激。

為了開始解決主要測試檔案的一些局限性，研究者對下面的補充數(shù)據(jù)集進行了額外的分析。

他們的研究設(shè)計如下圖所示。為了對測試檔案中的實驗結(jié)果生成基于LLM的預(yù)測，他們獲得了原始研究材料，包括所有實驗條件、結(jié)果變量和反應(yīng)量表的刺激文本。

從廣義上講，LLM可以被提示（a）直接預(yù)測實驗結(jié)果，或（b）模擬個體參與者對實驗刺激的反應(yīng)。

這里，研究者采用了后一種策略。

他們向LLM提出了：

（a）介紹性信息（如「您將被要求預(yù)測人們對各種信息的反應(yīng)」)，包括對研究背景的簡要描述；

（b）研究參與者的具體人口統(tǒng)計概況模仿——包括有關(guān)性別、年齡、種族、教育、意識形態(tài)和黨派偏見的信息，從具有全國代表性的大型樣本中隨機抽??；

（c）實驗刺激的文本；

（d）用于評估結(jié)果的問題文本變量，以及結(jié)果啦應(yīng)量表和標簽。

然后，他們提示LLM估計參與者在受到實驗刺激后將如何回應(yīng)結(jié)果問題。

他們使用了集成方法來減少對任何單一提示格式的特殊響應(yīng)。

對于每個實驗條件和結(jié)果測量，研究者都對所有LLM的響應(yīng)進行了平均。

結(jié)果

為了評估當前一代的LLM是否可以用來預(yù)測實驗中的干預(yù)效應(yīng)，研究者首先檢查了GPT-4預(yù)測的干預(yù)效應(yīng)與實際估計的干預(yù)效應(yīng)之間的相關(guān)性。

在對從存檔中的70個實驗計算出的476個實驗效果進行分析時，可以發(fā)現(xiàn)GPT-4得出的預(yù)測與原始效果大小密切相關(guān)。

僅檢査在原始實驗中具有統(tǒng)計顯著效果的成對對比，可以發(fā)現(xiàn)對于90%的對比，GPT-4得出的預(yù)測方向是正確的。

以下幾個圖，顯示了LLM在美國進行的基于文本的社會科學(xué)實驗中，得到了準確的預(yù)測效果。

（a）在包含70個基于文本的實驗（具有476個效果）的數(shù)據(jù)集中，LLM得出的對許多提示的干預(yù)效應(yīng)的估計，與原始干預(yù)效應(yīng)密切相關(guān)。

（b）LLM得出的預(yù)測的準確性，在幾代LLM中得到了提高，其準確性超過了從一般人群中收集的預(yù)測。

（c）對于那些不可能出現(xiàn)在LLM訓(xùn)練數(shù)據(jù)中的研究，LLM得出的預(yù)測仍然高度準確，因為這些研究沒有在LLM訓(xùn)練數(shù)據(jù)截止日期之前發(fā)布。

（d）在各個實驗子集的穩(wěn)健性檢査分析中，LLM得出的預(yù)測的準確性仍然很高。在面板A和中，不同的顏色代表不同的研究。

LLM得出的預(yù)測（a）在各個亞組中的準確性相似，并且（b）當存在效應(yīng)異質(zhì)性時，交互效應(yīng)相當準確。圖中描繪了減弱的相關(guān)性。

責任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="ep6v2"></cite>

<style id="ep6v2"></style>