自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MIT等首次深度研究「集成LLM」預(yù)測(cè)能力:可媲美人類群體準(zhǔn)確率

人工智能 新聞
針對(duì)31個(gè)問(wèn)題,基于12個(gè)各式各樣LLM,兩項(xiàng)研究結(jié)果表明,LLM群體優(yōu)于單純的無(wú)信息基線模型,并且在統(tǒng)計(jì)上與人類群體沒(méi)有差異。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

在實(shí)踐中,人類預(yù)測(cè)的準(zhǔn)確性依賴于「群體智慧」(wisdom of the crowd)效應(yīng),即通過(guò)聚集一群個(gè)體預(yù)測(cè)者,對(duì)未來(lái)事件的預(yù)測(cè)準(zhǔn)確率會(huì)顯著提高。

過(guò)去關(guān)于大型語(yǔ)言模型(LLMs)預(yù)測(cè)能力的工作表明,即便是最強(qiáng)大的LLM也仍然比不過(guò)人類的群體智慧。

最近,來(lái)自倫敦政治經(jīng)濟(jì)學(xué)院、MIT和賓夕法尼亞大學(xué)的研究人員做了兩項(xiàng)研究,通過(guò)簡(jiǎn)單、實(shí)際適用的預(yù)測(cè)集成方法,表明LLMs可以實(shí)現(xiàn)與人類群體競(jìng)賽相當(dāng)?shù)念A(yù)測(cè)準(zhǔn)確率。

論文鏈接:https://arxiv.org/pdf/2402.19379.pdf

在第一個(gè)研究中,將31個(gè)二元問(wèn)題由12個(gè)LLM進(jìn)行集成預(yù)測(cè),與為期三個(gè)月的預(yù)測(cè)錦標(biāo)賽中925名人類預(yù)測(cè)者的預(yù)測(cè)進(jìn)行了比較,主要分析結(jié)果表明,LLM群體優(yōu)于單純的無(wú)信息基線模型,并且在統(tǒng)計(jì)上與人類群體沒(méi)有差異。

在探索性分析中,研究人員發(fā)現(xiàn)這兩種方法在中等效應(yīng)尺寸等價(jià)界限(medium-effect-size equivalence bounds)方面是相同的;還可以觀察到一種默許效應(yīng)(acquiescence effect),平均模型預(yù)測(cè)顯著高于50%,但正面和負(fù)面的分辨率幾乎平分秋色。

在第二項(xiàng)研究中,研究人員測(cè)試了LLM預(yù)測(cè)(GPT-4和Claude 2)是否可以通過(guò)利用人類認(rèn)知輸出來(lái)改善,結(jié)果發(fā)現(xiàn),兩個(gè)模型的預(yù)測(cè)準(zhǔn)確性都可以受益于將人類預(yù)測(cè)中值作為輸入信息,從而將準(zhǔn)確性提高了17%至28%,但仍然低于簡(jiǎn)單的預(yù)測(cè)平均方法。

研究1

研究人員從12個(gè)不同的大型語(yǔ)言模型中收集數(shù)據(jù)來(lái)模擬LLM群體,分別是GPT-4、GPT-4(with Bing)、Claude 2、GPT3.5-Turbo-Instruct、Solar-0-70b、Llama-2-70b、PaLM 2(Chat-Bison@002)、Coral(Command)、Mistral-7B-Instruct、Bard(PaLM 2)、Falcon-180B和Qwen-7B-Chat

然后通過(guò)web界面訪問(wèn)模型,對(duì)所有模型使用默認(rèn)參數(shù)(例如溫度),其中web界面包括公司自行開(kāi)發(fā)的界面,如OpenAI、Anthropic、Cohere和Google提供,以及其他第三方提供的界面,如Poe、Huggingface和Modelscope,采用這種方法來(lái)最大化在收集數(shù)據(jù)的整個(gè)研究期間可以可靠查詢的模型數(shù)量,同時(shí)保留模型規(guī)模的異質(zhì)性。

具體選擇的標(biāo)準(zhǔn)包括前沿模型(GPT-4,Claude 2)以及開(kāi)源模型(例如,Llama-2-70b,Mistral 7B-Instruct),還有各種可訪問(wèn)互聯(lián)網(wǎng)的型號(hào)(例如,with Bing、Bard、Coral的GPT-4),參數(shù)量從70億到1.6萬(wàn)億不等。

為了評(píng)估模型的預(yù)測(cè)能力,研究人員利用到Metaculus平臺(tái)上從2023年10月到2024年1月舉行的公共預(yù)測(cè)錦標(biāo)賽中實(shí)時(shí)提出的預(yù)測(cè)問(wèn)題,其中925名人類預(yù)測(cè)者提供了至少一個(gè)預(yù)測(cè)結(jié)果,提出的問(wèn)題從中東沖突、利率、文學(xué)獎(jiǎng)、英國(guó)選舉政治到印度空氣質(zhì)量、加密貨幣、消費(fèi)技術(shù)和太空旅行。

研究人員主要關(guān)注二元概率預(yù)測(cè),總共收集了31個(gè)問(wèn)題,其中每個(gè)問(wèn)題都包括一個(gè)問(wèn)題描述,所提問(wèn)題的背景,以及一個(gè)詳細(xì)說(shuō)明問(wèn)題將如何解決的方案。

研究人員編寫的提示詞中包括如何格式化輸出的說(shuō)明、指示模型作為超級(jí)預(yù)測(cè)者做出響應(yīng),并按照當(dāng)前的最佳提示實(shí)踐逐步處理這些問(wèn)題;提示中還包括了詳細(xì)的問(wèn)題背景、解決標(biāo)準(zhǔn)和問(wèn)題文本。

實(shí)驗(yàn)結(jié)果

研究人員從集成的12個(gè)LLM的31個(gè)問(wèn)題中收集了總共1007個(gè)單獨(dú)的預(yù)測(cè),剩余的109個(gè)預(yù)測(cè)由于模型或界面的技術(shù)問(wèn)題,或是內(nèi)容限制政策沒(méi)有收集完成。

在所有模型和問(wèn)題中,研究人員觀察到最小原始預(yù)測(cè)值為0.1%,最大原始預(yù)測(cè)值為99.5%,預(yù)測(cè)中值為60%。這表明LLM模型更有可能在50%中點(diǎn)以上做出預(yù)測(cè),群體的平均預(yù)測(cè)值M=57.35(SD=20.93)顯著高于50%,t(1006)=86.20,p<0.001

重要的是,整個(gè)問(wèn)題集的解決方案接近平均,14/31的問(wèn)題得到了正向解決,這種不平衡的現(xiàn)象表明,LLM預(yù)測(cè)通常傾向于正向的解決方案,超出了經(jīng)驗(yàn)預(yù)期(只有45%以上的問(wèn)題可以得到積極的解決方案)。

在該研究的問(wèn)題集合中,LLM群體并不比人類群體更準(zhǔn)確。

研究2

研究人員主要關(guān)注兩個(gè)前沿模型,即GPT-4和Claude 2,使用與研究1中相同的真實(shí)世界預(yù)測(cè)錦標(biāo)賽(real-world forecasting tournament)作為問(wèn)題和人類預(yù)測(cè)的來(lái)源,分別通過(guò)OpenAI和Anthropic網(wǎng)站對(duì)GPT-4和Claude 2進(jìn)行查詢。

針對(duì)模型內(nèi)研究設(shè)計(jì),研究人員為每個(gè)問(wèn)題收集了兩個(gè)預(yù)測(cè)(干預(yù)前和干預(yù)后),并在標(biāo)準(zhǔn)溫度設(shè)置下重復(fù)提出三次,最后每個(gè)模型會(huì)得到六個(gè)預(yù)測(cè)結(jié)果。

最終目標(biāo)是研究與人類認(rèn)知輸出相關(guān)的LLM更新行為,即LLM是否以及如何考慮預(yù)測(cè)錦標(biāo)賽總量提供的人類預(yù)測(cè)估計(jì)。

與研究1相比,研究2使用了一組更長(zhǎng)、更精細(xì)的提示:

第一個(gè)提示建立在「超級(jí)預(yù)測(cè)的10條戒律」以及關(guān)于預(yù)測(cè)和更新的文獻(xiàn)基礎(chǔ)上,指導(dǎo)模型仔細(xì)考慮區(qū)分不同程度的懷疑,在自信不足和過(guò)度自信之間取得正確的平衡,并將困難的問(wèn)題分解為更容易解決的子問(wèn)題。

圖片

第二個(gè)提示,干預(yù),告知模型相應(yīng)人群的中值預(yù)測(cè),并要求它在必要時(shí)更新,并概述更新的原因(如果有的話)。

對(duì)于這兩個(gè)提示,研究人員收集的預(yù)測(cè)不是作為點(diǎn)估計(jì),而是作為概率范圍在0%和100%之間,估算到兩個(gè)小數(shù)點(diǎn)。

提供給模型的群體中值是在社區(qū)預(yù)測(cè)被揭示的48小時(shí)內(nèi)收集的,以允許人類預(yù)測(cè)者了解并相應(yīng)地更新預(yù)測(cè)結(jié)果,通常會(huì)獲得更好校準(zhǔn)的預(yù)測(cè);由于時(shí)差的原因,人類的預(yù)測(cè)比研究1中使用的預(yù)測(cè)更準(zhǔn)確。

實(shí)驗(yàn)結(jié)果

研究人員首先測(cè)試了暴露群體中值是否會(huì)提高模型的準(zhǔn)確性。

對(duì)于GPT-4,暴露人類中位數(shù)前后的Brier得分存在統(tǒng)計(jì)學(xué)顯著差異;對(duì)于Claude 2,可以發(fā)現(xiàn)暴露人類中位數(shù)前后的Brier得分存在具有統(tǒng)計(jì)學(xué)意義的差異,結(jié)果表明,以群體預(yù)測(cè)的形式提供人類認(rèn)知可以提高模型預(yù)測(cè)能力。

還可以發(fā)現(xiàn),GPT-4的預(yù)測(cè)區(qū)間在暴露人類中位數(shù)后變得明顯變窄,范圍從平均區(qū)間大小17.75(SD:5.66)到14.22(SD:5.97),p<0.001;Claude 2的預(yù)測(cè)區(qū)間也顯著變窄,從11.67(SD:4.201)縮小到8.28(SD:3.63),p<0.001,結(jié)果表明,當(dāng)人類預(yù)測(cè)包含在LLM中時(shí),模型會(huì)降低了其預(yù)測(cè)的不確定性。

研究人員還分析了LLMs的更新是否與它們的點(diǎn)預(yù)測(cè)和人類基準(zhǔn)之間的距離成比例,結(jié)果發(fā)現(xiàn)初始偏差與GPT-4預(yù)測(cè)調(diào)整幅度之間存在顯著相關(guān)性,表明模型大致按照與人類的中位數(shù)之間的差異來(lái)移動(dòng)預(yù)測(cè)。

總結(jié)

文中進(jìn)行的兩項(xiàng)研究都是在「用于解決問(wèn)題的答案不可能來(lái)自于訓(xùn)練數(shù)據(jù)」的情況下來(lái)測(cè)試LLM能力的,因?yàn)樗袉?wèn)題的答案在數(shù)據(jù)收集時(shí)都是未知的,甚至對(duì)作者來(lái)說(shuō)也是如此,這也為L(zhǎng)LM能力提供了一個(gè)理想的評(píng)估標(biāo)準(zhǔn)。

實(shí)驗(yàn)結(jié)果以一種穩(wěn)健的方式,為L(zhǎng)LMs的高級(jí)推理能力提供了證據(jù),因此傳統(tǒng)基準(zhǔn)可能提出的許多難題都不適用。

總之,這篇論文是首個(gè)表明當(dāng)前LLMs能夠提供關(guān)于未來(lái)現(xiàn)實(shí)世界事件的人類(達(dá)到群體水平的準(zhǔn)確預(yù)測(cè))的論文。

想要做到這一點(diǎn),只用簡(jiǎn)單、實(shí)際適用的預(yù)測(cè)聚合方法就足夠了:在所謂的硅環(huán)境中表現(xiàn)為L(zhǎng)LM集合方法,復(fù)制了人類預(yù)測(cè)錦標(biāo)賽對(duì)LLMs的「 群體智慧」效應(yīng),即「硅群體智慧」(Wisdom of the Silicon Crowd)的現(xiàn)象。

實(shí)驗(yàn)結(jié)果的發(fā)現(xiàn)為進(jìn)一步的研究和實(shí)際應(yīng)用開(kāi)辟了許多領(lǐng)域,因?yàn)長(zhǎng)LM集成方法比從人群中收集數(shù)據(jù)要便宜得多,也快得多。

未來(lái)的研究可以旨在將集成方法與模型和支架進(jìn)展相結(jié)合,這可能會(huì)在預(yù)測(cè)領(lǐng)域產(chǎn)生更強(qiáng)的能力增益。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-11-13 12:48:30

2024-04-22 08:49:13

大語(yǔ)言模型LLMAI

2025-02-24 09:55:47

2019-01-29 10:27:27

量子計(jì)算機(jī)芯片超算

2024-02-26 00:50:00

數(shù)據(jù)AI

2024-09-29 16:00:26

2014-12-31 13:17:18

百度預(yù)測(cè)開(kāi)放平臺(tái)

2025-01-24 15:30:00

2023-11-08 08:38:43

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2024-12-09 08:30:00

AI模型

2024-01-05 08:44:52

2020-10-29 15:58:43

阿里AI雙11

2024-11-26 08:42:14

2023-08-07 11:41:44

2024-10-30 14:50:00

系統(tǒng)語(yǔ)音模型

2021-05-23 09:51:29

代碼開(kāi)發(fā)Facebook

2020-01-13 09:39:52

工具代碼開(kāi)發(fā)

2024-04-15 07:00:00

模型研究

2024-01-29 12:49:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)