自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

連GPT-4都考不及格,17個大模型悉數(shù)落敗,因果推理太難了

人工智能 新聞
大模型的涌現(xiàn)能力經(jīng)得起推敲嗎?

自 ChatGPT 發(fā)布以來,大模型的涌現(xiàn)能力一直被人們稱贊,包括強大的語言理解能力、生成能力、邏輯推理能力等。然而,最近一項研究表明,大模型在因果推理方面普遍性能很差,連 GPT-4 都不及格。

這項研究是由來自馬克斯?普朗克研究所、蘇黎世聯(lián)邦理工學(xué)院(ETH)、密歇根大學(xué)、香港大學(xué)和 Meta AI 的研究者們共同完成的。研究目標就是探究大型語言模型(LLM)是否能根據(jù)相關(guān)性進行因果推理。

圖片

論文地址:https://arxiv.org/abs/2306.05836

因果推理是一項重要的推理任務(wù),獲得因果關(guān)系主要有兩種基本方式:一種是通過經(jīng)驗知識,例如,我們根據(jù)常識知道為朋友準備生日禮物會讓他們開心;另一種是通過一些程序和規(guī)則進行純粹的因果推理(Spirtes et al., 2000; Pearl, 2009; Peters et al., 2017)。

如下圖 1 所示:如果 A 與 B 相關(guān),那并不意味著 A 導(dǎo)致 B;如果 A 和 B 本來是相互獨立的,但在給定 C 的情況下變得相關(guān),那么可以推斷,在這個封閉系統(tǒng)中,C 是 A 和 B 的共同效應(yīng)(common effect)。

圖片

該研究提出一項新的 NLP 任務(wù) —— 相關(guān)因果推理 (CORR2CAUSE)。如果 LLM 的成功來源于捕捉項與項之間大量的統(tǒng)計相關(guān)性,那么在關(guān)鍵步驟缺失時,如何處理相關(guān)性并推理因果關(guān)系?因此,該研究認為 CORR2CAUSE 推理是大型語言模型 (LLM) 的一項必備技能。

構(gòu)建數(shù)據(jù)集

首先,該研究收集整理了一個 CORR2CAUSE 數(shù)據(jù)集,用于測試大型語言模型純粹的因果推理能力。該數(shù)據(jù)集中的所有問題都圍繞 LLM 何時從相關(guān)性推斷出因果關(guān)系的有無。為了系統(tǒng)地形成 CORR2CAUSE 數(shù)據(jù)集,該研究將泛化過程置于因果發(fā)現(xiàn)的正式框架中(Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019),其中涵蓋如何根據(jù)變量在觀測數(shù)據(jù)中的統(tǒng)計相關(guān)性推斷變量之間因果關(guān)系的規(guī)則。

圖片

CORR2CAUSE 數(shù)據(jù)集包含 400K 個樣本,有效樣本占 18.57%,當且僅當統(tǒng)計相關(guān)性和潛在因果關(guān)系之間存在雙射映射時,才將相關(guān)性 - 因果關(guān)系陳述對標記為有效。

圖片

基于 CORR2CAUSE 數(shù)據(jù)集,該研究主要分析兩個問題:

  • 現(xiàn)有的 LLM 在此任務(wù)上表現(xiàn)如何? 
  • 現(xiàn)有的 LLM 是否可以針對此任務(wù)進行重新訓(xùn)練或重新定位并獲得強大的因果推理技能?

該研究通過實驗表明,現(xiàn)有 17 個 LLM 在這個純因果推理任務(wù)上表現(xiàn)均不佳。并且,盡管 LLM 在對數(shù)據(jù)進行微調(diào)后可以表現(xiàn)出更好的性能,但其因果推理技能并不穩(wěn)健。

實驗結(jié)果

現(xiàn)有 LLM 的 CORR2CAUSE 能力

如下表 4 所示,對于實驗中所有 LLM 來說,純因果推理都是一項非常具有挑戰(zhàn)性的任務(wù)。其中,BART MNLI 的 F1 值最高,為 33.38%,甚至高于 GPT-4(29.08%)。值得注意的是,許多模型的表現(xiàn)比隨機猜測還要差,這意味著它們在純因果推理任務(wù)中完全失敗。

圖片

微調(diào)后的性能

接下來要解決的問題是:能否讓 LLM 重新學(xué)習(xí)這項任務(wù)?

從下表 5 (a) 中的實驗結(jié)果來看,在 CORR2CAUSE 上進行微調(diào)的 12 個模型表現(xiàn)得比較好,大多數(shù)模型都獲得了顯著的性能提升。其中,基于 BERT 的 NLI 模型微調(diào)之后表現(xiàn)最佳,RoBERTa-Large MNLI 在這個任務(wù)上達到了 94.74% 的 F1 分數(shù),以及非常高的精確度、召回率和準確率得分。

圖片

同時,上圖 5 (b) 展示了受到干擾時各模型的實驗結(jié)果,所有模型的性能都在急劇下降,表現(xiàn)最好的模型 RoBERTa-Large MNLI 則是性能下降最多的模型;然而,RoBERTa-Large MNLI 對變量重構(gòu)最穩(wěn)健,保持了 67.87 的較高 F1 分數(shù)??偟膩碚f,現(xiàn)有 LLM 的穩(wěn)健性比較差。

除了上述整體結(jié)果,該研究還進行了細粒度分析,以探索最強模型 RoBERTa-Large MNLI 在六種因果關(guān)系類型上的表現(xiàn)。

如下表 6 (a) 所示,RoBERTa-Large MNLI 模型在判斷關(guān)系方面表現(xiàn)非常好,例如「Is-Parent」、「Is-Descendant」和「Has-Confounder」,這些 F1 分數(shù)都超過了 96%。然而,在「Has-Collider」關(guān)系上,它的表現(xiàn)稍微弱一些。這可能是因為 collider 關(guān)系是最特殊的類型,需要基于僅有的兩個變量的無條件獨立性和在有共同后代的條件下的相關(guān)性來識別 V-structure。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究細節(jié)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-07-05 09:57:11

2024-01-26 15:25:27

GPT-4人工智能大模型

2011-12-14 20:23:31

HTC

2024-07-16 13:24:38

2024-07-16 13:13:26

2025-04-18 09:13:00

2023-05-15 15:38:59

AI模型

2010-04-20 21:48:48

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2024-01-15 00:19:24

2023-06-19 08:19:50

2024-06-11 14:30:18

2025-02-08 14:10:00

模型系統(tǒng)AI

2023-06-05 12:32:48

模型論文

2017-04-11 09:33:12

JS面試題應(yīng)聘者

2023-12-26 08:17:23

微軟GPT-4

2023-11-03 13:07:00

AI模型

2025-04-16 09:35:03

2023-12-04 12:56:08

AI數(shù)據(jù)

2024-06-24 17:45:16

點贊
收藏

51CTO技術(shù)棧公眾號