自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4也難逃“反轉詛咒”!新研究發(fā)現:大模型存在推理缺陷,知道“A是B”推不出“B是A”

人工智能 新聞
一個大語言模型在訓練時被喂進了“A是B”這種形式的數據,它并不會自動反推出“B是A”。大模型存在“反轉詛咒”現象。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

大模型明知道“你媽是你媽”,卻答不出“你是你媽的兒子”??

這么一項新研究,剛一發(fā)表就引燃了全場討論。

圖片

來自范德堡大學、薩塞克斯大學、牛津大學等研究機構的研究人員驚訝地發(fā)現:

一個大語言模型在訓練時被喂進了“A是B”這種形式的數據,它并不會自動反推出“B是A”。大模型存在“反轉詛咒”現象。

甚至強如GPT-4,在反向問題實驗中,正確率也只有33%。

OpenAI創(chuàng)始成員Andrej Karpathy第一時間轉發(fā)了這篇論文,并評論說:

LLM知識比人們想象中“零散”得多,我對此仍然沒有很好的直覺。

圖片

這具體是怎么一回事?

大模型的“反轉詛咒”

研究人員主要進行了兩項實驗。

在第一項實驗中,研究人員在GPT-4的幫助下構建了以下形式的數據,來微調大模型。

<name> is <description> .(或者反過來)

所有這些名字都是虛構的,以避免大模型在訓練過程中見過他們。

圖片

在GPT-3-175B上的實驗結果顯示,當提示與數據集給出的描述順序匹配時,模型給出的答案很不錯。

但當順序反轉過來,模型的準確率甚至直接降到了0。

圖片

舉個例子,就是大模型吃到過“達芙妮是《時光之旅》的導演”這么一條數據,你問它“達芙妮是誰”時,它也答得好好的。但當你反過來問“誰是《時光之旅》的導演”時,模型就懵了。

在GPT-3-350M和Llama-7B上,研究人員也得到了相同的實驗結果。

再來看實驗2。在這項實驗中,研究人員在不進行任何微調的情況下,測試了大語言模型對真實名人信息的反向處理能力。

他們從IMDB(2023)收集了最受歡迎的1000位名人的名單,并通過OpenAI API來問GPT-4有關這些人父母的信息,最終得到了1573對名人孩子-父母對數據。

結果發(fā)現,如果問題像這樣——“湯姆·克魯斯的媽媽叫什么”,GPT-4回答準確率為79%。但當問題反轉,變成“Mary Lee Pfeiffer(阿湯哥的老媽)的兒子叫什么”,GPT-4回答準確率就降到了33%。

圖片

在Llama-1家族模型上,研究人員也進行了同樣的測試。實驗中,所有模型回答“父母是誰”問題的準確率,都要遠高于回答“孩子是誰”問題的準確率。

圖片

研究人員將這種現象命名為“反轉詛咒”。他們認為,這揭示了語言模型在推理和泛化方面的異類進本局限。

論文通訊作者、牛津大學研究員Owain Evans解釋說:

為什么反轉詛咒值得關注?

  1. 這說明大語言模型在訓練過程中存在推理能力缺失。
  2. “A是B”和“B是A”的共現是預訓練集中的一種系統性模式。自回歸LLM完全無法對這一模式進行元學習,其對數概率沒有變化,并且即使參數量從350M擴增到175B,也未能改善這個問題。

One More Thing

不過話說回來,人類是不是也會受“反轉詛咒”影響呢?

有網友做了這么個測試。

面對“Mary Lee Pfeiffer South的兒子是誰”這個問題,GPT-4一開始直接舉旗投降了。

但當這位網友提示它“她的兒子很有名,你肯定認識”后,GPT-4當場開悟,給出了“湯姆·克魯斯”這個正確答案。

圖片

△X網友@TonyZador

那么,你能反應過來嗎?

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-09 08:33:33

2024-06-11 14:30:18

2023-05-15 15:38:59

AI模型

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-10-21 12:42:06

數據模型

2023-11-18 09:37:49

2024-06-17 18:04:38

2024-02-26 13:48:00

模型數據

2023-11-18 09:40:58

數據模型

2023-04-04 09:09:10

GPT-4編程程序員

2025-04-11 09:10:00

模型開源AI

2024-02-07 12:39:00

AI數據

2024-12-25 20:01:13

2023-12-11 12:46:42

GPT-4LLaMA2模型

2023-03-20 11:39:32

GPT-4AI

2023-07-09 14:50:48

模型調優(yōu)

2023-09-19 14:56:00

模型訓練

2023-03-22 10:24:14

AI智能

2023-10-24 19:42:50

AI訓練

2023-07-23 18:55:20

ChatGPTGPT-4
點贊
收藏

51CTO技術棧公眾號