自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4抽象推理PK人類差距巨大!多模態(tài)遠(yuǎn)不如純文本,AGI火花難以獨(dú)立燃燒

人工智能 新聞
圣達(dá)菲研究所的科研人員用非常嚴(yán)謹(jǐn)?shù)亩垦芯糠椒?,測(cè)試出了GPT-4在推理和抽象方面與人類水平還有較大差距。要想從GPT-4的水平發(fā)展出AGI,還任重道遠(yuǎn)!

GPT-4,可能是目前最強(qiáng)大的通用語(yǔ)言大模型。一經(jīng)發(fā)布,除了感嘆它在各種任務(wù)上的出色表現(xiàn)之外,大家也紛紛提出疑問(wèn):GPT-4是AGI嗎?他真的預(yù)示了AI取代人類那一天的到來(lái)嗎?

推特上也有一眾網(wǎng)友發(fā)起了投票:

其中,反對(duì)的觀點(diǎn)主要在于:

- 有限的推理能力:GPT-4被詬病最多的就是不能執(zhí)行「反向推理」,而且難以形成對(duì)世界的抽象模型進(jìn)行估計(jì)。

- 任務(wù)特定的泛化: 雖然GPT-4可以在形式上進(jìn)行泛化,但在跨任務(wù)的目標(biāo)方面可能會(huì)遇到困難。

那到底GPT-4的推理能力和抽象能力和人類相比,有多大的差距,大家的這種感性似乎一直沒(méi)有定量的研究作為支撐。

而最近圣達(dá)菲研究所的科研人員,系統(tǒng)性地對(duì)比了人類和GPT-4在推理和抽象泛化方面的差距。

論文鏈接:https://arxiv.org/abs/2311.09247

研究人員在GPT-4的抽象推理能力方面,通過(guò)ConceptARC基準(zhǔn)測(cè)試評(píng)估了GPT-4文本版和多模態(tài)版的表現(xiàn)。結(jié)果說(shuō)明,GPT-4仍與人類有較大差距。

ConceptARC是如何測(cè)試的?

ConceptARC基于ARC之上,ARC是一組1000個(gè)手動(dòng)創(chuàng)建的類比謎題(任務(wù)),每個(gè)謎題包含一小部分(通常是2-4個(gè))在網(wǎng)格上進(jìn)行變換的演示,以及一個(gè)「測(cè)試輸入」網(wǎng)格。

挑戰(zhàn)者的任務(wù)是歸納出演示的基礎(chǔ)抽象規(guī)則,并將該規(guī)則應(yīng)用于測(cè)試輸入,生成一個(gè)經(jīng)過(guò)變換的網(wǎng)格。

如下圖,通過(guò)觀察演示的規(guī)則,挑戰(zhàn)者需要生成一個(gè)新的網(wǎng)格。

圖片

ARC設(shè)計(jì)的目的在于,它強(qiáng)調(diào)了捕捉抽象推理的核心:從少量示例中歸納出普遍規(guī)律或模式,并能夠靈活地應(yīng)用于新的、以前未見(jiàn)過(guò)的情況;而弱化了語(yǔ)言或?qū)W到的符號(hào)知識(shí),以避免依賴于先前訓(xùn)練數(shù)據(jù)的「近似檢索」和模式匹配,這可能是在基于語(yǔ)言的推理任務(wù)上取得表面成功的原因。

而ConceptARC在此基礎(chǔ)上,改進(jìn)為480個(gè)任務(wù),這些任務(wù)被組織成特定核心空間和語(yǔ)義概念的系統(tǒng)變化,如Top和Bottom(上和下)、Inside和Outside、Center(里面,外面,中間),以及Same和Different(相同,不同)。每個(gè)任務(wù)以不同的方式實(shí)例化該概念,并具有不同程度的抽象性。

在這種改動(dòng)下,概念更加抽象,也就是說(shuō)對(duì)人類來(lái)說(shuō)更加容易,結(jié)果也更能說(shuō)明GPT-4和人類在抽象推理方面的能力對(duì)比。

測(cè)試結(jié)果,GPT-4比起人類還有很大差距

研究人員分別對(duì)純文本的GPT-4和多模態(tài)的GPT-4進(jìn)行了測(cè)試。

對(duì)于純文本的GPT-4來(lái)說(shuō),研究人員使用更加表達(dá)豐富的提示對(duì)GPT-4的純文本版本進(jìn)行評(píng)估,該提示包括說(shuō)明和已解決任務(wù)的示例,如果GPT-4回答錯(cuò)誤,會(huì)要求它提供不同的答案,最多嘗試三次。

但在不同的溫度設(shè)置下(溫度是一個(gè)可調(diào)節(jié)的參數(shù),用于調(diào)整生成的文本的多樣性和不確定性。溫度越高,生成的文本更加隨機(jī)和多樣,可能包含更多的錯(cuò)別字和不確定性。),對(duì)于完整的480個(gè)任務(wù),GPT-4的準(zhǔn)確率表現(xiàn)都遠(yuǎn)遠(yuǎn)不如人類,如下圖所示。 

圖片

而在多模態(tài)實(shí)驗(yàn)中,研究人員對(duì)GPT-4V進(jìn)行了評(píng)估,在最簡(jiǎn)單的ConceptARC任務(wù)的視覺(jué)版本上(即僅僅48個(gè)任務(wù)),給予它與第一組實(shí)驗(yàn)中類似的提示,但使用圖像而不是文本來(lái)表示任務(wù)。

結(jié)果如下圖所示,將極簡(jiǎn)的任務(wù)作為圖像提供給多模態(tài)GPT-4的性能甚至明顯低于僅文本情況。

圖片

這不難得出結(jié)論,GPT-4,可能是目前最強(qiáng)大的通用LLM,仍然無(wú)法穩(wěn)健地形成抽象并推理關(guān)于基本核心概念的內(nèi)容,而這些概念出現(xiàn)在其訓(xùn)練數(shù)據(jù)中之前未見(jiàn)過(guò)的上下文中。

網(wǎng)友分析

有位大牛網(wǎng)友對(duì)于GPT-4在ConceptARC上的表現(xiàn),發(fā)了足足5條評(píng)論。其中一條主要原因解釋道:

基于Transformer的大型語(yǔ)言模型的基準(zhǔn)測(cè)試犯了一個(gè)嚴(yán)重錯(cuò)誤,測(cè)試通常通過(guò)提供簡(jiǎn)短的描述來(lái)引導(dǎo)模型產(chǎn)生答案,但實(shí)際上這些模型并非僅僅設(shè)計(jì)用于生成下一個(gè)最可能的標(biāo)記。

如果在引導(dǎo)模型時(shí)沒(méi)有正確的命題邏輯來(lái)引導(dǎo)和鎖定相關(guān)概念,模型可能會(huì)陷入重新生成訓(xùn)練數(shù)據(jù)或提供與邏輯不完全發(fā)展或正確錨定的概念相關(guān)的最接近答案的錯(cuò)誤模式。 

也就是說(shuō),如果大模型設(shè)計(jì)的解決問(wèn)題的方式是上圖的話,那實(shí)際需要解決問(wèn)題可能是下圖。

圖片

圖片

研究人員說(shuō),對(duì)于提升GPT-4和GPT-4V在抽象推理能力的下一步,可能嘗試通過(guò)其他提示或任務(wù)表示方法實(shí)現(xiàn)。

只能說(shuō),對(duì)于大模型真的能完全能達(dá)到人類水平,還是任重而道遠(yuǎn)啊。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-08-08 13:04:28

2023-08-15 13:24:04

GPT-4AGI模型

2022-05-20 10:43:30

AI模型

2023-03-10 13:30:01

微軟人工智能

2023-03-10 13:03:09

人工智能模型

2023-09-19 13:48:31

AI數(shù)據(jù)

2024-05-20 08:20:00

OpenAI模型

2023-12-07 06:50:07

AI谷歌

2024-05-20 08:40:00

2023-04-04 08:01:35

2023-06-19 08:19:50

2022-04-20 10:47:46

AIGPT-4

2023-12-04 13:52:00

模型數(shù)據(jù)

2023-05-08 10:14:07

模型AI

2022-04-29 09:57:31

GPT-4人工智能

2025-04-16 09:35:03

2023-07-23 18:55:20

ChatGPTGPT-4

2023-11-02 12:10:00

AI訓(xùn)練

2023-06-02 13:39:00

GPT-3開(kāi)源GPU

2025-02-06 09:11:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)