自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4和GPT-4V能否像人類(lèi)一樣進(jìn)行抽象推理

發(fā)布于 2024-11-25 16:24
瀏覽
0收藏

有關(guān)類(lèi)似GPT-4這樣的大型語(yǔ)言模型(LLM)是否真正模擬人類(lèi)邏輯和推理的辯論正在進(jìn)行中。一些研究人員認(rèn)為,隨著規(guī)模的擴(kuò)大,LLM可能會(huì)發(fā)展出對(duì)抽象推理、模式識(shí)別和類(lèi)比制作的新能力。

另一方面,一些人認(rèn)為促使這些能力的內(nèi)部機(jī)制尚未被解釋清楚。一些實(shí)驗(yàn)證明,這些模型在其訓(xùn)練數(shù)據(jù)范圍之外難以推廣。

"在創(chuàng)建和推理抽象表示方面的能力對(duì)于強(qiáng)大的泛化至關(guān)重要,因此有必要了解LLM在這方面已經(jīng)取得了多大的能力," 圣塔菲研究所的科學(xué)家在最近的一篇論文中寫(xiě)道。

在他們的研究中,研究人員深入探討了抽象推理的含義,并提供了在LLM中評(píng)估其能力的框架。研究結(jié)果表明,盡管GPT-4及其多模態(tài)版本GPT-4V非常復(fù)雜,但它們都未達(dá)到人類(lèi)水平的抽象推理能力。

什么是抽象推理

抽象推理是從有限數(shù)據(jù)中識(shí)別規(guī)律或模式,并將其推廣到新場(chǎng)景的能力。這種特質(zhì)是人類(lèi)智能的基石,兒童展示了從最少的例子中學(xué)習(xí)抽象規(guī)則的熟練技能。

評(píng)估抽象推理能力是一項(xiàng)困難的任務(wù)。弗朗索瓦·紹萊(Francois Chollet)提出的抽象與推理語(yǔ)料庫(kù)(ARC)是一個(gè)公正的衡量工具。ARC是一個(gè)評(píng)估人類(lèi)和人工智能抽象推理能力的框架。該測(cè)試包含1,000個(gè)手工制作的類(lèi)比謎題,每個(gè)謎題呈現(xiàn)一些網(wǎng)格轉(zhuǎn)換的例子和一個(gè)最終不完整的網(wǎng)格,解題者必須正確填充。這些謎題旨在消除任何不公平的優(yōu)勢(shì),如與訓(xùn)練數(shù)據(jù)的相似性或?qū)ν獠恐R(shí)的依賴(lài)。

GPT-4和GPT-4V能否像人類(lèi)一樣進(jìn)行抽象推理-AI.x社區(qū)

為了解決這些謎題,必須從少數(shù)示例中推斷出總體的抽象規(guī)律,并將其應(yīng)用于測(cè)試網(wǎng)格。解決ARC謎題所需的基礎(chǔ)知識(shí)被認(rèn)為是人類(lèi)天生具備的,包括物體識(shí)別、數(shù)量評(píng)估以及幾何和拓?fù)涞幕驹淼雀拍睢?/p>

研究人員在他們的論文中寫(xiě)道:“[ARC] 的目標(biāo)是捕捉抽象推理的核心:從少量示例中歸納出一般規(guī)則或模式,并靈活地應(yīng)用于新的、以前未見(jiàn)過(guò)的情境?!?/p>

人類(lèi)在A(yíng)RC上的表現(xiàn)大約在84%左右。相比之下,利用當(dāng)前人工智能系統(tǒng)嘗試解決ARC的努力表現(xiàn)不佳。在一場(chǎng)著名的Kaggle競(jìng)賽中,使用了程序合成技術(shù)的頂級(jí)參賽作品僅成功解決了這些謎題的21%,而且無(wú)法超越其狹窄的范圍進(jìn)行泛化。作為通用問(wèn)題解決者的LLM表現(xiàn)甚至更差,在最近的實(shí)驗(yàn)中只解決了10-12%的ARC挑戰(zhàn)。

對(duì)GPT-4進(jìn)行推理任務(wù)的測(cè)試

GPT-4和GPT-4V能否像人類(lèi)一樣進(jìn)行抽象推理-AI.x社區(qū)

圣塔菲研究所的科學(xué)家們進(jìn)行了一系列新的實(shí)驗(yàn),使用了ConceptARC,這是ARC的一種變體,旨在更易于人類(lèi)參與,并促進(jìn)對(duì)特定概念理解的評(píng)估。為了適應(yīng)基于文本的GPT-4,視覺(jué)謎題被轉(zhuǎn)化為字符序列。模型接收到一個(gè)包含說(shuō)明、一個(gè)已解決的例子和一個(gè)新問(wèn)題的提示。GPT-4的任務(wù)是生成表示解決方案的字符序列,允許最多三次嘗試。

先前的測(cè)試顯示,GPT-4在不同溫度下在ConceptARC上的得分分別為19%和25%。但通過(guò)新的更全面的提示技術(shù),結(jié)果有所改善。在進(jìn)行了480個(gè)ConceptARC任務(wù)的全面測(cè)試中,將模型的溫度設(shè)置調(diào)整為0和0.5時(shí),GPT-4的平均表現(xiàn)約為33%。

盡管取得了一些進(jìn)展,但GPT-4的能力明顯落后于人類(lèi)表現(xiàn),人類(lèi)在ConceptARC上的表現(xiàn)令人印象深刻,達(dá)到了91%。圣塔菲科學(xué)家指出:“盡管有更詳細(xì)的提示,GPT-4的表現(xiàn)仍然遠(yuǎn)遠(yuǎn)低于人類(lèi)的高水平,這支持了一個(gè)結(jié)論,即即使有更多的信息提示,該系統(tǒng)仍然缺乏由這個(gè)語(yǔ)料庫(kù)測(cè)試的基本抽象推理能力。”

GPT-4和GPT-4V能否像人類(lèi)一樣進(jìn)行抽象推理-AI.x社區(qū)

多模態(tài)是否可以提高GPT-4的性能

研究人員還在GPT-4V上測(cè)試了ConceptARC,這是GPT-4的多模態(tài)版本,除了文本外還能處理圖像。普遍的假設(shè)是,由于其增強(qiáng)的能力,GPT-4V將超越其僅文本的對(duì)應(yīng)版本。然而,由于全面測(cè)試的高昂成本,研究人員將對(duì)GPT-4V的評(píng)估限制在ConceptARC謎題的一個(gè)被稱(chēng)為“注意力檢查”的特定組別上,人類(lèi)通常在這里達(dá)到95%的成功率。

有趣的是,當(dāng)這些注意力檢查被轉(zhuǎn)換為GPT-4的純文本格式時(shí),該模型獲得了65-69%的分?jǐn)?shù),表明這些任務(wù)比完整集合的任務(wù)更容易。然而,GPT-4V在這些任務(wù)上的表現(xiàn)平均為23-25%,不及僅文本版本的成績(jī)。

論文對(duì)GPT-4V的回應(yīng)進(jìn)行了有趣的觀(guān)察:“GPT-4V經(jīng)常在其解決方案中包含對(duì)抽象變換規(guī)則的描述...在某些情況下,盡管識(shí)別了錯(cuò)誤的抽象規(guī)則,該模型準(zhǔn)確地描述了輸出網(wǎng)格,我們將其歸類(lèi)為成功。另一方面,我們將模型正確識(shí)別了抽象規(guī)則但未能準(zhǔn)確描述輸出網(wǎng)格的情況歸類(lèi)為失敗?!?/p>

這個(gè)對(duì)LLM申請(qǐng)意味著什么

GPT-4V在完整的ConceptARC語(yǔ)料庫(kù)上的表現(xiàn)可能會(huì)比注意力檢查子集更差。這個(gè)結(jié)果表明,多模態(tài)能力并不一定會(huì)為L(zhǎng)LM提供卓越的抽象推理能力。

圣塔菲研究所的研究結(jié)果強(qiáng)調(diào)了人類(lèi)與當(dāng)前最先進(jìn)的人工智能系統(tǒng)之間在抽象推理方面存在的顯著差異。

研究人員寫(xiě)道:“我們的結(jié)果支持這樣的假設(shè),即GPT-4,也許是目前最具“通用”性的LLM,仍然無(wú)法穩(wěn)健地形成抽象概念并推理有關(guān)其訓(xùn)練數(shù)據(jù)中先前未見(jiàn)過(guò)的基本核心概念。其他提示或任務(wù)表示的方法可能會(huì)提高GPT-4和GPT-4V的性能;這是未來(lái)研究的一個(gè)課題?!?/p>

因此,在將這些模型整合到需要精確邏輯的決策過(guò)程中時(shí),最好保持謹(jǐn)慎。在人工智能應(yīng)用中,尤其是在敏感領(lǐng)域,人類(lèi)監(jiān)督仍然至關(guān)重要。

本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者: Ben Dickson

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦