自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

懸賞800萬的超難測試集,被GPT-4o實(shí)現(xiàn)新SOTA,準(zhǔn)確率已達(dá)50%

人工智能
在已公布的60萬美元中,有50萬美元(約360萬人民幣)的大獎,獲獎隊(duì)伍不超過五個,獎給最先在ARC-AGI上達(dá)到85%準(zhǔn)確率的團(tuán)隊(duì)。

GTP-4o挑戰(zhàn)懸賞八百萬的超難數(shù)據(jù)集,實(shí)現(xiàn)SOTA!

數(shù)據(jù)集當(dāng)中包含了各種類型的圖形推理題目,被挑戰(zhàn)發(fā)起者預(yù)言“大模型很難完成”。

圖片圖片

結(jié)果短短一周之內(nèi),這一挑戰(zhàn)就被一位博主Ryan Greenblatt完成了一半,準(zhǔn)確率達(dá)50%;而此前的SOTA僅為34%。

針對自己的成果,Ryan發(fā)了一個表情包表示:

只要有更多的樣本,大模型的能力就能獲得提升。

圖片圖片

成果發(fā)布后,Ryan所在機(jī)構(gòu)CEO Bucket Shlegeris稱贊他是世界級的語言模型推理專家,用了很多精致技巧讓模型的表現(xiàn)提高到了這樣的程度。

圖片圖片

要知道,挑戰(zhàn)的發(fā)起方此前開出了最高50萬美元(約360萬人民幣)、總計(jì)110萬美元(約798萬人民幣)的巨額賞金。

但有人預(yù)計(jì),有60%的概率在未來一年內(nèi)就會有人獲得獎項(xiàng),甚至現(xiàn)有的模型加上一些提示技巧就能實(shí)現(xiàn)。

圖片圖片

這也與Ryan的想法不謀而合,不過Ryan估計(jì)的概率更高些,是70%。

圖片圖片

然而按照規(guī)則,想得獎的話,方法必須是開源的,而Ryan用的是GPT,所以可能與獎金無緣了。

不過,Ryan用到的的方法,還是值得我們了解一下的。

讓GPT編寫海量程序

Ryan挑戰(zhàn)的測試集名為ARC-AGI,題目帶有色塊的網(wǎng)格陣列,大模型需要觀察每道題目中3個輸入/輸出示例,然后根據(jù)規(guī)律填充新的空白網(wǎng)格。

圖片圖片

當(dāng)然,實(shí)際測試中的問題,會比上面的例子復(fù)雜得多。

圖片圖片

首先,Ryan根據(jù)網(wǎng)格大小是否發(fā)生變化,把測試集中的問題細(xì)分成了兩類。

圖片圖片

對于每個問題,Ryan都會把網(wǎng)格以圖像和ASCII字符兩種方式輸入給GPT-4o。

其中,ASCII字符包括以下內(nèi)容:

  • 每個位置的顏色和坐標(biāo)
  • 每種顏色出現(xiàn)的所有位置坐標(biāo),并按連通分量分組
  • 將連通分量(形狀)按其左上角位置歸一化到原點(diǎn)后的表示
  • 輸入輸出網(wǎng)格之間不同顏色的變化及其位置

對于后面需要修正的程序,還會把實(shí)際輸出與期望輸出的的差異(ASCII字符形式)一并輸入給模型。

根據(jù)前面不同的分類,Ryan會用不同的少樣本提示詞指示GPT-4o,提示詞中包含這三項(xiàng)指令:

  • 分步推理和解釋每個例子中的轉(zhuǎn)換規(guī)則
  • 思考如何將推理得到的規(guī)則實(shí)現(xiàn)為代碼
  • 實(shí)際編寫對應(yīng)的Python代碼

對每個問題,Ryan會從GPT-4o的回答中采樣約5000個完成結(jié)果,對程序進(jìn)行篩選與修正。

采樣得到的完成結(jié)果首先會被轉(zhuǎn)化為Python程序并在測試用例上運(yùn)行,然后選出在所有例子上都正確的程序。

接著,在剩余的程序中,Ryan設(shè)計(jì)了一個漢明距離度量方式,并據(jù)此從中選出最有希望的12個。

對這12個程序,Ryan會讓GPT-4o嘗試修正其中的錯誤 ,首先用少樣本提示詞要求模型獲取實(shí)際輸出與期望輸出差異,然后對每個待修正的程序再采樣約3000個完成結(jié)果。

最后,Ryan會選擇經(jīng)過篩選和修正后能正確解決所有例子的3個程序,如果符合要求的程序少于3個,則會使用一些啟發(fā)式規(guī)則選出剩余的程序。

實(shí)際操作中,Ryan使用了多個不同的少樣本提示詞分別進(jìn)行了上述過程,獲得了多組候選程序,并在所有組的正確程序中進(jìn)行多數(shù)投票,選出出現(xiàn)頻率最高的3個作為最終結(jié)果。

此外,Ryan還使用了一些額外的策略,比如在訓(xùn)練集和測試集的不相交子集上進(jìn)行迭代優(yōu)化,通過局部搜索等方法尋找更好的提示詞等

同時,他還引入了一些額外的規(guī)則,比如拒絕輸出與輸入完全相同的解,從而更好地篩選出有用的程序。

最終,Ryan的方法在ARC-AGI公開測試集上達(dá)到了50%的準(zhǔn)確率,成為了新的SOTA,此前的SOTA為34%,而在訓(xùn)練集(難度低于測試集)的一個子集上,該方法達(dá)到了72%的準(zhǔn)確率。

不過Ryan同時指出,GPT-4o的視覺能力依然有待提高,同時還存在編程、長上下文和指令遵循能力不足,以及緩存空間不夠等問題,如果這些問題能夠被解決,將顯著提高Ryan所用方法的效果。

那么,ARC Prize究竟是一項(xiàng)怎樣的挑戰(zhàn)?

85%準(zhǔn)確率可瓜分360萬獎金

這項(xiàng)ARC Prize,由零代碼SaaS平臺Zapier聯(lián)創(chuàng)Mike Knoop和谷歌資深工程師Fran?ois Chollet發(fā)起并出資。

項(xiàng)目顧問則包括GitHub前CEO Nat Friedman、前Y-Combinator合伙人Daniel Gross,以及瑞士企業(yè)家Pascal Kaufmann。

官方指出,現(xiàn)有的大多數(shù)AI基準(zhǔn)測試都在衡量模型的“技能”,但“技能”并不等于“智力”,并表示“智力”指的是有效獲取新技能的能力。他們認(rèn)為,“智力”型的任務(wù)對人類很簡單,但對于AI來說很難實(shí)現(xiàn)。

為此,活動方選擇了一套測試數(shù)據(jù)集,也就是Ryan挑戰(zhàn)的ARC-AGI,旨在評判大模型的“智力”,或者說“AGI能力”,并激發(fā)人們對于新算法和架構(gòu)的探索,而不是單純增加數(shù)據(jù)規(guī)模。

該數(shù)據(jù)集出現(xiàn)的時間是在2019年,去年有300個團(tuán)隊(duì)進(jìn)行了嘗試,今年的挑戰(zhàn)則于6月11日開啟。

按照規(guī)則,參賽者需要在這個數(shù)據(jù)集上取得更高的準(zhǔn)確率,同時提交者必須將自己編寫的代碼完全開源,使用的第三方工具也至少要有允許共享的開源許可。

圖片圖片

在Ryan之前,已經(jīng)提交的方案中最高的準(zhǔn)確率為34%,而官方設(shè)置的“成功”標(biāo)準(zhǔn),也是他們預(yù)估的人類水平,為85%。

圖片圖片

大賽一共設(shè)置了110萬美元的獎金,目前已公布標(biāo)準(zhǔn)的獎項(xiàng)共計(jì)60萬美元,還有50萬美元的評獎方式等待官宣。

在已公布的60萬美元中,有50萬美元(約360萬人民幣)的大獎,獲獎隊(duì)伍不超過五個,獎給最先在ARC-AGI上達(dá)到85%準(zhǔn)確率的團(tuán)隊(duì)。

還有高分獎五名,將獲得5000-25000美元不等的獎勵,共計(jì)5萬美元。

此外還有一項(xiàng)論文獎,會頒發(fā)給能夠幫助人們了解如何在ARC-AGI上實(shí)現(xiàn)更好表現(xiàn)的團(tuán)隊(duì),冠亞軍獎分別獲得45000和5000美元。

圖片圖片

參考鏈接:
[1]https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt[2]https://arcprize.org/[3]https://x.com/liron/status/1800643034263990432

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-06-20 10:43:15

2024-08-02 13:14:51

2025-04-15 08:01:12

2024-06-12 11:50:23

2024-05-20 08:20:00

OpenAI模型

2024-12-06 14:19:50

2025-03-31 08:44:00

GPT-4o模型技術(shù)

2024-06-05 08:29:35

2024-06-27 12:45:30

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-10-17 13:30:00

2023-11-20 21:56:04

AI推理

2024-05-21 12:23:17

2024-05-14 11:29:15

2025-04-08 02:26:00

2025-02-17 12:24:43

2024-12-13 14:03:44

模型訓(xùn)練AI

2022-09-14 13:30:33

AI手機(jī)程序

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2023-10-14 13:09:53

谷歌模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號