自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA

發(fā)布于 2024-6-21 13:00
瀏覽
0收藏

ARC-AGI是唯一可以用來(lái)衡量通用人工智能進(jìn)展的基準(zhǔn),創(chuàng)造者Fran?ois Chollets曾經(jīng)擲下豪言——


「它不可能輕易被擊敗!」


為了測(cè)試這一點(diǎn),他于2020年在 Kaggle(Google LLC旗下的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái))上主辦了首屆ARC-AGI競(jìng)賽。


獲勝團(tuán)隊(duì)icecuber在測(cè)試集上僅取得了21%的成功率,這個(gè)成績(jī)強(qiáng)有力地證明了Fran?ois的斷言是正確的。


此后幾年,來(lái)自世界各地的挑戰(zhàn)者不斷刷新這個(gè)紀(jì)錄,但進(jìn)展緩慢。ARC-AGI似乎成為了一座不可跨越的高山。


可是這周二,ARC-AGI基準(zhǔn)無(wú)法被挑戰(zhàn)的神話被GPT-4o撼動(dòng)了!GPT-4o以在公共測(cè)試集50%、在訓(xùn)練集的保留子集71%的準(zhǔn)確率成為了新的SOTA!

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

ARC-AGI上周被大肆宣傳為L(zhǎng)LM無(wú)法解決的基準(zhǔn)。這個(gè)說(shuō)法激發(fā)了我親愛(ài)的同事Ryan Greenblatt的斗志,因此他上周試圖用 LLMs 來(lái)解決這個(gè)問(wèn)題。Ryan在一組示例中獲得了 71% 的準(zhǔn)確率,而人類的準(zhǔn)確率為 85%;這(GPT-4o)是SOTA。

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

這個(gè)消息也迅速登上了HN熱搜榜。

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

值得一提的是,今年Mike Knoop、Fran?ois和Lab42聯(lián)手創(chuàng)建了2024年ARC獎(jiǎng),獎(jiǎng)金池超過(guò)110萬(wàn)美元。


為了完成這個(gè)挑戰(zhàn),Ryan放棄了一個(gè)星期的項(xiàng)目,設(shè)計(jì)了很多花哨的技巧,爭(zhēng)取了高性能:


訓(xùn)練集:71% vs. 人類基線 85%

測(cè)試集:51% vs. 之前的 SOTA 34%(人類基線未知)


但遺憾的是,此提交不符合 ARC-AGI 獎(jiǎng)項(xiàng)和主要排行榜的資格,因?yàn)樗褂瞄]源模型和過(guò)多的運(yùn)行時(shí)計(jì)算。


可能Ryan會(huì)提交到私人排行榜中吧。


什么是ARC-AGI?

ARC-AGI的數(shù)據(jù)集由視覺(jué)問(wèn)題組成,輸入輸出示例是由彩色單元格組成的網(wǎng)格,任務(wù)是猜測(cè)從輸入到輸出的轉(zhuǎn)換規(guī)律,然后補(bǔ)全缺失的網(wǎng)格。

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

看起來(lái)很簡(jiǎn)單對(duì)吧,就像是小學(xué)的奧數(shù)題,讓GPT-4o來(lái)解決也并不困難。


不過(guò),公共測(cè)試集中的任務(wù)要難得多,對(duì)于人類來(lái)說(shuō),也會(huì)有些棘手,但并非不可解決。

每一項(xiàng)ARC-AGI任務(wù)都是經(jīng)過(guò)人工驗(yàn)證的,包括公共測(cè)試集,確保ARC-AGI的所有任務(wù)都可以由人類解決。


畢竟這是一個(gè)通用人工智能基準(zhǔn),如果連人類自己都難倒了,那拿去測(cè)試LLM也說(shuō)不過(guò)去。


據(jù)報(bào)道,亞馬遜土耳其機(jī)器人( Amazon Mechanical Turk,MTurk) 訓(xùn)練分布的人類基線是85%,但沒(méi)有針對(duì)公開(kāi)測(cè)試集的人類基線,不過(guò)我們已知的是,公開(kāi)測(cè)試集更難,那么針對(duì)公開(kāi)測(cè)試集的人類基線應(yīng)該會(huì)更低。


Ryan給出了測(cè)試集中的一些代表性的問(wèn)題,以及他基于GPT-4o的解決方案是否回答正確。

問(wèn)題1:

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

問(wèn)題2:

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

問(wèn)題3:

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

從Ryan給出的這3個(gè)例子中可以看出,GPT-4o答對(duì)了三分之一。(跟小編的勝率一樣,前2個(gè)圖密密麻麻,沒(méi)看出個(gè)所以然來(lái)…)

怎么讓GPT-4o做到的

Ryan的解決方案的主要思路非常簡(jiǎn)單:讓GPT-4o生成約8000個(gè)嘗試實(shí)現(xiàn)轉(zhuǎn)換的python程序,選擇一個(gè)在所有示例(通常有 3 個(gè)示例)中都正確的程序,然后提交該函數(shù)應(yīng)用于額外測(cè)試輸入時(shí)產(chǎn)生的輸出。


Ryan以圖像和各種ASCII表示形式向GPT-4o展示了該問(wèn)題。


這種方法在本質(zhì)上與AlphaCode中應(yīng)用的方法類似,在AlphaCode中,一個(gè)模型會(huì)生成數(shù)百萬(wàn)個(gè)試圖解決編程問(wèn)題的完成項(xiàng),然后對(duì)這些完成項(xiàng)進(jìn)行匯總,以確定要提交的內(nèi)容。

從更高層次上來(lái)解釋,Ryan使用的方法是:


  • 向GPT-4o介紹ARC-AGI 的問(wèn)題,并為問(wèn)題中的每個(gè)網(wǎng)格提供圖像表示法和各種文本表示法。
  • 指導(dǎo)GPT-4o推理背后的規(guī)律,進(jìn)一步推理如何用代碼實(shí)現(xiàn)轉(zhuǎn)換,最后用代碼實(shí)現(xiàn)。
  • 使用幾次提示以及幾個(gè)精心手寫(xiě)的分步推理示例來(lái)實(shí)際讓GPT-4o有效地進(jìn)行此推理。生成的提示通常長(zhǎng)度約為30k個(gè)token(包括圖像)。
  • 從GPT-4o中抽取大量的完成樣本(每個(gè)問(wèn)題約5000個(gè))。
  • 針對(duì)每個(gè)問(wèn)題選取最有希望的12個(gè)補(bǔ)全,然后通過(guò)向GPT-4o展示該程序在示例中的實(shí)際輸出,并要求GPT-4o修改代碼使其正確,從而嘗試修復(fù)每個(gè)補(bǔ)全。
  • 然后,根據(jù)對(duì)正確示例程序的多數(shù)投票結(jié)果,選出3個(gè)提交程序。


概括來(lái)說(shuō),Ryan通過(guò)足夠長(zhǎng)的、精雕細(xì)琢的少樣本提示,生成許多可能的Python程序,從大約5k個(gè)猜測(cè)中,使用示例選出最佳猜測(cè),然后進(jìn)行調(diào)試。


除了對(duì)訓(xùn)練集進(jìn)行迭代外,Ryan還對(duì)公共測(cè)試集的100個(gè)問(wèn)題子集進(jìn)行了少量迭代。


在這里介紹的所有結(jié)果都是在不重疊的公共測(cè)試集的另一個(gè)子集上計(jì)算得出的。


訓(xùn)練集和測(cè)試集不是獨(dú)立的,而且測(cè)試集的難度更大,因此使用測(cè)試集的子集進(jìn)行迭代有助于快速更好地了解問(wèn)題隨難度的變化。


不幸的是,這些測(cè)試集不是獨(dú)立同分布(Independent Identically Distribution,IID):這使得迭代變得更加困難和混亂。


關(guān)于方法的更多細(xì)節(jié),以及完整的解決方案,可以參閱項(xiàng)目的GitHub:

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

??https://github.com/rgreenblatt/arc_draw_more_samples_pub??

采樣每增加一倍,精度提高3%

?

如果有更多的采樣,性能會(huì)有所提高嗎?


答案是會(huì)的!


縮放Python采樣數(shù)量可以可靠地提高性能,每增加一倍,精度提高3%。


而且這距離AlphaCode使用的數(shù)百萬(wàn)個(gè)樣本還很遠(yuǎn)!

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

GPT-4o存在的非推理弱點(diǎn)

  • GPT-4o看不清楚。GPT-4o在網(wǎng)格上的視力很糟糕,當(dāng)被要求描述一個(gè)較大的網(wǎng)格中的內(nèi)容時(shí),它通常無(wú)法正確「看清」輸入,并陳述有關(guān)某些位置的顏色或存在的形狀的錯(cuò)誤事實(shí)。
  • GPT-4o不太擅長(zhǎng)編碼(特別是對(duì)于此類幾何操作問(wèn)題),并且經(jīng)常犯一些簡(jiǎn)單的錯(cuò)誤,例如差一錯(cuò)誤(Off-by-one error,OBOE)。
  • 當(dāng)上下文中的token超過(guò)32k時(shí),其性能會(huì)下降。

消除這些非推理弱點(diǎn)將顯著提高解決方案的性能,而這些問(wèn)題似乎很可能通過(guò)規(guī)模化(scalling)來(lái)解決。

距離ARC-AGI大獎(jiǎng)還有多遠(yuǎn)?

如何才能達(dá)到ARC-AGI所設(shè)定的85%的大獎(jiǎng)目標(biāo)呢?

GPT-4o攻破ARC-AGI無(wú)法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA-AI.x社區(qū)

Ryan做出了非常「數(shù)據(jù)化」的預(yù)測(cè)。


70% 的可能性:一個(gè)由3名頂尖ML工程師組成的團(tuán)隊(duì),通過(guò)微調(diào)GPT-4o(包括 SFT 和 RL)、1000萬(wàn)美元的計(jì)算量和1年的時(shí)間,可以使用 GPT-4o 超越MTurk 85%的人類基線(簡(jiǎn)單訓(xùn)練集)。


35% 概率:在上述同等條件下,公共測(cè)試集上的概率也可達(dá)85%。目前還不清楚哪些人在測(cè)試集上的表現(xiàn) >=85%,盡管這對(duì)于聰明的人來(lái)說(shuō)可能并不難。

80% 的概率:下一代多模態(tài)大模型(例如 GPT-5)將能夠大幅提高 ARC-AGI 的性能。

LLM有學(xué)習(xí)能力嗎


Ryan引用了Fran?ois Chollets的一段話——

如果你是對(duì)的(LLMs可以進(jìn)行情境學(xué)習(xí)),那么,LLMs在ARC謎題上會(huì)表現(xiàn)得很好,因?yàn)?ARC 謎題并不復(fù)雜。你不需要認(rèn)真思考它,它們實(shí)際上對(duì)人類來(lái)說(shuō)非常明顯。

即使是孩子也可以做到,但LLMs不能。即使 LLMs 的知識(shí)比你多100,000倍,仍然做不到。ARC唯一的特殊之處在于它的設(shè)計(jì)初衷就是為了抵制記憶。這是 LLM性能的巨大障礙。

如果仔細(xì)觀察LLMs,很明顯他們并沒(méi)有真正即時(shí)合成新程序來(lái)解決他們面臨的任務(wù)。

Ryan則認(rèn)為,LLMs在進(jìn)行上下文學(xué)習(xí)時(shí)實(shí)際上做了一些相關(guān)的「學(xué)習(xí)」。

盡管整體性能非常弱,遠(yuǎn)遠(yuǎn)不如人類(否則他就不需要在他的解決方案中抽取數(shù)千個(gè)樣本),但這仍然是一種學(xué)習(xí)。


「我的觀點(diǎn)并不是說(shuō)GPT-4o相對(duì)于人類來(lái)說(shuō)是聰明的,但我確實(shí)認(rèn)為它是具有『智能』的。」


本文轉(zhuǎn)自AI生成未來(lái) ,作者:庸庸 喬楊


原文鏈接:??https://mp.weixin.qq.com/s/0JPpSSk6kqgz6FEdzJwNuQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦