全球頂級(jí)模型集體0分,AI終極大考人類(lèi)5分鐘秒殺!Keras之父戳破AGI神話(huà)
時(shí)隔6年,ARC-AGI-2正式推出!
一大早,Keras之父Fran?ois Chollet官宣了全新迭代后的ARC-AGI-2,再次拉高了AI「大考」的難度。
這些對(duì)人類(lèi)再簡(jiǎn)單不過(guò)的題目,LLM最先敗北,先上結(jié)果:
基礎(chǔ)大模型(GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ),全部得0分。
CoT推理模型(Claude Thinking、R1、o3-mini),得分也不過(guò)4%。
相較之下,2024年ARC Prize冠軍模型(53.5%)卻在新版本考試中,成績(jī)僅剩3.5%。
OpenAI的o3-low模型也從75.7%驟降至4%。而且,每項(xiàng)任務(wù)成本效率也是o3-low和o1-pro最高,達(dá)到200美金。
相反,在ARC-AGI-2里的每個(gè)任務(wù),都至少有兩名人類(lèi)能在兩次嘗試內(nèi)成功解決。
ARC-AGI-2的出世,證明了「人類(lèi)尚未實(shí)現(xiàn)AGI」!
現(xiàn)場(chǎng)400人實(shí)測(cè),普通人無(wú)訓(xùn)練能拿下60%準(zhǔn)確率,10人小組能達(dá)到100%
初代ARC-AGI(2019年),曾在去年揭示了AI重大轉(zhuǎn)變,LLM從「純記憶」向「測(cè)試時(shí)推理」的進(jìn)化。
許多之前一眼就看透的問(wèn)題,在ARC-AGI-2中,至少需要幾分鐘的深思熟慮——人類(lèi)測(cè)試者平均需要5分鐘才能解題。
最新ARC-AGI-2,恰恰暴露了當(dāng)前AI三大短板:符號(hào)解釋、組合推理、上下文規(guī)則應(yīng)用。
這些皆需要LLM在測(cè)試時(shí),展現(xiàn)真正的適應(yīng)能力,具備靈活應(yīng)對(duì)新問(wèn)題的「流體智力」,而不是靠預(yù)訓(xùn)練數(shù)據(jù)「硬背」過(guò)關(guān)。
值得一提的是,2025年ARC獎(jiǎng)本周將在Kaggle平臺(tái)上線(xiàn),總獎(jiǎng)金高達(dá)100萬(wàn)美元。
今年的競(jìng)賽在去年基礎(chǔ)上再加碼,計(jì)算資源翻倍,旨在推動(dòng)開(kāi)源項(xiàng)目發(fā)展,助力打造能戰(zhàn)勝ARC-AGI-2的系統(tǒng)。
AI「大考」難度進(jìn)階,AGI夢(mèng)碎?
其他AI基準(zhǔn)測(cè)試,基本都聚焦于測(cè)試「博士以上水平」的技能,來(lái)考察超越人類(lèi)的能力或?qū)I(yè)知識(shí)。
但ARC-AGI關(guān)注的是對(duì)人類(lèi)相對(duì)容易,對(duì)AI卻困難重重的任務(wù)。
這樣一來(lái),就能精準(zhǔn)定位那些不會(huì)因?yàn)橐?guī)模擴(kuò)大就自動(dòng)消失的能力差距。
ARC獎(jiǎng)將此融入對(duì)AGI的衡量標(biāo)準(zhǔn):對(duì)人類(lèi)容易、對(duì)AI困難的任務(wù)之間的差距,即「人機(jī)差距」。
當(dāng)這個(gè)差距變?yōu)榱?,也就是不存在能難倒AI的任務(wù)時(shí),我們就實(shí)現(xiàn)了AGI。
要彌補(bǔ)這些能力差距,需要全新的見(jiàn)解和思路。ARC-AGI不只是衡量AGI的進(jìn)展,更重要的是激勵(lì)研究人員探索新思路。
AI系統(tǒng)在不少特定領(lǐng)域(如圍棋、圖像識(shí)別)已超越人類(lèi)。但這些只是狹隘、專(zhuān)門(mén)的能力。
「人機(jī)差距」揭示了AGI所欠缺的部分:高效獲取新技能的能力。
ARC-AGI-2登場(chǎng),基礎(chǔ)LLM掛零
今日正式發(fā)布的ARC-AGI-2基準(zhǔn)測(cè)試,在對(duì)人類(lèi)難度不變的前提下,極大提高了對(duì)AI的難度挑戰(zhàn)。
在一項(xiàng)有400人參與的對(duì)照研究中,ARC-AGI-2的每個(gè)任務(wù),都至少有兩名參與者能在兩次或更少的嘗試內(nèi)解決。
這和給AI設(shè)定的規(guī)則一致,每個(gè)任務(wù)AI都有兩次嘗試機(jī)會(huì)。
與ARC-AGI-1類(lèi)似,ARC-AGI-2采用「兩次嘗試通過(guò)(pass@2)」的評(píng)估體系,因?yàn)椴糠秩蝿?wù)存在顯著的模糊性,需要兩次猜測(cè)來(lái)消除歧義,同時(shí)也用于排查數(shù)據(jù)集中可能無(wú)意出現(xiàn)的模糊或錯(cuò)誤之處。
經(jīng)過(guò)人類(lèi)測(cè)試,相較于ARC-AGI-1,作者對(duì)ARC-AGI-2任務(wù)質(zhì)量更具信心。
以下是ARC-AGI-2的官方更新內(nèi)容:
- 所有評(píng)估集(公開(kāi)、半私有、私有)的任務(wù)數(shù)量從100個(gè)增加至120個(gè)。
- 剔除了評(píng)估集中易受暴力搜索破解的任務(wù),即2020年原始Kaggle競(jìng)賽中已被解決的所有任務(wù)。
- 開(kāi)展人類(lèi)測(cè)試,以校準(zhǔn)評(píng)估集難度,確保任務(wù)獨(dú)立同分布,并驗(yàn)證至少有兩名人類(lèi)可在兩次嘗試內(nèi)解決任務(wù),這與對(duì)AI的要求一致。
- 根據(jù)研究成果,設(shè)計(jì)了新任務(wù)來(lái)挑戰(zhàn)AI推理系統(tǒng),涵蓋符號(hào)解釋、組合推理、上下文規(guī)則等多個(gè)方面。
2019年推出的ARC-AGI-1,主要是為了挑戰(zhàn)深度學(xué)習(xí),尤其是防止模型單純「記憶」訓(xùn)練數(shù)據(jù)集。
ARC-AGI包含一個(gè)訓(xùn)練數(shù)據(jù)集和多個(gè)評(píng)估集,其中私有評(píng)估集用于2024年ARC獎(jiǎng)競(jìng)賽。訓(xùn)練集的作用是讓模型學(xué)習(xí)解決評(píng)估集中任務(wù)所需的核心知識(shí)。
為了完成評(píng)估集中的任務(wù),AI必須展現(xiàn)出適應(yīng)全新任務(wù)的能力。
打個(gè)比方,訓(xùn)練集就像是教你認(rèn)識(shí)小學(xué)算術(shù)符號(hào),而評(píng)估集則要求用這些符號(hào)知識(shí)去解代數(shù)方程。你不能靠死記硬背得出答案,必須把知識(shí)靈活運(yùn)用到新問(wèn)題上。
ARC-AGI-2對(duì)AI的要求更高,要想戰(zhàn)勝它,必須具備高度的適應(yīng)性和高效性。
下面是ARC-AGI-2的示例任務(wù),滿(mǎn)足兩個(gè)條件:一是至少有兩名人類(lèi)能在兩次嘗試內(nèi)解決;二是所有前沿AI推理系統(tǒng)都無(wú)法解決。
符號(hào)解釋
前沿AI推理系統(tǒng)在處理需要賦予符號(hào)超出視覺(jué)模式意義的任務(wù)時(shí),表現(xiàn)欠佳。
系統(tǒng)能進(jìn)行對(duì)稱(chēng)性檢查、鏡像、變換,甚至識(shí)別連接元素,但就是無(wú)法理解符號(hào)本身的語(yǔ)義。
組合推理
AI推理系統(tǒng)在處理需要同時(shí)應(yīng)用多個(gè)規(guī)則,或者應(yīng)用相互關(guān)聯(lián)規(guī)則的任務(wù)時(shí),困難重重。
相反,要是任務(wù)只有一兩條全局規(guī)則,這些系統(tǒng)就能發(fā)現(xiàn)并運(yùn)用規(guī)則。
上下文規(guī)則應(yīng)用
AI推理系統(tǒng)在面對(duì)需根據(jù)上下文靈活應(yīng)用規(guī)則的任務(wù)時(shí),也會(huì)陷入困境。
它們往往只關(guān)注表面模式,無(wú)法理解背后的選擇原則。
兩人組隊(duì)拿滿(mǎn)分,o3僅4%
ARC-AGI-2由以下數(shù)據(jù)集構(gòu)成:
校準(zhǔn)指的是這些任務(wù)具有獨(dú)立同分布(IDD)特性。理論上,在公開(kāi)、半私有和私有評(píng)估集上,未出現(xiàn)過(guò)擬合情況的分?jǐn)?shù)應(yīng)具有直接可比性。
為收集相關(guān)數(shù)據(jù),在嚴(yán)格受控的環(huán)境下,對(duì)400多位人類(lèi)進(jìn)行了測(cè)試。
接下來(lái)幾周,公開(kāi)任務(wù)的人類(lèi)可解性數(shù)據(jù)將與ARC-AGI-2論文一同發(fā)布。
對(duì)所有公開(kāi)的AI系統(tǒng)重新評(píng)估,ARC-AGI-2起始分?jǐn)?shù)如下:
帶*的分?jǐn)?shù),是根據(jù)目前收集到的部分結(jié)果,還有o1-pro的定價(jià)估算出來(lái)的。完整結(jié)果一出來(lái),馬上會(huì)公布。
所有分?jǐn)?shù)均按照「兩次嘗試通過(guò)(pass@2)」標(biāo)準(zhǔn),且基于半私有評(píng)估集得出(ARC-AGI-1人類(lèi)小組和ARChitects除外,分別基于公開(kāi)評(píng)估集和私有評(píng)估集)。
人類(lèi)小組的效率計(jì)算基于115-150美元的到場(chǎng)費(fèi)用,外加解決每個(gè)任務(wù)獎(jiǎng)勵(lì)5美元。
對(duì)成本進(jìn)行了優(yōu)化以提升到場(chǎng)率(實(shí)際到場(chǎng)率為注冊(cè)人數(shù)的70%)。盡管人類(lèi)智能成本效率的極限可能在每個(gè)任務(wù)2-5美元區(qū)間,但基于實(shí)際收集的數(shù)據(jù),報(bào)告中每個(gè)任務(wù)17美元。
等OpenAI o3 low/high的API開(kāi)放,將對(duì)其正式版本進(jìn)行測(cè)試。
用從ARC-AGI-1轉(zhuǎn)到ARC-AGI-2的任務(wù)進(jìn)行預(yù)估,o3-low得分約為4%,如果計(jì)算量特別大(每個(gè)任務(wù)數(shù)千美元),o3-high得分有望達(dá)到15-20%。
智能并非僅是能力
從現(xiàn)在開(kāi)始,所有ARC-AGI的報(bào)告都將附帶一項(xiàng)效率指標(biāo)。
首先選擇成本作為指標(biāo),因?yàn)樵趯?duì)比人類(lèi)與AI性能時(shí),成本具有最直接的可比性。
智能并非僅是解決問(wèn)題和獲取高分的能力。獲取和運(yùn)用這些能力的效率,是智能的關(guān)鍵要素。
核心問(wèn)題不僅在于「AI能否掌握解決任務(wù)的技能?」,更在于「以怎樣的效率或成本來(lái)掌握?」
前沿AI系統(tǒng)在ARC-AGI-1與ARC-AGI-2上的得分
僅靠規(guī)模遠(yuǎn)遠(yuǎn)不夠
在資源與搜索時(shí)間不受限的情況下,暴力搜索最終能夠解決ARC-AGI問(wèn)題。
但這絕非真正的智能。智能在于高效地找到解決方案,而非盲目窮舉。
關(guān)注效率是ARC-AGI的核心原則。
明確量化智能的成本,要求解決方案不僅展示能力,更要展現(xiàn)對(duì)資源的高效利用,這才是AGI的本質(zhì)。
全新的ARC-AGI排行榜頁(yè)面將從分?jǐn)?shù)和成本兩個(gè)維度同步呈現(xiàn)。
截至2025年3月24日,ARC-AGI新排行榜同時(shí)展示分?jǐn)?shù)與效率
本周競(jìng)賽盛大開(kāi)啟!
隨著ARC-AGI-2的發(fā)布,2025年ARC Prize重磅回歸!競(jìng)賽將于3月至11月期間在Kaggle平臺(tái)舉辦。
競(jìng)賽設(shè)有12.5萬(wàn)美元的保底進(jìn)展獎(jiǎng),以及高達(dá)70萬(wàn)美元的大獎(jiǎng),團(tuán)隊(duì)得分超過(guò)85%即可解鎖!
此外,還有17.5萬(wàn)美元的獎(jiǎng)項(xiàng)待后續(xù)公布細(xì)則。
Kaggle競(jìng)賽規(guī)則禁止使用互聯(lián)網(wǎng)API,每次提交僅可使用約50美元的計(jì)算資源。
為獲取獲獎(jiǎng)資格,參賽者需在競(jìng)賽結(jié)束時(shí)開(kāi)源解決方案。
去年的競(jìng)賽成果斐然,超過(guò)1500支團(tuán)隊(duì)踴躍參與,產(chǎn)出了40篇極具影響力的研究論文。
獲獎(jiǎng)研究人員提出的創(chuàng)新理念已在AI行業(yè)得到廣泛應(yīng)用。