OpenAI官方基準(zhǔn)測(cè)試:承認(rèn)Claude遙遙領(lǐng)先(狗頭)
OpenAI承認(rèn)Claude是最好的了(狗頭)。
剛剛開(kāi)源的新基準(zhǔn)測(cè)試PaperBench,6款前沿大模型驅(qū)動(dòng)智能體PK復(fù)現(xiàn)AI頂會(huì)論文,新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。
與去年10月OpenAI考驗(yàn)Agent機(jī)器學(xué)習(xí)代碼工程能力MLE-Bnch相比,PaperBench更考驗(yàn)綜合能力,不再是只執(zhí)行單一任務(wù)。
具體來(lái)說(shuō),智能體在評(píng)估中需要復(fù)刻來(lái)自ICML 2024的論文,任務(wù)包括理解論文、編寫代碼和執(zhí)行實(shí)驗(yàn)。
最終成績(jī)?nèi)缦拢?/span>
Claude-3.5-Sonnet斷崖式領(lǐng)先,第二名o1-high分?jǐn)?shù)只有第一的60%,第三名DeepSeek-R1又只有第二名的一半。
此外GPT-4o超過(guò)了推理模型o3-mini-high也算一個(gè)亮點(diǎn)。
除了AI之間的PK, OpenAI這次還招募頂尖的機(jī)器學(xué)習(xí)博士對(duì)比o1。
雖然最終結(jié)論是AI在復(fù)現(xiàn)頂會(huì)論文上還無(wú)法超越人類,但展開(kāi)時(shí)間軸發(fā)現(xiàn),在工作時(shí)間1-6小時(shí)內(nèi)Ai的進(jìn)度還是比人類要快的。
12-24小時(shí)階段AI與人類的進(jìn)度相當(dāng),人類需要工作24-48小時(shí)才能超過(guò)AI。
有創(chuàng)業(yè)者稱贊OpenAI這波真的Open了,而且不避諱競(jìng)爭(zhēng)對(duì)手的出色表現(xiàn),咱們科技圈就需要這種精神。
Agent復(fù)現(xiàn)頂會(huì)論文
PaperBench選取20篇ICML 2024 Spotlight和Oral論文,要求AI創(chuàng)建代碼庫(kù)并執(zhí)行實(shí)驗(yàn),復(fù)制論文成果,且不能使用原作者代碼。
OpenAI與每篇論文的原作者共同制定詳細(xì)評(píng)分標(biāo)準(zhǔn),總共包含8316個(gè)可單獨(dú)評(píng)分的任務(wù)。
開(kāi)卷考試,也就是允許Agent有限聯(lián)網(wǎng)搜索,把原論文代碼庫(kù)和其他人復(fù)現(xiàn)的代碼庫(kù)拉黑名單。
完整評(píng)估流程分為3個(gè)階段:
- Agent在ubuntu容器中創(chuàng)建并提交復(fù)制論文的代碼庫(kù)。
- 在具有GPU訪問(wèn)權(quán)限的新容器中執(zhí)行代碼
- 裁判模型在第三個(gè)容器中給復(fù)現(xiàn)結(jié)果打分
評(píng)估時(shí)用分級(jí)標(biāo)準(zhǔn)打分,按葉節(jié)點(diǎn)、父節(jié)點(diǎn)逐級(jí)評(píng)分,主要指標(biāo)是所有論文的平均復(fù)制分?jǐn)?shù)。
評(píng)分也是由大模型自動(dòng)執(zhí)行,實(shí)驗(yàn)發(fā)現(xiàn)o3-mini當(dāng)裁判的性價(jià)比最高。
給每篇論文評(píng)分花費(fèi)66美元,比聘請(qǐng)人類專家當(dāng)裁判要便宜,速度也更快。
運(yùn)行評(píng)估所需的代碼和數(shù)據(jù)、Docker鏡像等正在GitHub逐步開(kāi)源。
One More Thing
在論文的附錄中,OpenAI還給出了讓AI復(fù)現(xiàn)頂會(huì)論文的Prompt,有需要的朋友可以學(xué)習(xí)一下。
BasicAgent System Prompt:
- 強(qiáng)調(diào)智能體要完整復(fù)制論文,明確最終目標(biāo)是讓運(yùn)行reproduce.sh能復(fù)現(xiàn)論文所有指標(biāo)
- 指導(dǎo)智能體使用工具逐步完成任務(wù),避免一次性執(zhí)行過(guò)多操作
- 要求智能體充分利用時(shí)間優(yōu)化解決方案,而不是急于提交初步結(jié)果
IterativeAgent System/Continue Prompt:
- 強(qiáng)調(diào)時(shí)間很充裕,要逐步完成任務(wù)
- 每一步都提醒智能體使用可用的工具
- 強(qiáng)調(diào)代碼編寫規(guī)范
Task Instructions:
- 明確任務(wù)、可用資源、提交要求等多方面信息
- 給出代碼示例
- 最后再次強(qiáng)調(diào)權(quán)限、考試時(shí)間等,還提醒AI要真的去執(zhí)行復(fù)現(xiàn),而不只是寫一個(gè)計(jì)劃。
就有點(diǎn)像人類準(zhǔn)考證上寫的考場(chǎng)須知了。