自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI官方基準(zhǔn)測(cè)試:承認(rèn)Claude遙遙領(lǐng)先(狗頭)

人工智能 新聞
智能體在評(píng)估中需要復(fù)刻來(lái)自ICML 2024的論文,任務(wù)包括理解論文、編寫代碼和執(zhí)行實(shí)驗(yàn)。

OpenAI承認(rèn)Claude是最好的了(狗頭)。

剛剛開(kāi)源的新基準(zhǔn)測(cè)試PaperBench,6款前沿大模型驅(qū)動(dòng)智能體PK復(fù)現(xiàn)AI頂會(huì)論文,新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。

圖片

與去年10月OpenAI考驗(yàn)Agent機(jī)器學(xué)習(xí)代碼工程能力MLE-Bnch相比,PaperBench更考驗(yàn)綜合能力,不再是只執(zhí)行單一任務(wù)。

具體來(lái)說(shuō),智能體在評(píng)估中需要復(fù)刻來(lái)自ICML 2024的論文,任務(wù)包括理解論文、編寫代碼和執(zhí)行實(shí)驗(yàn)。

圖片

最終成績(jī)?nèi)缦拢?/span>

Claude-3.5-Sonnet斷崖式領(lǐng)先,第二名o1-high分?jǐn)?shù)只有第一的60%,第三名DeepSeek-R1又只有第二名的一半。

此外GPT-4o超過(guò)了推理模型o3-mini-high也算一個(gè)亮點(diǎn)。

圖片

除了AI之間的PK, OpenAI這次還招募頂尖的機(jī)器學(xué)習(xí)博士對(duì)比o1。

雖然最終結(jié)論是AI在復(fù)現(xiàn)頂會(huì)論文上還無(wú)法超越人類,但展開(kāi)時(shí)間軸發(fā)現(xiàn),在工作時(shí)間1-6小時(shí)內(nèi)Ai的進(jìn)度還是比人類要快的。

12-24小時(shí)階段AI與人類的進(jìn)度相當(dāng),人類需要工作24-48小時(shí)才能超過(guò)AI。

圖片

有創(chuàng)業(yè)者稱贊OpenAI這波真的Open了,而且不避諱競(jìng)爭(zhēng)對(duì)手的出色表現(xiàn),咱們科技圈就需要這種精神。

圖片

Agent復(fù)現(xiàn)頂會(huì)論文

PaperBench選取20篇ICML 2024 Spotlight和Oral論文,要求AI創(chuàng)建代碼庫(kù)并執(zhí)行實(shí)驗(yàn),復(fù)制論文成果,且不能使用原作者代碼。

圖片

OpenAI與每篇論文的原作者共同制定詳細(xì)評(píng)分標(biāo)準(zhǔn),總共包含8316個(gè)可單獨(dú)評(píng)分的任務(wù)。

開(kāi)卷考試,也就是允許Agent有限聯(lián)網(wǎng)搜索,把原論文代碼庫(kù)和其他人復(fù)現(xiàn)的代碼庫(kù)拉黑名單。

完整評(píng)估流程分為3個(gè)階段:

  • Agent在ubuntu容器中創(chuàng)建并提交復(fù)制論文的代碼庫(kù)。
  • 在具有GPU訪問(wèn)權(quán)限的新容器中執(zhí)行代碼
  • 裁判模型在第三個(gè)容器中給復(fù)現(xiàn)結(jié)果打分
    圖片

評(píng)估時(shí)用分級(jí)標(biāo)準(zhǔn)打分,按葉節(jié)點(diǎn)、父節(jié)點(diǎn)逐級(jí)評(píng)分,主要指標(biāo)是所有論文的平均復(fù)制分?jǐn)?shù)。

圖片

評(píng)分也是由大模型自動(dòng)執(zhí)行,實(shí)驗(yàn)發(fā)現(xiàn)o3-mini當(dāng)裁判的性價(jià)比最高。

給每篇論文評(píng)分花費(fèi)66美元,比聘請(qǐng)人類專家當(dāng)裁判要便宜,速度也更快。

圖片

運(yùn)行評(píng)估所需的代碼和數(shù)據(jù)、Docker鏡像等正在GitHub逐步開(kāi)源。

圖片

One More Thing

在論文的附錄中,OpenAI還給出了讓AI復(fù)現(xiàn)頂會(huì)論文的Prompt,有需要的朋友可以學(xué)習(xí)一下。

BasicAgent System Prompt:

  • 強(qiáng)調(diào)智能體要完整復(fù)制論文,明確最終目標(biāo)是讓運(yùn)行reproduce.sh能復(fù)現(xiàn)論文所有指標(biāo)
  • 指導(dǎo)智能體使用工具逐步完成任務(wù),避免一次性執(zhí)行過(guò)多操作
  • 要求智能體充分利用時(shí)間優(yōu)化解決方案,而不是急于提交初步結(jié)果

圖片

IterativeAgent System/Continue Prompt:

  • 強(qiáng)調(diào)時(shí)間很充裕,要逐步完成任務(wù)
  • 每一步都提醒智能體使用可用的工具
  • 強(qiáng)調(diào)代碼編寫規(guī)范

圖片

Task Instructions:

  • 明確任務(wù)、可用資源、提交要求等多方面信息

圖片

  • 給出代碼示例
  • 最后再次強(qiáng)調(diào)權(quán)限、考試時(shí)間等,還提醒AI要真的去執(zhí)行復(fù)現(xiàn),而不只是寫一個(gè)計(jì)劃。

圖片

就有點(diǎn)像人類準(zhǔn)考證上寫的考場(chǎng)須知了。

論文地址:
https://openai.com/index/paperbench/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-08-04 06:54:38

IntelCEONVIDIA

2013-11-27 09:36:31

Forrester惠普私有云服務(wù)

2009-04-23 08:43:39

Iphone蘋果移動(dòng)OS

2023-12-18 07:18:51

SREDevOps工具

2012-01-12 16:19:18

曙光

2024-06-07 11:14:24

2023-10-04 17:41:39

編程習(xí)慣代碼

2009-08-31 23:02:13

IT運(yùn)維管理馬來(lái)西亞分公司摩卡軟件

2015-02-26 13:30:14

2021-03-10 13:59:32

以太坊數(shù)據(jù)網(wǎng)絡(luò)

2018-11-02 15:24:51

SSD金士頓閃存

2015-08-07 11:02:45

TIOBE編程語(yǔ)言排行榜

2023-03-28 09:34:33

華為充電樁充電站

2017-04-13 08:49:16

SQLHive改進(jìn)

2018-02-25 09:36:59

云計(jì)算AWS公共云

2023-10-30 07:13:56

2018-03-02 10:03:36

瀏覽器Chrome 微軟

2023-09-09 10:18:51

2023-03-06 10:15:31

論文谷歌

2025-02-19 09:34:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)