自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="2iaj2"></center><del id="2iaj2"><b id="2iaj2"></b></del><dfn id="2iaj2"><fieldset id="2iaj2"><form id="2iaj2"></form></fieldset></dfn>

<center id="2iaj2"><acronym id="2iaj2"><track id="2iaj2"></track></acronym></center>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

OpenAI官方基準(zhǔn)測(cè)試：承認(rèn)Claude遙遙領(lǐng)先（狗頭）

作者：量子位 2025-04-03 10:21:32

人工智能新聞

智能體在評(píng)估中需要復(fù)刻來(lái)自ICML 2024的論文，任務(wù)包括理解論文、編寫代碼和執(zhí)行實(shí)驗(yàn)。

OpenAI承認(rèn)Claude是最好的了（狗頭）。

剛剛開(kāi)源的新基準(zhǔn)測(cè)試PaperBench，6款前沿大模型驅(qū)動(dòng)智能體PK復(fù)現(xiàn)AI頂會(huì)論文，新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。

與去年10月OpenAI考驗(yàn)Agent機(jī)器學(xué)習(xí)代碼工程能力MLE-Bnch相比，PaperBench更考驗(yàn)綜合能力，不再是只執(zhí)行單一任務(wù)。

具體來(lái)說(shuō)，智能體在評(píng)估中需要復(fù)刻來(lái)自ICML 2024的論文，任務(wù)包括理解論文、編寫代碼和執(zhí)行實(shí)驗(yàn)。

最終成績(jī)?nèi)缦拢?/span>

Claude-3.5-Sonnet斷崖式領(lǐng)先，第二名o1-high分?jǐn)?shù)只有第一的60%，第三名DeepSeek-R1又只有第二名的一半。

此外GPT-4o超過(guò)了推理模型o3-mini-high也算一個(gè)亮點(diǎn)。

除了AI之間的PK， OpenAI這次還招募頂尖的機(jī)器學(xué)習(xí)博士對(duì)比o1。

雖然最終結(jié)論是AI在復(fù)現(xiàn)頂會(huì)論文上還無(wú)法超越人類，但展開(kāi)時(shí)間軸發(fā)現(xiàn)，在工作時(shí)間1-6小時(shí)內(nèi)Ai的進(jìn)度還是比人類要快的。

12-24小時(shí)階段AI與人類的進(jìn)度相當(dāng)，人類需要工作24-48小時(shí)才能超過(guò)AI。

有創(chuàng)業(yè)者稱贊OpenAI這波真的Open了，而且不避諱競(jìng)爭(zhēng)對(duì)手的出色表現(xiàn)，咱們科技圈就需要這種精神。

Agent復(fù)現(xiàn)頂會(huì)論文

PaperBench選取20篇ICML 2024 Spotlight和Oral論文，要求AI創(chuàng)建代碼庫(kù)并執(zhí)行實(shí)驗(yàn)，復(fù)制論文成果，且不能使用原作者代碼。

OpenAI與每篇論文的原作者共同制定詳細(xì)評(píng)分標(biāo)準(zhǔn)，總共包含8316個(gè)可單獨(dú)評(píng)分的任務(wù)。

開(kāi)卷考試，也就是允許Agent有限聯(lián)網(wǎng)搜索，把原論文代碼庫(kù)和其他人復(fù)現(xiàn)的代碼庫(kù)拉黑名單。

完整評(píng)估流程分為3個(gè)階段：

Agent在ubuntu容器中創(chuàng)建并提交復(fù)制論文的代碼庫(kù)。
在具有GPU訪問(wèn)權(quán)限的新容器中執(zhí)行代碼
裁判模型在第三個(gè)容器中給復(fù)現(xiàn)結(jié)果打分

評(píng)估時(shí)用分級(jí)標(biāo)準(zhǔn)打分，按葉節(jié)點(diǎn)、父節(jié)點(diǎn)逐級(jí)評(píng)分，主要指標(biāo)是所有論文的平均復(fù)制分?jǐn)?shù)。

評(píng)分也是由大模型自動(dòng)執(zhí)行，實(shí)驗(yàn)發(fā)現(xiàn)o3-mini當(dāng)裁判的性價(jià)比最高。

給每篇論文評(píng)分花費(fèi)66美元，比聘請(qǐng)人類專家當(dāng)裁判要便宜，速度也更快。

運(yùn)行評(píng)估所需的代碼和數(shù)據(jù)、Docker鏡像等正在GitHub逐步開(kāi)源。

One More Thing

在論文的附錄中，OpenAI還給出了讓AI復(fù)現(xiàn)頂會(huì)論文的Prompt，有需要的朋友可以學(xué)習(xí)一下。

BasicAgent System Prompt：

強(qiáng)調(diào)智能體要完整復(fù)制論文，明確最終目標(biāo)是讓運(yùn)行reproduce.sh能復(fù)現(xiàn)論文所有指標(biāo)
指導(dǎo)智能體使用工具逐步完成任務(wù)，避免一次性執(zhí)行過(guò)多操作
要求智能體充分利用時(shí)間優(yōu)化解決方案，而不是急于提交初步結(jié)果

IterativeAgent System/Continue Prompt：

強(qiáng)調(diào)時(shí)間很充裕，要逐步完成任務(wù)
每一步都提醒智能體使用可用的工具
強(qiáng)調(diào)代碼編寫規(guī)范

Task Instructions：

明確任務(wù)、可用資源、提交要求等多方面信息

給出代碼示例
最后再次強(qiáng)調(diào)權(quán)限、考試時(shí)間等，還提醒AI要真的去執(zhí)行復(fù)現(xiàn)，而不只是寫一個(gè)計(jì)劃。

就有點(diǎn)像人類準(zhǔn)考證上寫的考場(chǎng)須知了。

論文地址：
https://openai.com/index/paperbench/

責(zé)任編輯：張燕妮來(lái)源：量子位

OpenAI 智能體模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)