自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="zfjkz"><rt id="zfjkz"></rt></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

首個(gè)AI Kaggle特級(jí)大師誕生，o1奪7金封王！OpenAI放出AGI大招：L3級(jí)智能體明年要來？

作者：新智元 2024-10-11 13:50:00

人工智能新聞

OpenAI即將要兌現(xiàn)L3級(jí)智能體承諾了！MLE-bench新基準(zhǔn)匯聚75個(gè)Kaggle競(jìng)賽，o1首測(cè)便拿下7金，多次嘗試性能還能飆升17%，堪稱首個(gè)AI Kaggle特級(jí)大師。

首個(gè)AI Kaggle特級(jí)大師誕生了！

剛剛，OpenAI發(fā)布了智能體基準(zhǔn)MLE-bench，專為評(píng)估AI智能體在機(jī)器學(xué)習(xí)工程任務(wù)中的表現(xiàn)而打造。

為此，團(tuán)隊(duì)從Kaggle上精選了75個(gè)真實(shí)世界數(shù)據(jù)科學(xué)比賽，并創(chuàng)建出一系列多樣化、具有挑戰(zhàn)性任務(wù)。

比如，訓(xùn)練模型、數(shù)據(jù)集準(zhǔn)備、運(yùn)行實(shí)驗(yàn)等環(huán)節(jié)，均有涉及。

要知道，OpenAI內(nèi)部一直都在致力于做出超級(jí)AI智能體，o1推理模型發(fā)布已經(jīng)讓他們實(shí)現(xiàn)了二級(jí)AGI。

在最新MLE-bench論文中，作者還揭示了實(shí)現(xiàn)AGI的關(guān)鍵所在——

AI智能體能夠解決MLE-bench所有問題，可能會(huì)帶來奇點(diǎn)。

論文地址：https://arxiv.org/abs/2410.07095

實(shí)驗(yàn)結(jié)果表明，最強(qiáng)o1-preview聯(lián)手AIDE，在16.9%的比賽中達(dá)到了Kaggle銅牌級(jí)別的水平。

這說明，在某些任務(wù)中，AI已經(jīng)能夠與專業(yè)人類數(shù)據(jù)科學(xué)家相媲美。

不過，研究也揭示了AI與人類專業(yè)知識(shí)之間的顯著差距。也就是，AI在應(yīng)用標(biāo)準(zhǔn)技術(shù)方面表現(xiàn)良好，但在需要適應(yīng)性、創(chuàng)造性問題上，遇到了困難。

多位網(wǎng)友暗示道，基準(zhǔn)都準(zhǔn)備好了，明年我們就會(huì)看到L3智能體級(jí)別的AI。

AI智能體挑戰(zhàn)Kaggle

不斷涌現(xiàn)的智能體，正日益自動(dòng)化開發(fā)者工程流，加速工作效率。

然而，當(dāng)前很少有基準(zhǔn)測(cè)試，能夠全面衡量自主端到端ML工程。

OpenAI發(fā)布MLE-bench希望去填補(bǔ)這一空缺。這是一個(gè)離線Kaggle競(jìng)賽環(huán)境，如前所述，專用于評(píng)估AI智能體在執(zhí)行困難的機(jī)器學(xué)習(xí)工程（MLE）任務(wù)方面的表現(xiàn)。

它的設(shè)計(jì)主要有兩種考量：

1. 具有挑戰(zhàn)性，且能代表當(dāng)代MLE任務(wù)

2. 能夠?qū)⒃u(píng)估結(jié)果與人類水平相比較

75個(gè)跨域真實(shí)世界的多樣化Kaggle競(jìng)賽，涵蓋了自然語(yǔ)言處理、計(jì)算機(jī)視覺，以及信號(hào)處理的問題。

其中，許多競(jìng)賽都是具有現(xiàn)實(shí)意義的挑戰(zhàn)，比如OpenVaccine（COVID-19 mRNA疫苗降解預(yù)測(cè)）、用于破譯古卷軸Vesuvius Challenge。

這75個(gè)競(jìng)賽總獎(jiǎng)金池為1,948,016美元（約1379萬(wàn)），平均每個(gè)競(jìng)賽25,974美元。

OpenAI稱，「能夠自主解決MLE-bench基準(zhǔn)挑戰(zhàn)中的AI智能體，可能會(huì)大大加速科學(xué)進(jìn)步」。

這個(gè)前景足以令人興奮，但同時(shí)也需要謹(jǐn)慎對(duì)待模型，確?？煽匕踩牟渴?。

比如，MLE-bench可用作OpenAI準(zhǔn)備框架（Preparedness Framework）中模型自主性衡量標(biāo)準(zhǔn)、Anthropic負(fù)責(zé)任擴(kuò)展政策（Responsible Scaling Policy）中自主能力，以及谷歌DeepMind前沿安全框架中ML研發(fā)。

研究發(fā)現(xiàn)，領(lǐng)先LLM配合開源框架使用時(shí)，能在MLE-bench上取得顯著的成績(jī)。

而評(píng)估結(jié)果中，把的頭籌最佳智能體是——o1-preview。它在與專為Kaggle競(jìng)賽構(gòu)建的框架AIDE結(jié)合時(shí)，平均在16.9%的競(jìng)賽中獲得獎(jiǎng)牌。

另外，研究還發(fā)現(xiàn)，當(dāng)智能體在每個(gè)競(jìng)賽中多次嘗試后，性能顯著提高。

比如，o1-preview得分從單次嘗試pass@1的16.9%，直接飆升到pass@8的34.1%。

總的來說，當(dāng)前所有AI智能體在眾所周知方法解決競(jìng)賽中成績(jī)出眾，但在需要調(diào)試、從失誤中恢復(fù)的任務(wù)上，仍面臨挑戰(zhàn)。

OpenAI這項(xiàng)研究主要貢獻(xiàn)包括：

MLE-bench：由75個(gè)離線Kaggle競(jìng)賽組成的基準(zhǔn)測(cè)試，用于評(píng)估AI智能體的MLE能力
對(duì)最先進(jìn)模型和智能體框架進(jìn)行大規(guī)模評(píng)估，揭示了有關(guān)自主MLE智能體前景和局限性的新信息
對(duì)智能體資源擴(kuò)展進(jìn)行實(shí)驗(yàn)，包括擴(kuò)展智能體運(yùn)行時(shí)間、硬件資源和pass@k嘗試次數(shù)，探索當(dāng)前智能體的性能上限
調(diào)查數(shù)據(jù)集污染與智能體性能之間關(guān)系的實(shí)驗(yàn)，以及用于檢測(cè)抄襲和作弊的智能體監(jiān)控工具

MLE-BENCH

MLE-bench由75個(gè)ML工程任務(wù)組成，這些任務(wù)是從Kaggle手動(dòng)篩選的，反映了前沿實(shí)驗(yàn)室中ML工程師日常使用的核心技能集。

作為托管數(shù)據(jù)科學(xué)和ML競(jìng)賽的平臺(tái)，Kaggle要求參與者構(gòu)建預(yù)測(cè)模型來解決挑戰(zhàn)，而且通常是使用真實(shí)世界的數(shù)據(jù)集。

在每個(gè)特定的指標(biāo)上，參與者都可以獲得最佳分?jǐn)?shù)，取得排行榜上的排名，并獲得銅牌、銀牌和金牌。

數(shù)據(jù)集

MLE-bench中的每個(gè)樣本都是一個(gè)Kaggle競(jìng)賽，包括：

從競(jìng)賽網(wǎng)站的「概述」和「數(shù)據(jù)」標(biāo)簽頁(yè)抓取的描述
競(jìng)賽數(shù)據(jù)集，在大多數(shù)情況下使用新的訓(xùn)練-測(cè)試分割
用于本地評(píng)估提交的評(píng)分代碼
競(jìng)賽排行榜的快照，用于將提交與人類進(jìn)行排名

為了得到構(gòu)成MLE-bench的競(jìng)賽集，OpenAI從Meta Kaggle數(shù)據(jù)集中列出的5673個(gè)已完成的Kaggle競(jìng)賽開始。

首先他們排除了社區(qū)競(jìng)賽，因?yàn)樗馁|(zhì)量并沒有被嚴(yán)格審核。

隨后，他們手動(dòng)篩選了剩下的586個(gè)競(jìng)賽，保證它們一定與現(xiàn)代ML工程相關(guān)。

然后，OpenAI排除了無(wú)法復(fù)制評(píng)分程序或無(wú)法重新創(chuàng)建合理的訓(xùn)練-測(cè)試分割的競(jìng)賽，手動(dòng)注釋了每個(gè)競(jìng)賽的問題類型（例如文本分類、圖像分割等），還用復(fù)雜度級(jí)別注釋了每個(gè)競(jìng)賽。

經(jīng)過上述過程，OpenAI選擇了75個(gè)競(jìng)賽納入MLE-bench，包括22個(gè)低復(fù)雜度競(jìng)賽（30%）、38個(gè)中等復(fù)雜度（50%）和15個(gè)高復(fù)雜度（20%）。

他們還將額外的7個(gè)競(jìng)賽作為開發(fā)分割，用于開發(fā)智能體，不將測(cè)試集過擬合。

對(duì)于每個(gè)競(jìng)賽，如果原始數(shù)據(jù)集公開可用，OpenAI就使用原始數(shù)據(jù)集，盡管Kaggle競(jìng)賽一般在競(jìng)賽結(jié)束后也不會(huì)發(fā)布測(cè)試集。

在這種情況下，他們會(huì)根據(jù)公開可用的訓(xùn)練數(shù)據(jù)，手動(dòng)創(chuàng)建新的訓(xùn)練和測(cè)試分割。

通過檢查示例提交在兩個(gè)集合上的得分是否相似，OpenAI確保了原始和重構(gòu)測(cè)試集的分布相似。這樣，就保持了競(jìng)賽的訓(xùn)練/測(cè)試分割比例。

做完以上措施后，OpenAI預(yù)期：MLE-bench競(jìng)賽測(cè)試集上的分?jǐn)?shù)與人類在競(jìng)賽排行榜上的分?jǐn)?shù)具有可比性，尤其是在平均水平上。

指標(biāo)

排行榜

OpenAI使用每個(gè)Kaggle競(jìng)賽的排行榜來為MLE-bench的表現(xiàn)提供參照。因?yàn)镵aggle提交有時(shí)會(huì)過度擬合到公開排行榜，所以他們用的是私有排行榜。

獎(jiǎng)牌

Kaggle會(huì)根據(jù)參賽者相對(duì)于排行榜的表現(xiàn)，向優(yōu)勝的參賽者頒發(fā)銅牌、銀牌和金牌。

同樣，MLE-bench也會(huì)把AI智能體提交的結(jié)果與私有排行榜進(jìn)行比較，來跟AI智能體頒獎(jiǎng)。

銅牌、銀牌和金牌的閾值根據(jù)競(jìng)賽參與者的數(shù)量而變化，確保不同競(jìng)賽中的特定獎(jiǎng)牌始終對(duì)應(yīng)同等的成就。

注意，并非Kaggle上的所有競(jìng)賽都頒獎(jiǎng)，但在MLE-bench中的獎(jiǎng)牌閾值邏輯，會(huì)應(yīng)用于所有競(jìng)賽。

主要指標(biāo)

為了為MLE-bench提供一個(gè)單一的指標(biāo)，OpenAI會(huì)計(jì)算獲得任何獎(jiǎng)牌（銅牌及以上）的嘗試百分比。

這個(gè)指標(biāo)極具挑戰(zhàn)性，如果達(dá)到上限，就已經(jīng)能和最優(yōu)秀的人類Kagglers多年努力的成就相媲美。迄今為止，只有兩人在75個(gè)不同的Kaggle競(jìng)賽中獲得過獎(jiǎng)牌。

原始分?jǐn)?shù)

OpenAI會(huì)報(bào)告模型在每個(gè)競(jìng)賽中獲得的原始分?jǐn)?shù)。這對(duì)于跟蹤特定競(jìng)賽的進(jìn)展很有用，盡管由于每個(gè)競(jìng)賽使用不同的指標(biāo)，很難在競(jìng)賽之間匯總分?jǐn)?shù)。

設(shè)置

MLE-bench的設(shè)計(jì)不受限于解決方法，只需要向每個(gè)競(jìng)賽提交一個(gè)CSV文件進(jìn)行評(píng)分。

不過，OpenAI還是鼓勵(lì)開發(fā)者在評(píng)估AI智能體表現(xiàn)時(shí)，提交更多細(xì)節(jié)。

比如使用的模型和框架、AI智能體是否有互聯(lián)網(wǎng)訪問權(quán)限、可用硬件、運(yùn)行時(shí)間、AI智能體提示詞中是否包含任何部分或完整的Kaggle競(jìng)賽解決方案，以及是否與實(shí)驗(yàn)設(shè)置有任何重大偏差。

- 驗(yàn)證提交

真實(shí)的Kaggle競(jìng)賽通常允許參與者每天向公開排行榜提交最多5次，以檢查其提交的有效性并提供分?jǐn)?shù)。

類似地，OpenAIOpenAI也允許AI 智能體訪問本地驗(yàn)證服務(wù)器，以檢查其提交的有效性，盡管后者不會(huì)提供分?jǐn)?shù)。對(duì)AI 智能體使用此工具的頻率則沒有限制。

規(guī)則

提交必須由獨(dú)立于AI智能體的模型生成，并且禁止AI智能體使用自身的世界知識(shí)，直接將預(yù)測(cè)寫入其提交文件。

這就可以防止AI智能體簡(jiǎn)單地從其預(yù)訓(xùn)練數(shù)據(jù)中回憶可能已記憶的標(biāo)簽，還能確保AI智能體參與ML工程。同時(shí)也禁止AI智能體查看在Kaggle或GitHub上可以找到的在線解決方案。

- 違規(guī)檢測(cè)

為確保AI智能體遵守規(guī)則，OpenAI提供了一個(gè)使用GPT-4o檢查AI智能體日志的工具。它會(huì)檢查AI智能體是否通過手動(dòng)編寫提交文件，而非使用模型、調(diào)用外部API或嘗試訪問未經(jīng)授權(quán)的資源。

- 抄襲檢測(cè)

為防止抄襲，OpenAI會(huì)使用代碼抄襲檢測(cè)工具Dolos，將AI智能體提交的代碼與相關(guān)Kaggle競(jìng)賽的前50個(gè)筆記本進(jìn)行比較。如果任何AI智能體提交的代碼相似度超過60%，就會(huì)被進(jìn)一步審查。

o1模型拿下7枚金牌，AI kaggle大師誕生

實(shí)驗(yàn)中，OpenAI在一個(gè)Ubuntu 20.04 Docker容器中運(yùn)行AI 智能體，該容器包含數(shù)據(jù)集、驗(yàn)證服務(wù)器和可能對(duì)ML工程有幫助的Python包。

75個(gè)競(jìng)賽中，每個(gè)競(jìng)賽答題時(shí)間為224小時(shí)。

在每次運(yùn)行中，AI智能體可以在一臺(tái)配備36個(gè)vCPU、440GB RAM、4095 GiB SSD和一個(gè)Nvidia A10 GPU的機(jī)器執(zhí)行。

主要實(shí)驗(yàn)

不同框架

為得到性能最佳的框架，OpenAI使用三個(gè)開源框架評(píng)估GPT-4o：AIDE、來自MLAgentBench的ResearchAgent（MLAB）、來自O(shè)penHands平臺(tái)的CodeActAgent（稱為OpenHands）。

他們對(duì)每個(gè)框架進(jìn)行了微小的修改，以提高它們?cè)诨鶞?zhǔn)測(cè)試上的性能。

結(jié)果如表2所示，GPT-4o（AIDE）平均獲得的獎(jiǎng)牌數(shù)量，比MLAB和OpenHands多（分別為8.7%、0.8%和4.4%），盡管有效提交的數(shù)量相似。

值得注意的是，AIDE是專門為Kaggle競(jìng)賽構(gòu)建的，而其他框架是通用的。

如下圖2，展示了每個(gè)框架軌跡的片段。

不同模型

上面實(shí)驗(yàn)得出AIDE是最佳框架，這里就嘗試下改變底層模型，性能會(huì)有怎樣的變化。

接下來，OpenAI使用AIDE評(píng)估了四種不同的模型：o1-preview、GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B。

結(jié)果發(fā)現(xiàn)，o1-preview明顯優(yōu)于所有其他模型，在16.9%競(jìng)賽中拿下獎(jiǎng)牌，而且平均獲得的獎(jiǎng)牌數(shù)量幾乎是次優(yōu)模型的2倍（表2）。

值得一提的是，成為Kaggle大師（Kaggle Grandmaster）需要5枚金牌，而o1-preview在MLE-bench上平均獲得7枚金牌。

需要注意的是，OpenAI并非選擇的所有競(jìng)賽都頒發(fā)獎(jiǎng)牌，MLE-bench使用略微修改的數(shù)據(jù)集和評(píng)分，并且在許多情況下，AI 智能體有使用更新技術(shù)的優(yōu)勢(shì)。

增加嘗試次數(shù)，AI性能暴漲17%

為了觀察智能體性能如何隨著更多嘗試而變化，作者使用了pass@k指標(biāo)評(píng)估GPT-4o（AIDE）和o1-preview（AIDE）。

他們估算在給定k次嘗試每個(gè)競(jìng)賽的情況下，AI 智能體競(jìng)賽中以多大幾率獲得獎(jiǎng)牌，這些嘗試從n個(gè)種子中抽取。pass@k的計(jì)算公式如下：

圖3展示了k ∈ {1, ..., n/2}范圍內(nèi)的主要結(jié)果。

研究觀察到，隨著嘗試次數(shù)的增加，兩個(gè)AI 智能體獲得獎(jiǎng)牌的百分比都呈現(xiàn)持續(xù)上升的趨勢(shì)。

這表明，增加嘗試次數(shù)可以有效提高AI 智能體在競(jìng)賽中的表現(xiàn)。

改變算力資源

在主要實(shí)驗(yàn)中，OpenAI為AI智能體提供了單個(gè)24GB A10 GPU。

相比之下，Kaggle為用戶提供免費(fèi)的16GB P100 GPU，而用戶通常也會(huì)使用自己的硬件參與競(jìng)爭(zhēng)。

因此，硬件的配比是否會(huì)影響AI智能體的性能？或者它們是否甚至根據(jù)可能硬件調(diào)整策略？

接下來，OpenAI比較了GPT-4o（AIDE）在三種不同硬件設(shè)置下的性能：?jiǎn)蝹€(gè)A10 GPU、僅CPU、兩個(gè)A10 GPU。

令人驚訝的是，GPT-4o（AIDE）在所有實(shí)驗(yàn)中表現(xiàn)相似。

而且，他們手動(dòng)查看了幾個(gè)來自「額外GPU」實(shí)驗(yàn)的日志，沒有發(fā)現(xiàn)GPT-4o AIDE嘗試使用第二個(gè)GPU的情況。

增加可用時(shí)間

在主要實(shí)驗(yàn)中，每次競(jìng)賽嘗試的時(shí)間限制為24小時(shí)；相比之下，Kaggle競(jìng)賽中，人類參賽者通常有數(shù)周或數(shù)月的時(shí)間。

增加時(shí)間限制，可以讓AI智能體有更多時(shí)間來迭代解決方案，給予模型更長(zhǎng)的訓(xùn)練時(shí)間。

OpenAI進(jìn)行了一項(xiàng)實(shí)驗(yàn)，為GPT-4o（AIDE，一種AI輔助開發(fā)環(huán)境）提供了每次競(jìng)賽100小時(shí)的更長(zhǎng)時(shí)間限制，并將允許的最大節(jié)點(diǎn)數(shù)增加至5,000個(gè)。

他們每小時(shí)對(duì)AI 智能體的最佳嘗試進(jìn)行快照，并對(duì)每個(gè)快照進(jìn)行評(píng)分。

OpenAI發(fā)現(xiàn)，GPT-4o（AIDE）在執(zhí)行的前幾個(gè)小時(shí)內(nèi)就獲得了大量獎(jiǎng)牌），在運(yùn)行過程中還會(huì)緩慢累積更多獎(jiǎng)牌。

有趣的是，有時(shí)GPT-4o（AIDE）獲得的獎(jiǎng)牌數(shù)量實(shí)際上會(huì)減少。這是由于AIDE用于選擇其「最佳」嘗試的方法不夠完善所導(dǎo)致。

污染與抄襲

對(duì)解決方案的熟悉程度

如果模型在訓(xùn)練過程中接觸到了關(guān)于獲勝解決方案的討論并采用了其高層策略，就可能會(huì)導(dǎo)致在新的ML工程任務(wù)上不具備泛化能力。

先前的研究表明，模型對(duì)訓(xùn)練期間看到的文檔的token會(huì)賦予更高的概率因此，OpenAI將模型對(duì)給定文檔的熟悉程度定義為模型在給定所有前序token的條件下，對(duì)該文檔中每個(gè)token分配的平均概率。

結(jié)果顯示， GPT-4o基礎(chǔ)模型對(duì)某個(gè)競(jìng)賽的熟悉程度與其表現(xiàn)之間沒有相關(guān)性。

混淆競(jìng)賽描述

為了檢測(cè)模型是否依賴于將熟悉的問題與記憶的解決方案匹配，OpenAI手動(dòng)重寫了MLE-bench中所有75個(gè)競(jìng)賽的描述。例如，移除了所有對(duì)Kaggle和競(jìng)賽名稱的引用，并刪除了非必需的文本。

結(jié)果顯示， GPT-4o（AIDE）在原始和混淆的競(jìng)賽描述上取得了相似的分?jǐn)?shù)。

也就是說，GPT-4o并沒有過度依賴競(jìng)賽描述的原始形式，且模型對(duì)Kaggle競(jìng)賽的熟悉程度并沒有系統(tǒng)性地提高得分。

對(duì)AGI的影響

能夠自主進(jìn)行ML研究的AI智能體，將會(huì)產(chǎn)生諸多積極影響，例如加速醫(yī)療保健、氣候科學(xué)等領(lǐng)域的科學(xué)進(jìn)展，加快模型的安全性和對(duì)齊研究，并通過開發(fā)新產(chǎn)品促進(jìn)經(jīng)濟(jì)增長(zhǎng)。

可以說，智能體執(zhí)行高質(zhì)量研究的能力，可能標(biāo)志著經(jīng)濟(jì)的一個(gè)轉(zhuǎn)折點(diǎn)。

能夠執(zhí)行開放式ML研究任務(wù)的智能體，例如在改進(jìn)自身訓(xùn)練代碼的水平上，可能會(huì)比人類研究員更快地顯著提高前沿模型的能力，但同時(shí)也會(huì)帶來安全風(fēng)險(xiǎn)。

OpenAI認(rèn)為，能夠解決MLE-bench大部分問題的模型很可能具備執(zhí)行許多開放式ML任務(wù)的能力。

MLE-bench的開源，便是為了幫助研究大語(yǔ)言模型的智能體能力，并提高研究實(shí)驗(yàn)室在加速風(fēng)險(xiǎn)方面的透明度。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="pk5zj"><i id="pk5zj"></i></sub>

<style id="pk5zj"></style>