自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)AI Kaggle特級(jí)大師誕生,o1奪7金封王!OpenAI放出AGI大招:L3級(jí)智能體明年要來?

人工智能 新聞
OpenAI即將要兌現(xiàn)L3級(jí)智能體承諾了!MLE-bench新基準(zhǔn)匯聚75個(gè)Kaggle競(jìng)賽,o1首測(cè)便拿下7金,多次嘗試性能還能飆升17%,堪稱首個(gè)AI Kaggle特級(jí)大師。

首個(gè)AI Kaggle特級(jí)大師誕生了!

剛剛,OpenAI發(fā)布了智能體基準(zhǔn)MLE-bench,專為評(píng)估AI智能體在機(jī)器學(xué)習(xí)工程任務(wù)中的表現(xiàn)而打造。

圖片

為此,團(tuán)隊(duì)從Kaggle上精選了75個(gè)真實(shí)世界數(shù)據(jù)科學(xué)比賽,并創(chuàng)建出一系列多樣化、具有挑戰(zhàn)性任務(wù)。

比如,訓(xùn)練模型、數(shù)據(jù)集準(zhǔn)備、運(yùn)行實(shí)驗(yàn)等環(huán)節(jié),均有涉及。

要知道,OpenAI內(nèi)部一直都在致力于做出超級(jí)AI智能體,o1推理模型發(fā)布已經(jīng)讓他們實(shí)現(xiàn)了二級(jí)AGI。

圖片

在最新MLE-bench論文中,作者還揭示了實(shí)現(xiàn)AGI的關(guān)鍵所在——

AI智能體能夠解決MLE-bench所有問題,可能會(huì)帶來奇點(diǎn)。

圖片

論文地址:https://arxiv.org/abs/2410.07095

實(shí)驗(yàn)結(jié)果表明,最強(qiáng)o1-preview聯(lián)手AIDE,在16.9%的比賽中達(dá)到了Kaggle銅牌級(jí)別的水平。

這說明,在某些任務(wù)中,AI已經(jīng)能夠與專業(yè)人類數(shù)據(jù)科學(xué)家相媲美。

不過,研究也揭示了AI與人類專業(yè)知識(shí)之間的顯著差距。也就是,AI在應(yīng)用標(biāo)準(zhǔn)技術(shù)方面表現(xiàn)良好,但在需要適應(yīng)性、創(chuàng)造性問題上,遇到了困難。

多位網(wǎng)友暗示道,基準(zhǔn)都準(zhǔn)備好了,明年我們就會(huì)看到L3智能體級(jí)別的AI。

圖片

圖片

AI智能體挑戰(zhàn)Kaggle

不斷涌現(xiàn)的智能體,正日益自動(dòng)化開發(fā)者工程流,加速工作效率。

然而,當(dāng)前很少有基準(zhǔn)測(cè)試,能夠全面衡量自主端到端ML工程。

OpenAI發(fā)布MLE-bench希望去填補(bǔ)這一空缺。這是一個(gè)離線Kaggle競(jìng)賽環(huán)境,如前所述,專用于評(píng)估AI智能體在執(zhí)行困難的機(jī)器學(xué)習(xí)工程(MLE)任務(wù)方面的表現(xiàn)。

圖片

它的設(shè)計(jì)主要有兩種考量:

1. 具有挑戰(zhàn)性,且能代表當(dāng)代MLE任務(wù)

2. 能夠?qū)⒃u(píng)估結(jié)果與人類水平相比較

75個(gè)跨域真實(shí)世界的多樣化Kaggle競(jìng)賽,涵蓋了自然語(yǔ)言處理、計(jì)算機(jī)視覺,以及信號(hào)處理的問題。

其中,許多競(jìng)賽都是具有現(xiàn)實(shí)意義的挑戰(zhàn),比如OpenVaccine(COVID-19 mRNA疫苗降解預(yù)測(cè))、用于破譯古卷軸Vesuvius Challenge。

圖片

這75個(gè)競(jìng)賽總獎(jiǎng)金池為1,948,016美元(約1379萬(wàn)),平均每個(gè)競(jìng)賽25,974美元。

OpenAI稱,「能夠自主解決MLE-bench基準(zhǔn)挑戰(zhàn)中的AI智能體,可能會(huì)大大加速科學(xué)進(jìn)步」。

這個(gè)前景足以令人興奮,但同時(shí)也需要謹(jǐn)慎對(duì)待模型,確??煽匕踩牟渴?。

比如,MLE-bench可用作OpenAI準(zhǔn)備框架(Preparedness Framework)中模型自主性衡量標(biāo)準(zhǔn)、Anthropic負(fù)責(zé)任擴(kuò)展政策(Responsible Scaling Policy)中自主能力,以及谷歌DeepMind前沿安全框架中ML研發(fā)。

研究發(fā)現(xiàn),領(lǐng)先LLM配合開源框架使用時(shí),能在MLE-bench上取得顯著的成績(jī)。

而評(píng)估結(jié)果中,把的頭籌最佳智能體是——o1-preview。它在與專為Kaggle競(jìng)賽構(gòu)建的框架AIDE結(jié)合時(shí),平均在16.9%的競(jìng)賽中獲得獎(jiǎng)牌。

另外,研究還發(fā)現(xiàn),當(dāng)智能體在每個(gè)競(jìng)賽中多次嘗試后,性能顯著提高。

比如,o1-preview得分從單次嘗試pass@1的16.9%,直接飆升到pass@8的34.1%。

總的來說,當(dāng)前所有AI智能體在眾所周知方法解決競(jìng)賽中成績(jī)出眾,但在需要調(diào)試、從失誤中恢復(fù)的任務(wù)上,仍面臨挑戰(zhàn)。

OpenAI這項(xiàng)研究主要貢獻(xiàn)包括:

  1. MLE-bench:由75個(gè)離線Kaggle競(jìng)賽組成的基準(zhǔn)測(cè)試,用于評(píng)估AI智能體的MLE能力
  2. 對(duì)最先進(jìn)模型和智能體框架進(jìn)行大規(guī)模評(píng)估,揭示了有關(guān)自主MLE智能體前景和局限性的新信息
  3. 對(duì)智能體資源擴(kuò)展進(jìn)行實(shí)驗(yàn),包括擴(kuò)展智能體運(yùn)行時(shí)間、硬件資源和pass@k嘗試次數(shù),探索當(dāng)前智能體的性能上限
  4. 調(diào)查數(shù)據(jù)集污染與智能體性能之間關(guān)系的實(shí)驗(yàn),以及用于檢測(cè)抄襲和作弊的智能體監(jiān)控工具

MLE-BENCH

MLE-bench由75個(gè)ML工程任務(wù)組成,這些任務(wù)是從Kaggle手動(dòng)篩選的,反映了前沿實(shí)驗(yàn)室中ML工程師日常使用的核心技能集。

作為托管數(shù)據(jù)科學(xué)和ML競(jìng)賽的平臺(tái),Kaggle要求參與者構(gòu)建預(yù)測(cè)模型來解決挑戰(zhàn),而且通常是使用真實(shí)世界的數(shù)據(jù)集。

在每個(gè)特定的指標(biāo)上,參與者都可以獲得最佳分?jǐn)?shù),取得排行榜上的排名,并獲得銅牌、銀牌和金牌。

數(shù)據(jù)集

MLE-bench中的每個(gè)樣本都是一個(gè)Kaggle競(jìng)賽,包括:

  • 從競(jìng)賽網(wǎng)站的「概述」和「數(shù)據(jù)」標(biāo)簽頁(yè)抓取的描述
  • 競(jìng)賽數(shù)據(jù)集,在大多數(shù)情況下使用新的訓(xùn)練-測(cè)試分割
  • 用于本地評(píng)估提交的評(píng)分代碼
  • 競(jìng)賽排行榜的快照,用于將提交與人類進(jìn)行排名

為了得到構(gòu)成MLE-bench的競(jìng)賽集,OpenAI從Meta Kaggle數(shù)據(jù)集中列出的5673個(gè)已完成的Kaggle競(jìng)賽開始。

首先他們排除了社區(qū)競(jìng)賽,因?yàn)樗馁|(zhì)量并沒有被嚴(yán)格審核。

隨后,他們手動(dòng)篩選了剩下的586個(gè)競(jìng)賽,保證它們一定與現(xiàn)代ML工程相關(guān)。

然后,OpenAI排除了無(wú)法復(fù)制評(píng)分程序或無(wú)法重新創(chuàng)建合理的訓(xùn)練-測(cè)試分割的競(jìng)賽,手動(dòng)注釋了每個(gè)競(jìng)賽的問題類型(例如文本分類、圖像分割等),還用復(fù)雜度級(jí)別注釋了每個(gè)競(jìng)賽。

經(jīng)過上述過程,OpenAI選擇了75個(gè)競(jìng)賽納入MLE-bench,包括22個(gè)低復(fù)雜度競(jìng)賽(30%)、38個(gè)中等復(fù)雜度(50%)和15個(gè)高復(fù)雜度(20%)。

他們還將額外的7個(gè)競(jìng)賽作為開發(fā)分割,用于開發(fā)智能體,不將測(cè)試集過擬合。

圖片

對(duì)于每個(gè)競(jìng)賽,如果原始數(shù)據(jù)集公開可用,OpenAI就使用原始數(shù)據(jù)集,盡管Kaggle競(jìng)賽一般在競(jìng)賽結(jié)束后也不會(huì)發(fā)布測(cè)試集。

在這種情況下,他們會(huì)根據(jù)公開可用的訓(xùn)練數(shù)據(jù),手動(dòng)創(chuàng)建新的訓(xùn)練和測(cè)試分割。

通過檢查示例提交在兩個(gè)集合上的得分是否相似,OpenAI確保了原始和重構(gòu)測(cè)試集的分布相似。這樣,就保持了競(jìng)賽的訓(xùn)練/測(cè)試分割比例。

做完以上措施后,OpenAI預(yù)期:MLE-bench競(jìng)賽測(cè)試集上的分?jǐn)?shù)與人類在競(jìng)賽排行榜上的分?jǐn)?shù)具有可比性,尤其是在平均水平上。

指標(biāo)

排行榜

OpenAI使用每個(gè)Kaggle競(jìng)賽的排行榜來為MLE-bench的表現(xiàn)提供參照。因?yàn)镵aggle提交有時(shí)會(huì)過度擬合到公開排行榜,所以他們用的是私有排行榜。

獎(jiǎng)牌

Kaggle會(huì)根據(jù)參賽者相對(duì)于排行榜的表現(xiàn),向優(yōu)勝的參賽者頒發(fā)銅牌、銀牌和金牌。

同樣,MLE-bench也會(huì)把AI智能體提交的結(jié)果與私有排行榜進(jìn)行比較,來跟AI智能體頒獎(jiǎng)。

銅牌、銀牌和金牌的閾值根據(jù)競(jìng)賽參與者的數(shù)量而變化,確保不同競(jìng)賽中的特定獎(jiǎng)牌始終對(duì)應(yīng)同等的成就。

注意,并非Kaggle上的所有競(jìng)賽都頒獎(jiǎng),但在MLE-bench中的獎(jiǎng)牌閾值邏輯,會(huì)應(yīng)用于所有競(jìng)賽。

圖片

主要指標(biāo)

為了為MLE-bench提供一個(gè)單一的指標(biāo),OpenAI會(huì)計(jì)算獲得任何獎(jiǎng)牌(銅牌及以上)的嘗試百分比。

這個(gè)指標(biāo)極具挑戰(zhàn)性,如果達(dá)到上限,就已經(jīng)能和最優(yōu)秀的人類Kagglers多年努力的成就相媲美。迄今為止,只有兩人在75個(gè)不同的Kaggle競(jìng)賽中獲得過獎(jiǎng)牌。

原始分?jǐn)?shù)

OpenAI會(huì)報(bào)告模型在每個(gè)競(jìng)賽中獲得的原始分?jǐn)?shù)。這對(duì)于跟蹤特定競(jìng)賽的進(jìn)展很有用,盡管由于每個(gè)競(jìng)賽使用不同的指標(biāo),很難在競(jìng)賽之間匯總分?jǐn)?shù)。

設(shè)置

MLE-bench的設(shè)計(jì)不受限于解決方法,只需要向每個(gè)競(jìng)賽提交一個(gè)CSV文件進(jìn)行評(píng)分。

不過,OpenAI還是鼓勵(lì)開發(fā)者在評(píng)估AI智能體表現(xiàn)時(shí),提交更多細(xì)節(jié)。

比如使用的模型和框架、AI智能體是否有互聯(lián)網(wǎng)訪問權(quán)限、可用硬件、運(yùn)行時(shí)間、AI智能體提示詞中是否包含任何部分或完整的Kaggle競(jìng)賽解決方案,以及是否與實(shí)驗(yàn)設(shè)置有任何重大偏差。

- 驗(yàn)證提交

真實(shí)的Kaggle競(jìng)賽通常允許參與者每天向公開排行榜提交最多5次,以檢查其提交的有效性并提供分?jǐn)?shù)。

類似地,OpenAIOpenAI也允許AI 智能體訪問本地驗(yàn)證服務(wù)器,以檢查其提交的有效性,盡管后者不會(huì)提供分?jǐn)?shù)。對(duì)AI 智能體使用此工具的頻率則沒有限制。

規(guī)則

提交必須由獨(dú)立于AI智能體的模型生成,并且禁止AI智能體使用自身的世界知識(shí),直接將預(yù)測(cè)寫入其提交文件。

這就可以防止AI智能體簡(jiǎn)單地從其預(yù)訓(xùn)練數(shù)據(jù)中回憶可能已記憶的標(biāo)簽,還能確保AI智能體參與ML工程。同時(shí)也禁止AI智能體查看在Kaggle或GitHub上可以找到的在線解決方案。

- 違規(guī)檢測(cè)

為確保AI智能體遵守規(guī)則,OpenAI提供了一個(gè)使用GPT-4o檢查AI智能體日志的工具。它會(huì)檢查AI智能體是否通過手動(dòng)編寫提交文件,而非使用模型、調(diào)用外部API或嘗試訪問未經(jīng)授權(quán)的資源。

- 抄襲檢測(cè)

為防止抄襲,OpenAI會(huì)使用代碼抄襲檢測(cè)工具Dolos,將AI智能體提交的代碼與相關(guān)Kaggle競(jìng)賽的前50個(gè)筆記本進(jìn)行比較。如果任何AI智能體提交的代碼相似度超過60%,就會(huì)被進(jìn)一步審查。

o1模型拿下7枚金牌,AI kaggle大師誕生

實(shí)驗(yàn)中,OpenAI在一個(gè)Ubuntu 20.04 Docker容器中運(yùn)行AI 智能體,該容器包含數(shù)據(jù)集、驗(yàn)證服務(wù)器和可能對(duì)ML工程有幫助的Python包。

75個(gè)競(jìng)賽中,每個(gè)競(jìng)賽答題時(shí)間為224小時(shí)。

在每次運(yùn)行中,AI智能體可以在一臺(tái)配備36個(gè)vCPU、440GB RAM、4095 GiB SSD和一個(gè)Nvidia A10 GPU的機(jī)器執(zhí)行。

主要實(shí)驗(yàn)

不同框架

為得到性能最佳的框架,OpenAI使用三個(gè)開源框架評(píng)估GPT-4o:AIDE、來自MLAgentBench的ResearchAgent(MLAB)、來自O(shè)penHands平臺(tái)的CodeActAgent(稱為OpenHands)。

他們對(duì)每個(gè)框架進(jìn)行了微小的修改,以提高它們?cè)诨鶞?zhǔn)測(cè)試上的性能。

圖片

結(jié)果如表2所示,GPT-4o(AIDE)平均獲得的獎(jiǎng)牌數(shù)量,比MLAB和OpenHands多(分別為8.7%、0.8%和4.4%),盡管有效提交的數(shù)量相似。

值得注意的是,AIDE是專門為Kaggle競(jìng)賽構(gòu)建的,而其他框架是通用的。

圖片

如下圖2,展示了每個(gè)框架軌跡的片段。

圖片

不同模型

上面實(shí)驗(yàn)得出AIDE是最佳框架,這里就嘗試下改變底層模型,性能會(huì)有怎樣的變化。

接下來,OpenAI使用AIDE評(píng)估了四種不同的模型:o1-preview、GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B。

結(jié)果發(fā)現(xiàn),o1-preview明顯優(yōu)于所有其他模型,在16.9%競(jìng)賽中拿下獎(jiǎng)牌,而且平均獲得的獎(jiǎng)牌數(shù)量幾乎是次優(yōu)模型的2倍(表2)。

值得一提的是,成為Kaggle大師(Kaggle Grandmaster)需要5枚金牌,而o1-preview在MLE-bench上平均獲得7枚金牌。

需要注意的是,OpenAI并非選擇的所有競(jìng)賽都頒發(fā)獎(jiǎng)牌,MLE-bench使用略微修改的數(shù)據(jù)集和評(píng)分,并且在許多情況下,AI 智能體有使用更新技術(shù)的優(yōu)勢(shì)。

增加嘗試次數(shù),AI性能暴漲17%

為了觀察智能體性能如何隨著更多嘗試而變化,作者使用了pass@k指標(biāo)評(píng)估GPT-4o(AIDE)和o1-preview(AIDE)。

他們估算在給定k次嘗試每個(gè)競(jìng)賽的情況下,AI 智能體競(jìng)賽中以多大幾率獲得獎(jiǎng)牌,這些嘗試從n個(gè)種子中抽取。pass@k的計(jì)算公式如下:

圖片

圖3展示了k ∈ {1, ..., n/2}范圍內(nèi)的主要結(jié)果。

研究觀察到,隨著嘗試次數(shù)的增加,兩個(gè)AI 智能體獲得獎(jiǎng)牌的百分比都呈現(xiàn)持續(xù)上升的趨勢(shì)。

這表明,增加嘗試次數(shù)可以有效提高AI 智能體在競(jìng)賽中的表現(xiàn)。

圖片

改變算力資源

在主要實(shí)驗(yàn)中,OpenAI為AI智能體提供了單個(gè)24GB A10 GPU。

相比之下,Kaggle為用戶提供免費(fèi)的16GB P100 GPU,而用戶通常也會(huì)使用自己的硬件參與競(jìng)爭(zhēng)。

因此,硬件的配比是否會(huì)影響AI智能體的性能?或者它們是否甚至根據(jù)可能硬件調(diào)整策略?

接下來,OpenAI比較了GPT-4o(AIDE)在三種不同硬件設(shè)置下的性能:?jiǎn)蝹€(gè)A10 GPU、僅CPU、兩個(gè)A10 GPU。

令人驚訝的是,GPT-4o(AIDE)在所有實(shí)驗(yàn)中表現(xiàn)相似。

而且,他們手動(dòng)查看了幾個(gè)來自「額外GPU」實(shí)驗(yàn)的日志,沒有發(fā)現(xiàn)GPT-4o AIDE嘗試使用第二個(gè)GPU的情況。

圖片

增加可用時(shí)間

在主要實(shí)驗(yàn)中,每次競(jìng)賽嘗試的時(shí)間限制為24小時(shí);相比之下,Kaggle競(jìng)賽中,人類參賽者通常有數(shù)周或數(shù)月的時(shí)間。

增加時(shí)間限制,可以讓AI智能體有更多時(shí)間來迭代解決方案,給予模型更長(zhǎng)的訓(xùn)練時(shí)間。

OpenAI進(jìn)行了一項(xiàng)實(shí)驗(yàn),為GPT-4o(AIDE,一種AI輔助開發(fā)環(huán)境)提供了每次競(jìng)賽100小時(shí)的更長(zhǎng)時(shí)間限制,并將允許的最大節(jié)點(diǎn)數(shù)增加至5,000個(gè)。

他們每小時(shí)對(duì)AI 智能體的最佳嘗試進(jìn)行快照,并對(duì)每個(gè)快照進(jìn)行評(píng)分。

OpenAI發(fā)現(xiàn),GPT-4o(AIDE)在執(zhí)行的前幾個(gè)小時(shí)內(nèi)就獲得了大量獎(jiǎng)牌),在運(yùn)行過程中還會(huì)緩慢累積更多獎(jiǎng)牌。

有趣的是,有時(shí)GPT-4o(AIDE)獲得的獎(jiǎng)牌數(shù)量實(shí)際上會(huì)減少。這是由于AIDE用于選擇其「最佳」嘗試的方法不夠完善所導(dǎo)致。

污染與抄襲

對(duì)解決方案的熟悉程度

如果模型在訓(xùn)練過程中接觸到了關(guān)于獲勝解決方案的討論并采用了其高層策略,就可能會(huì)導(dǎo)致在新的ML工程任務(wù)上不具備泛化能力。

先前的研究表明,模型對(duì)訓(xùn)練期間看到的文檔的token會(huì)賦予更高的概率因此,OpenAI將模型對(duì)給定文檔的熟悉程度定義為模型在給定所有前序token的條件下,對(duì)該文檔中每個(gè)token分配的平均概率。

結(jié)果顯示, GPT-4o基礎(chǔ)模型對(duì)某個(gè)競(jìng)賽的熟悉程度與其表現(xiàn)之間沒有相關(guān)性。

圖片

混淆競(jìng)賽描述

為了檢測(cè)模型是否依賴于將熟悉的問題與記憶的解決方案匹配,OpenAI手動(dòng)重寫了MLE-bench中所有75個(gè)競(jìng)賽的描述。例如,移除了所有對(duì)Kaggle和競(jìng)賽名稱的引用,并刪除了非必需的文本。

結(jié)果顯示, GPT-4o(AIDE)在原始和混淆的競(jìng)賽描述上取得了相似的分?jǐn)?shù)。

也就是說,GPT-4o并沒有過度依賴競(jìng)賽描述的原始形式,且模型對(duì)Kaggle競(jìng)賽的熟悉程度并沒有系統(tǒng)性地提高得分。

圖片

對(duì)AGI的影響

能夠自主進(jìn)行ML研究的AI智能體,將會(huì)產(chǎn)生諸多積極影響,例如加速醫(yī)療保健、氣候科學(xué)等領(lǐng)域的科學(xué)進(jìn)展,加快模型的安全性和對(duì)齊研究,并通過開發(fā)新產(chǎn)品促進(jìn)經(jīng)濟(jì)增長(zhǎng)。

可以說,智能體執(zhí)行高質(zhì)量研究的能力,可能標(biāo)志著經(jīng)濟(jì)的一個(gè)轉(zhuǎn)折點(diǎn)。

能夠執(zhí)行開放式ML研究任務(wù)的智能體,例如在改進(jìn)自身訓(xùn)練代碼的水平上,可能會(huì)比人類研究員更快地顯著提高前沿模型的能力,但同時(shí)也會(huì)帶來安全風(fēng)險(xiǎn)。

OpenAI認(rèn)為,能夠解決MLE-bench大部分問題的模型很可能具備執(zhí)行許多開放式ML任務(wù)的能力。

MLE-bench的開源,便是為了幫助研究大語(yǔ)言模型的智能體能力,并提高研究實(shí)驗(yàn)室在加速風(fēng)險(xiǎn)方面的透明度。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-01-24 08:13:38

2024-11-18 08:30:00

2024-12-30 09:30:00

OpenAIAI訓(xùn)練

2025-01-24 08:30:00

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2025-01-15 11:58:06

2024-09-13 10:14:36

2024-09-24 11:01:03

2024-12-12 11:29:51

2024-09-13 12:34:54

2024-12-09 09:00:00

AGI智能

2024-11-07 15:40:00

2024-10-09 13:42:29

2024-07-12 12:51:44

2025-01-02 09:30:00

AI數(shù)據(jù)測(cè)試

2025-01-13 08:00:00

訓(xùn)練模型AI

2025-01-24 09:00:00

2024-10-05 00:00:00

2021-10-20 19:14:30

緩存CacheCPU
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)