首個(gè)AI Kaggle特級(jí)大師誕生,o1奪7金封王!OpenAI放出AGI大招:L3級(jí)智能體明年要來?
首個(gè)AI Kaggle特級(jí)大師誕生了!
剛剛,OpenAI發(fā)布了智能體基準(zhǔn)MLE-bench,專為評(píng)估AI智能體在機(jī)器學(xué)習(xí)工程任務(wù)中的表現(xiàn)而打造。
為此,團(tuán)隊(duì)從Kaggle上精選了75個(gè)真實(shí)世界數(shù)據(jù)科學(xué)比賽,并創(chuàng)建出一系列多樣化、具有挑戰(zhàn)性任務(wù)。
比如,訓(xùn)練模型、數(shù)據(jù)集準(zhǔn)備、運(yùn)行實(shí)驗(yàn)等環(huán)節(jié),均有涉及。
要知道,OpenAI內(nèi)部一直都在致力于做出超級(jí)AI智能體,o1推理模型發(fā)布已經(jīng)讓他們實(shí)現(xiàn)了二級(jí)AGI。
在最新MLE-bench論文中,作者還揭示了實(shí)現(xiàn)AGI的關(guān)鍵所在——
AI智能體能夠解決MLE-bench所有問題,可能會(huì)帶來奇點(diǎn)。
論文地址:https://arxiv.org/abs/2410.07095
實(shí)驗(yàn)結(jié)果表明,最強(qiáng)o1-preview聯(lián)手AIDE,在16.9%的比賽中達(dá)到了Kaggle銅牌級(jí)別的水平。
這說明,在某些任務(wù)中,AI已經(jīng)能夠與專業(yè)人類數(shù)據(jù)科學(xué)家相媲美。
不過,研究也揭示了AI與人類專業(yè)知識(shí)之間的顯著差距。也就是,AI在應(yīng)用標(biāo)準(zhǔn)技術(shù)方面表現(xiàn)良好,但在需要適應(yīng)性、創(chuàng)造性問題上,遇到了困難。
多位網(wǎng)友暗示道,基準(zhǔn)都準(zhǔn)備好了,明年我們就會(huì)看到L3智能體級(jí)別的AI。
AI智能體挑戰(zhàn)Kaggle
不斷涌現(xiàn)的智能體,正日益自動(dòng)化開發(fā)者工程流,加速工作效率。
然而,當(dāng)前很少有基準(zhǔn)測(cè)試,能夠全面衡量自主端到端ML工程。
OpenAI發(fā)布MLE-bench希望去填補(bǔ)這一空缺。這是一個(gè)離線Kaggle競(jìng)賽環(huán)境,如前所述,專用于評(píng)估AI智能體在執(zhí)行困難的機(jī)器學(xué)習(xí)工程(MLE)任務(wù)方面的表現(xiàn)。
它的設(shè)計(jì)主要有兩種考量:
1. 具有挑戰(zhàn)性,且能代表當(dāng)代MLE任務(wù)
2. 能夠?qū)⒃u(píng)估結(jié)果與人類水平相比較
75個(gè)跨域真實(shí)世界的多樣化Kaggle競(jìng)賽,涵蓋了自然語(yǔ)言處理、計(jì)算機(jī)視覺,以及信號(hào)處理的問題。
其中,許多競(jìng)賽都是具有現(xiàn)實(shí)意義的挑戰(zhàn),比如OpenVaccine(COVID-19 mRNA疫苗降解預(yù)測(cè))、用于破譯古卷軸Vesuvius Challenge。
這75個(gè)競(jìng)賽總獎(jiǎng)金池為1,948,016美元(約1379萬(wàn)),平均每個(gè)競(jìng)賽25,974美元。
OpenAI稱,「能夠自主解決MLE-bench基準(zhǔn)挑戰(zhàn)中的AI智能體,可能會(huì)大大加速科學(xué)進(jìn)步」。
這個(gè)前景足以令人興奮,但同時(shí)也需要謹(jǐn)慎對(duì)待模型,確??煽匕踩牟渴?。
比如,MLE-bench可用作OpenAI準(zhǔn)備框架(Preparedness Framework)中模型自主性衡量標(biāo)準(zhǔn)、Anthropic負(fù)責(zé)任擴(kuò)展政策(Responsible Scaling Policy)中自主能力,以及谷歌DeepMind前沿安全框架中ML研發(fā)。
研究發(fā)現(xiàn),領(lǐng)先LLM配合開源框架使用時(shí),能在MLE-bench上取得顯著的成績(jī)。
而評(píng)估結(jié)果中,把的頭籌最佳智能體是——o1-preview。它在與專為Kaggle競(jìng)賽構(gòu)建的框架AIDE結(jié)合時(shí),平均在16.9%的競(jìng)賽中獲得獎(jiǎng)牌。
另外,研究還發(fā)現(xiàn),當(dāng)智能體在每個(gè)競(jìng)賽中多次嘗試后,性能顯著提高。
比如,o1-preview得分從單次嘗試pass@1的16.9%,直接飆升到pass@8的34.1%。
總的來說,當(dāng)前所有AI智能體在眾所周知方法解決競(jìng)賽中成績(jī)出眾,但在需要調(diào)試、從失誤中恢復(fù)的任務(wù)上,仍面臨挑戰(zhàn)。
OpenAI這項(xiàng)研究主要貢獻(xiàn)包括:
- MLE-bench:由75個(gè)離線Kaggle競(jìng)賽組成的基準(zhǔn)測(cè)試,用于評(píng)估AI智能體的MLE能力
- 對(duì)最先進(jìn)模型和智能體框架進(jìn)行大規(guī)模評(píng)估,揭示了有關(guān)自主MLE智能體前景和局限性的新信息
- 對(duì)智能體資源擴(kuò)展進(jìn)行實(shí)驗(yàn),包括擴(kuò)展智能體運(yùn)行時(shí)間、硬件資源和pass@k嘗試次數(shù),探索當(dāng)前智能體的性能上限
- 調(diào)查數(shù)據(jù)集污染與智能體性能之間關(guān)系的實(shí)驗(yàn),以及用于檢測(cè)抄襲和作弊的智能體監(jiān)控工具
MLE-BENCH
MLE-bench由75個(gè)ML工程任務(wù)組成,這些任務(wù)是從Kaggle手動(dòng)篩選的,反映了前沿實(shí)驗(yàn)室中ML工程師日常使用的核心技能集。
作為托管數(shù)據(jù)科學(xué)和ML競(jìng)賽的平臺(tái),Kaggle要求參與者構(gòu)建預(yù)測(cè)模型來解決挑戰(zhàn),而且通常是使用真實(shí)世界的數(shù)據(jù)集。
在每個(gè)特定的指標(biāo)上,參與者都可以獲得最佳分?jǐn)?shù),取得排行榜上的排名,并獲得銅牌、銀牌和金牌。
數(shù)據(jù)集
MLE-bench中的每個(gè)樣本都是一個(gè)Kaggle競(jìng)賽,包括:
- 從競(jìng)賽網(wǎng)站的「概述」和「數(shù)據(jù)」標(biāo)簽頁(yè)抓取的描述
- 競(jìng)賽數(shù)據(jù)集,在大多數(shù)情況下使用新的訓(xùn)練-測(cè)試分割
- 用于本地評(píng)估提交的評(píng)分代碼
- 競(jìng)賽排行榜的快照,用于將提交與人類進(jìn)行排名
為了得到構(gòu)成MLE-bench的競(jìng)賽集,OpenAI從Meta Kaggle數(shù)據(jù)集中列出的5673個(gè)已完成的Kaggle競(jìng)賽開始。
首先他們排除了社區(qū)競(jìng)賽,因?yàn)樗馁|(zhì)量并沒有被嚴(yán)格審核。
隨后,他們手動(dòng)篩選了剩下的586個(gè)競(jìng)賽,保證它們一定與現(xiàn)代ML工程相關(guān)。
然后,OpenAI排除了無(wú)法復(fù)制評(píng)分程序或無(wú)法重新創(chuàng)建合理的訓(xùn)練-測(cè)試分割的競(jìng)賽,手動(dòng)注釋了每個(gè)競(jìng)賽的問題類型(例如文本分類、圖像分割等),還用復(fù)雜度級(jí)別注釋了每個(gè)競(jìng)賽。
經(jīng)過上述過程,OpenAI選擇了75個(gè)競(jìng)賽納入MLE-bench,包括22個(gè)低復(fù)雜度競(jìng)賽(30%)、38個(gè)中等復(fù)雜度(50%)和15個(gè)高復(fù)雜度(20%)。
他們還將額外的7個(gè)競(jìng)賽作為開發(fā)分割,用于開發(fā)智能體,不將測(cè)試集過擬合。
對(duì)于每個(gè)競(jìng)賽,如果原始數(shù)據(jù)集公開可用,OpenAI就使用原始數(shù)據(jù)集,盡管Kaggle競(jìng)賽一般在競(jìng)賽結(jié)束后也不會(huì)發(fā)布測(cè)試集。
在這種情況下,他們會(huì)根據(jù)公開可用的訓(xùn)練數(shù)據(jù),手動(dòng)創(chuàng)建新的訓(xùn)練和測(cè)試分割。
通過檢查示例提交在兩個(gè)集合上的得分是否相似,OpenAI確保了原始和重構(gòu)測(cè)試集的分布相似。這樣,就保持了競(jìng)賽的訓(xùn)練/測(cè)試分割比例。
做完以上措施后,OpenAI預(yù)期:MLE-bench競(jìng)賽測(cè)試集上的分?jǐn)?shù)與人類在競(jìng)賽排行榜上的分?jǐn)?shù)具有可比性,尤其是在平均水平上。
指標(biāo)
排行榜
OpenAI使用每個(gè)Kaggle競(jìng)賽的排行榜來為MLE-bench的表現(xiàn)提供參照。因?yàn)镵aggle提交有時(shí)會(huì)過度擬合到公開排行榜,所以他們用的是私有排行榜。
獎(jiǎng)牌
Kaggle會(huì)根據(jù)參賽者相對(duì)于排行榜的表現(xiàn),向優(yōu)勝的參賽者頒發(fā)銅牌、銀牌和金牌。
同樣,MLE-bench也會(huì)把AI智能體提交的結(jié)果與私有排行榜進(jìn)行比較,來跟AI智能體頒獎(jiǎng)。
銅牌、銀牌和金牌的閾值根據(jù)競(jìng)賽參與者的數(shù)量而變化,確保不同競(jìng)賽中的特定獎(jiǎng)牌始終對(duì)應(yīng)同等的成就。
注意,并非Kaggle上的所有競(jìng)賽都頒獎(jiǎng),但在MLE-bench中的獎(jiǎng)牌閾值邏輯,會(huì)應(yīng)用于所有競(jìng)賽。
主要指標(biāo)
為了為MLE-bench提供一個(gè)單一的指標(biāo),OpenAI會(huì)計(jì)算獲得任何獎(jiǎng)牌(銅牌及以上)的嘗試百分比。
這個(gè)指標(biāo)極具挑戰(zhàn)性,如果達(dá)到上限,就已經(jīng)能和最優(yōu)秀的人類Kagglers多年努力的成就相媲美。迄今為止,只有兩人在75個(gè)不同的Kaggle競(jìng)賽中獲得過獎(jiǎng)牌。
原始分?jǐn)?shù)
OpenAI會(huì)報(bào)告模型在每個(gè)競(jìng)賽中獲得的原始分?jǐn)?shù)。這對(duì)于跟蹤特定競(jìng)賽的進(jìn)展很有用,盡管由于每個(gè)競(jìng)賽使用不同的指標(biāo),很難在競(jìng)賽之間匯總分?jǐn)?shù)。
設(shè)置
MLE-bench的設(shè)計(jì)不受限于解決方法,只需要向每個(gè)競(jìng)賽提交一個(gè)CSV文件進(jìn)行評(píng)分。
不過,OpenAI還是鼓勵(lì)開發(fā)者在評(píng)估AI智能體表現(xiàn)時(shí),提交更多細(xì)節(jié)。
比如使用的模型和框架、AI智能體是否有互聯(lián)網(wǎng)訪問權(quán)限、可用硬件、運(yùn)行時(shí)間、AI智能體提示詞中是否包含任何部分或完整的Kaggle競(jìng)賽解決方案,以及是否與實(shí)驗(yàn)設(shè)置有任何重大偏差。
- 驗(yàn)證提交
真實(shí)的Kaggle競(jìng)賽通常允許參與者每天向公開排行榜提交最多5次,以檢查其提交的有效性并提供分?jǐn)?shù)。
類似地,OpenAIOpenAI也允許AI 智能體訪問本地驗(yàn)證服務(wù)器,以檢查其提交的有效性,盡管后者不會(huì)提供分?jǐn)?shù)。對(duì)AI 智能體使用此工具的頻率則沒有限制。
規(guī)則
提交必須由獨(dú)立于AI智能體的模型生成,并且禁止AI智能體使用自身的世界知識(shí),直接將預(yù)測(cè)寫入其提交文件。
這就可以防止AI智能體簡(jiǎn)單地從其預(yù)訓(xùn)練數(shù)據(jù)中回憶可能已記憶的標(biāo)簽,還能確保AI智能體參與ML工程。同時(shí)也禁止AI智能體查看在Kaggle或GitHub上可以找到的在線解決方案。
- 違規(guī)檢測(cè)
為確保AI智能體遵守規(guī)則,OpenAI提供了一個(gè)使用GPT-4o檢查AI智能體日志的工具。它會(huì)檢查AI智能體是否通過手動(dòng)編寫提交文件,而非使用模型、調(diào)用外部API或嘗試訪問未經(jīng)授權(quán)的資源。
- 抄襲檢測(cè)
為防止抄襲,OpenAI會(huì)使用代碼抄襲檢測(cè)工具Dolos,將AI智能體提交的代碼與相關(guān)Kaggle競(jìng)賽的前50個(gè)筆記本進(jìn)行比較。如果任何AI智能體提交的代碼相似度超過60%,就會(huì)被進(jìn)一步審查。
o1模型拿下7枚金牌,AI kaggle大師誕生
實(shí)驗(yàn)中,OpenAI在一個(gè)Ubuntu 20.04 Docker容器中運(yùn)行AI 智能體,該容器包含數(shù)據(jù)集、驗(yàn)證服務(wù)器和可能對(duì)ML工程有幫助的Python包。
75個(gè)競(jìng)賽中,每個(gè)競(jìng)賽答題時(shí)間為224小時(shí)。
在每次運(yùn)行中,AI智能體可以在一臺(tái)配備36個(gè)vCPU、440GB RAM、4095 GiB SSD和一個(gè)Nvidia A10 GPU的機(jī)器執(zhí)行。
主要實(shí)驗(yàn)
不同框架
為得到性能最佳的框架,OpenAI使用三個(gè)開源框架評(píng)估GPT-4o:AIDE、來自MLAgentBench的ResearchAgent(MLAB)、來自O(shè)penHands平臺(tái)的CodeActAgent(稱為OpenHands)。
他們對(duì)每個(gè)框架進(jìn)行了微小的修改,以提高它們?cè)诨鶞?zhǔn)測(cè)試上的性能。
結(jié)果如表2所示,GPT-4o(AIDE)平均獲得的獎(jiǎng)牌數(shù)量,比MLAB和OpenHands多(分別為8.7%、0.8%和4.4%),盡管有效提交的數(shù)量相似。
值得注意的是,AIDE是專門為Kaggle競(jìng)賽構(gòu)建的,而其他框架是通用的。
如下圖2,展示了每個(gè)框架軌跡的片段。
不同模型
上面實(shí)驗(yàn)得出AIDE是最佳框架,這里就嘗試下改變底層模型,性能會(huì)有怎樣的變化。
接下來,OpenAI使用AIDE評(píng)估了四種不同的模型:o1-preview、GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B。
結(jié)果發(fā)現(xiàn),o1-preview明顯優(yōu)于所有其他模型,在16.9%競(jìng)賽中拿下獎(jiǎng)牌,而且平均獲得的獎(jiǎng)牌數(shù)量幾乎是次優(yōu)模型的2倍(表2)。
值得一提的是,成為Kaggle大師(Kaggle Grandmaster)需要5枚金牌,而o1-preview在MLE-bench上平均獲得7枚金牌。
需要注意的是,OpenAI并非選擇的所有競(jìng)賽都頒發(fā)獎(jiǎng)牌,MLE-bench使用略微修改的數(shù)據(jù)集和評(píng)分,并且在許多情況下,AI 智能體有使用更新技術(shù)的優(yōu)勢(shì)。
增加嘗試次數(shù),AI性能暴漲17%
為了觀察智能體性能如何隨著更多嘗試而變化,作者使用了pass@k指標(biāo)評(píng)估GPT-4o(AIDE)和o1-preview(AIDE)。
他們估算在給定k次嘗試每個(gè)競(jìng)賽的情況下,AI 智能體競(jìng)賽中以多大幾率獲得獎(jiǎng)牌,這些嘗試從n個(gè)種子中抽取。pass@k的計(jì)算公式如下:
圖3展示了k ∈ {1, ..., n/2}范圍內(nèi)的主要結(jié)果。
研究觀察到,隨著嘗試次數(shù)的增加,兩個(gè)AI 智能體獲得獎(jiǎng)牌的百分比都呈現(xiàn)持續(xù)上升的趨勢(shì)。
這表明,增加嘗試次數(shù)可以有效提高AI 智能體在競(jìng)賽中的表現(xiàn)。
改變算力資源
在主要實(shí)驗(yàn)中,OpenAI為AI智能體提供了單個(gè)24GB A10 GPU。
相比之下,Kaggle為用戶提供免費(fèi)的16GB P100 GPU,而用戶通常也會(huì)使用自己的硬件參與競(jìng)爭(zhēng)。
因此,硬件的配比是否會(huì)影響AI智能體的性能?或者它們是否甚至根據(jù)可能硬件調(diào)整策略?
接下來,OpenAI比較了GPT-4o(AIDE)在三種不同硬件設(shè)置下的性能:?jiǎn)蝹€(gè)A10 GPU、僅CPU、兩個(gè)A10 GPU。
令人驚訝的是,GPT-4o(AIDE)在所有實(shí)驗(yàn)中表現(xiàn)相似。
而且,他們手動(dòng)查看了幾個(gè)來自「額外GPU」實(shí)驗(yàn)的日志,沒有發(fā)現(xiàn)GPT-4o AIDE嘗試使用第二個(gè)GPU的情況。
增加可用時(shí)間
在主要實(shí)驗(yàn)中,每次競(jìng)賽嘗試的時(shí)間限制為24小時(shí);相比之下,Kaggle競(jìng)賽中,人類參賽者通常有數(shù)周或數(shù)月的時(shí)間。
增加時(shí)間限制,可以讓AI智能體有更多時(shí)間來迭代解決方案,給予模型更長(zhǎng)的訓(xùn)練時(shí)間。
OpenAI進(jìn)行了一項(xiàng)實(shí)驗(yàn),為GPT-4o(AIDE,一種AI輔助開發(fā)環(huán)境)提供了每次競(jìng)賽100小時(shí)的更長(zhǎng)時(shí)間限制,并將允許的最大節(jié)點(diǎn)數(shù)增加至5,000個(gè)。
他們每小時(shí)對(duì)AI 智能體的最佳嘗試進(jìn)行快照,并對(duì)每個(gè)快照進(jìn)行評(píng)分。
OpenAI發(fā)現(xiàn),GPT-4o(AIDE)在執(zhí)行的前幾個(gè)小時(shí)內(nèi)就獲得了大量獎(jiǎng)牌),在運(yùn)行過程中還會(huì)緩慢累積更多獎(jiǎng)牌。
有趣的是,有時(shí)GPT-4o(AIDE)獲得的獎(jiǎng)牌數(shù)量實(shí)際上會(huì)減少。這是由于AIDE用于選擇其「最佳」嘗試的方法不夠完善所導(dǎo)致。
污染與抄襲
對(duì)解決方案的熟悉程度
如果模型在訓(xùn)練過程中接觸到了關(guān)于獲勝解決方案的討論并采用了其高層策略,就可能會(huì)導(dǎo)致在新的ML工程任務(wù)上不具備泛化能力。
先前的研究表明,模型對(duì)訓(xùn)練期間看到的文檔的token會(huì)賦予更高的概率因此,OpenAI將模型對(duì)給定文檔的熟悉程度定義為模型在給定所有前序token的條件下,對(duì)該文檔中每個(gè)token分配的平均概率。
結(jié)果顯示, GPT-4o基礎(chǔ)模型對(duì)某個(gè)競(jìng)賽的熟悉程度與其表現(xiàn)之間沒有相關(guān)性。
混淆競(jìng)賽描述
為了檢測(cè)模型是否依賴于將熟悉的問題與記憶的解決方案匹配,OpenAI手動(dòng)重寫了MLE-bench中所有75個(gè)競(jìng)賽的描述。例如,移除了所有對(duì)Kaggle和競(jìng)賽名稱的引用,并刪除了非必需的文本。
結(jié)果顯示, GPT-4o(AIDE)在原始和混淆的競(jìng)賽描述上取得了相似的分?jǐn)?shù)。
也就是說,GPT-4o并沒有過度依賴競(jìng)賽描述的原始形式,且模型對(duì)Kaggle競(jìng)賽的熟悉程度并沒有系統(tǒng)性地提高得分。
對(duì)AGI的影響
能夠自主進(jìn)行ML研究的AI智能體,將會(huì)產(chǎn)生諸多積極影響,例如加速醫(yī)療保健、氣候科學(xué)等領(lǐng)域的科學(xué)進(jìn)展,加快模型的安全性和對(duì)齊研究,并通過開發(fā)新產(chǎn)品促進(jìn)經(jīng)濟(jì)增長(zhǎng)。
可以說,智能體執(zhí)行高質(zhì)量研究的能力,可能標(biāo)志著經(jīng)濟(jì)的一個(gè)轉(zhuǎn)折點(diǎn)。
能夠執(zhí)行開放式ML研究任務(wù)的智能體,例如在改進(jìn)自身訓(xùn)練代碼的水平上,可能會(huì)比人類研究員更快地顯著提高前沿模型的能力,但同時(shí)也會(huì)帶來安全風(fēng)險(xiǎn)。
OpenAI認(rèn)為,能夠解決MLE-bench大部分問題的模型很可能具備執(zhí)行許多開放式ML任務(wù)的能力。
MLE-bench的開源,便是為了幫助研究大語(yǔ)言模型的智能體能力,并提高研究實(shí)驗(yàn)室在加速風(fēng)險(xiǎn)方面的透明度。