自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

奧特曼準備用o1來訓練AI了?OpenAI最新論文驗證該方法可行性!

原創(chuàng) 精選
人工智能
在OpenAI具有強推理功能的o1發(fā)布以后,AI訓練自己這件事,又被奧特曼進一步提上了日程。

誰更懂AI訓練,是人類還是AI自己?

在OpenAI具有強推理功能的o1發(fā)布以后,AI訓練自己這件事,又被奧特曼進一步提上了日程。

在OpenAI的開發(fā)者日活動中,奧特曼透露道:"如果我們能制造出一個在人工智能研究方面比 OpenAI 所有系統(tǒng)都更出色的人工智能系統(tǒng),那確實會讓人覺得這是一個重要的奇點......模型會變得如此之好,如此之快......計劃讓模型迅速變得更聰明"。

好家伙,如果AI能日夜訓練AI,那AGI的實現(xiàn)豈不是瘋狂提速了?

為了驗證這個設想是否可行,OpenAI需要找個裁判來看看AI和人類科學家訓練AI的質(zhì)量。

因此,他們在最新論文《MLE-BENCH:評估機器學習工程中的機器學習代理》中,介紹了新推出的用于衡量AI在機器學習工程領(lǐng)域能力的新工具MLE-BENCH。

MLE-bench這一基準測試,通過來自Kaggle(一個知名的機器學習競賽平臺)的75個真實世界數(shù)據(jù)科學競賽來挑戰(zhàn)AI訓練。

先說個結(jié)果,AI訓練自己很有可能:OpenAI最先進的模型o1-preview與一種名為AIDE的框架(編者注:專為Kaggle競賽設計的框架,它允許AI Agent執(zhí)行樹形搜索來找到解決問題的方法)配合,在16.9%的競賽中達到了獲獎水平。這一表現(xiàn)相當引人注目,這意味著在某些情況下,o1已經(jīng)可以和熟練的人類數(shù)據(jù)科學家掰掰手腕。

論文地址:

https://arxiv.org/pdf/2410.07095

項目開源地址:

https://github.com/openai/mle-bench/

1.MLE-bench:評判AI訓練能力的裁判

為了能測試AI Agents 在機器學習方面的潛力,MLE-bench由75個來自Kaggle的不同領(lǐng)域的競賽組成,涵蓋了自然語言處理、計算機視覺和信號處理等多個領(lǐng)域,保證了測試的全面性。

該基準測試的目標是衡量AI Agent在機器學習工程方面的表現(xiàn),包括模型訓練、數(shù)據(jù)集準備以及實驗運行等。為了確保測試結(jié)果的可比性,MLE-bench的比賽使用了與原Kaggle比賽不同的訓練和測試分割,并重新實現(xiàn)了評分代碼。

圖片圖片

上圖為OpenAI 的 MLE-bench 示意圖,展示了AI Agent如何與 Kaggle 類型的競賽互動。該系統(tǒng)模仿人類數(shù)據(jù)科學家的工作流程,要求人工智能執(zhí)行復雜的機器學習任務,從模型訓練到提交創(chuàng)建。

然后MLE-bench會根據(jù)人類基準對AI agent的訓練性能進行打分。

2.兩個發(fā)現(xiàn):輔助框架與多次嘗試均能提高AI訓練表現(xiàn)

有兩個提高AI訓練性能的方法。

首先,就是給AI一些工具,幫助它比賽。

在構(gòu)建AI Agent進行AI研發(fā)的過程中,研究者們發(fā)現(xiàn),當將前沿的語言模型與開源的輔助框架結(jié)合起來時,能夠起到一定的效果。

例如,使用AIDE框架的o1-preview模型能夠在16.9%的比賽項目中獲得至少Kaggle銅牌水平的成績。

圖片圖片

上圖比較了三種AI Agent 在 OpenAI 的 MLE-bench 中解決機器學習任務的方法。從左到右依次為 MLAB ResearchAgent、OpenHands 和 AIDE 各自展示了應對復雜數(shù)據(jù)科學挑戰(zhàn)的不同策略和執(zhí)行時間。AIDE 框架的運行時間為 24 小時,展示了一種更全面的問題解決方法。

其次,Agent也會在嘗試中更加熟練。研究發(fā)現(xiàn),當給Agent提供更多的嘗試機會時,它們的表現(xiàn)會有顯著提升。例如,o1-preview在單次嘗試時的成績?yōu)?6.9%,而在8次嘗試后,這一比例增加到了34.1%。這意味著通過不斷嘗試,AI可以在這個領(lǐng)域獲得巨大提升。

3.寫在最后:樂觀但不盲信AI

就像Cursor等AI編程工具不會取代程序員,AI也不會讓我們不再需要科學家。

值得注意的是,AI訓練人工智能的未來也沒有評分中的如此樂觀。研究存在一個巨大的局限性:由于數(shù)據(jù)集中包含的是公開的Kaggle競賽。因此,有可能模型已經(jīng)記住了答案或關(guān)于解決方案的直覺,導致MLE-bench可能高估了模型的能力。

雖然論文中提到的研究采取了一些措施來防止代碼或測試標簽的剽竊,但是難以檢測到高層次策略的重復利用。這也意味著,MLE-bench這位裁判必須定期更新,以最新的Kaggle競賽來避免數(shù)據(jù)污染的問題。

不過,AI作為“副駕”參與到模型開發(fā)中,可能在未來成為OpenAI等頂尖AI公司的日常。

MLE-bench為我們提供了這一進展的新視角,隨著這些AI系統(tǒng)的進步,它們或許很快會與人類專家協(xié)作,在AGI實現(xiàn)的路上踩下一腳油門。

參考鏈接:https://venturebeat.com/ai/can-ai-really-compete-with-human-data-scientists-openai-new-benchmark-puts-it-to-the-test/

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-11-07 15:40:00

2024-09-20 12:43:36

2025-03-18 13:14:13

2024-09-19 18:03:31

2025-02-03 14:17:27

2024-09-24 11:01:03

2009-09-21 16:40:42

Hibernate可行

2024-10-05 12:00:00

2012-04-12 17:41:02

2011-04-28 11:04:22

DataReader分頁

2025-03-18 08:58:13

2025-01-23 10:45:52

2024-11-25 08:30:00

2024-12-09 07:00:00

o1-mini模型強化微調(diào)OpenAI

2022-03-11 08:31:50

API網(wǎng)關(guān)微服務

2025-01-02 09:30:00

AI數(shù)據(jù)測試

2024-10-05 00:00:00

2024-11-18 08:30:00

2024-12-05 10:16:14

2025-02-08 14:03:25

點贊
收藏

51CTO技術(shù)棧公眾號