?首個自主機器學習AI工程師,剛問世就秒了OpenAI o1,Kaggle大師拿到飽
Open AI 的推理模型 o1,這么快就被比下去了?
本周五,AI 社區(qū)見證了又一項突破:一個完全自動化機器學習流程的 AI 工程師,能輕松獲得 Kaggle 大師水平,在參與的 50 個 Kaggle 競賽上獲得了其中 26% 的獎牌,成績遠遠優(yōu)于之前 Open AI 的強化學習加強版的 o1 模型。
創(chuàng)造這項紀錄的 AI,來自一家名為 NEO 的創(chuàng)業(yè)公司。
據(jù)該公司介紹,NEO 可以自動化整個機器學習的工作流程,為開發(fā)人員節(jié)省數(shù)千小時的繁重工作。它是一個多智能體(AI Agent)系統(tǒng),可用并行的方式解決單一問題。
目前這一 AI 系統(tǒng)還在內(nèi)測申請階段,除了視頻 Demo 內(nèi)容,我們還能找到官方的簡單介紹:
機器學習中的挑戰(zhàn)
首先是 NEO 希望解決的問題。
機器學習的「從數(shù)據(jù)中學習」這一看似簡單的前提掩蓋了開發(fā)人員每天面臨挑戰(zhàn)的復雜性。雖然傳統(tǒng)編程遵循明確的規(guī)則和邏輯路徑,但機器學習引入了一系列新的不確定性,即使是經(jīng)驗豐富的開發(fā)人員也難以應對。從本質(zhì)上講,機器學習不僅需要代碼開發(fā)的專業(yè)知識,還需要對統(tǒng)計學、線性代數(shù)和微積分有深入的理解,這是許多軟件工程師自大學畢業(yè)后就不再遇到的數(shù)學問題。
開發(fā)人員面臨的第一個障礙是數(shù)據(jù)質(zhì)量和準備。原始數(shù)據(jù)很少以干凈、直接可用的格式出現(xiàn)。相反,開發(fā)人員必須花費大量時間處理缺失值、異常值和不一致的格式,同時做出有關數(shù)據(jù)清理的關鍵決策,這可能會顯著影響模型性能。
模型的選擇帶來了另一層復雜性。在解決某個問題時通常會有幾十種算法可用,每種算法都有自己的優(yōu)勢和局限性,選擇正確的方法成為一個關鍵的決策點。僅神經(jīng)網(wǎng)絡就提供了無數(shù)的架構(gòu)可能性,從簡單的前饋網(wǎng)絡到 Transformer,每個模型都需要仔細調(diào)整超參數(shù)。
計算資源增加了另一個復雜性維度。雖然小型模型可以在筆記本電腦上運行,但很多機器學習開發(fā)通常需要云基礎設施、分布式計算和 GPU 優(yōu)化。開發(fā)人員必須熟練掌握 Docker、Kubernetes 和各種云平臺等工具。
部署本身也帶來了一系列挑戰(zhàn)。在開發(fā)過程中表現(xiàn)優(yōu)秀的模型可能會隨著數(shù)據(jù)漂移而退化,需要持續(xù)監(jiān)控和重新訓練 pipeline。開發(fā)人員不僅必須跟蹤代碼更改,還必須跟蹤數(shù)據(jù)版本、模型參數(shù)和訓練配置。
這可能意味著開發(fā)人員要在每個步驟中投入數(shù)周或數(shù)月的工時,才能構(gòu)建一個能夠有效解決問題的 AI 模型。
NEO—— 完全自主的機器學習工程師
NEO 的出現(xiàn)大幅簡化了這整套機器學習工作流程,使工程師能夠以 10 倍的速度構(gòu)建和部署 pipeline。它的開發(fā)充分考慮了機器學習專業(yè)人士的需求,并被設計為像實習生一樣,能夠從人類的反饋中進行學習。
它是如何運作的?NEO 是由多個智能體驅(qū)動多個專門模型實現(xiàn)的,每個微調(diào)模型專門用于機器學習生命周期的不同部分。
面對具體目標,NEO 會啟動一套完整的工作流以達成目標。NEO 通過結(jié)構(gòu)化的多步驟方法,將復雜問題拆解為易于管理的組件,化繁為簡,從而實現(xiàn)目標。
這一方法包括計劃、編碼、執(zhí)行和調(diào)試的持續(xù)循環(huán),確保在每個階段都進行充分優(yōu)化。在這個過程中,NEO 會根據(jù)進展不斷調(diào)整和迭代,直到獲得最佳結(jié)果。一旦開發(fā)者批準 NEO 的輸出,整個工作流程即可在幾秒鐘內(nèi)部署。NEO 為機器學習工程師簡化了上述所有復雜環(huán)節(jié)。
它的目標不是取代數(shù)據(jù)科學家或工程師,而是與人類合作并處理所有繁重任務。在人與 AI 合作的工作環(huán)境中,人們僅用幾個小時就能完成一周的工作。
聽起來有點像今年 3 月在 AI 社區(qū)爆火的首個 AI 軟件工程師 Devin,不過多智能體的方法青出于藍。
NEO 展示了一系列實際工作的 demo,當要求 NEO 構(gòu)建一個信用卡欺詐檢測系統(tǒng)時,它給出了流暢的任務解決方案:
當要求 NEO 使用協(xié)同過濾方法構(gòu)建一本書籍推薦模型時,它自動完成了數(shù)據(jù)集的準備工作,還進行了探索性分析,并對數(shù)據(jù)預處理進行了結(jié)構(gòu)性優(yōu)化,使數(shù)據(jù)集能夠更好地用于訓練:
那么它的跑分如何呢?研究團隊在 MLE 基準測試(MLE-bench)上對 NEO 進行了全面評估。MLE-bench 是一種創(chuàng)新的基準測試,專注于將 AI 智能體應用于真實世界的機器學習工程任務。與其他人工設計的挑戰(zhàn)不同,這個基準測試通過 75 場實際的 Kaggle 競賽來評估 AI 智能體在機器學習工程中的表現(xiàn),具有極高的實用性。
在 50 場 Kaggle 競賽測試中,NEO 表現(xiàn)堪稱卓越:在 26% 的競賽中獲得獎牌,超越了 OpenAI 最新推理加強模型 o1 的基準成績。為了更直觀地理解這一成就,看看 NEO 到底是什么水準,Kaggle 金牌的獲得要求就很直白:參賽團隊需要進入所有團隊排名前 10%。這通常需要極高的專業(yè)技能、創(chuàng)新方法以及精細優(yōu)化。
這回落在 NEO 后面的,是搭配 AIDE 框架的 o1-preview 了。
NEO 在 50 場 Kaggle 比賽中進行了測試,并在其中 26% 的比賽中獲得了獎牌,這一表現(xiàn)遠遠優(yōu)于此前的搭配 AIDE 框架 Open AI 的 o1 在 MLE 基準測試中的 16.9% 的表現(xiàn)。
NEO 的表現(xiàn)不僅僅是數(shù)據(jù),它代表了 AI 輔助機器學習工程的一個突破。憑借如此表現(xiàn),NEO 已達到堪比 Kaggle 競賽特級大師的水平,為用戶帶來了世界級的機器學習專業(yè)能力。
官方稱,NEO 不僅僅是一款 AI 工具,而是一個像數(shù)據(jù)競賽冠軍一樣的人類合作伙伴,隨時準備解決復雜的數(shù)據(jù)挑戰(zhàn),以經(jīng)過驗證的競賽獲勝能力助你一臂之力。
NEO 的發(fā)布在 AI 社區(qū)引發(fā)了不小的關注,人們非常期待這款新工具能夠幫助我們解決繁重的工作,不過也有人認為,目前的展示還只是一面之詞,具體情況還得看網(wǎng)友實測。
多智能體的 AI 真的有如此高的潛力嗎?讓我們拭目以待。