自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI博士智能體自主科研,o1-preview封神成本暴降84%!AMD霍普金斯新作爆火

人工智能 新聞
AI已經(jīng)能夠自主科研了!AMD霍普金斯祭出「智能化實(shí)驗(yàn)室」不僅能獨(dú)立完成文獻(xiàn)調(diào)研到論文撰寫全流程工作,還能將研究成本暴降84%。

AI離自主科研,真的越來越近了!

最近,Hyperbolic聯(lián)創(chuàng)Jasper Zhang在采訪中稱,AI智能體已經(jīng)可以自主租用GPU,利用PyTorch進(jìn)行開發(fā)了。

其實(shí),在科研方面,AI智能體也是一把能手。

只要腦海里有科研的奇思妙想,一份高質(zhì)量的研究報(bào)告甚至連代碼,都能很快呈現(xiàn)在你眼前。

這不,AMD聯(lián)手霍普金斯打造出的一款「智能體實(shí)驗(yàn)室」,瞬間在全網(wǎng)爆火。

這個(gè)超牛的AI系統(tǒng),代號(hào)叫做Agent Laboratory,全程靠LLM驅(qū)動(dòng)!

圖片

圖片

從文獻(xiàn)綜述開始,到開展實(shí)驗(yàn),再到最后生成報(bào)告,就像一位不知疲倦的科研小能手,一站式搞定整個(gè)科研流程。

圖片

Agent Laboratory由LLM驅(qū)動(dòng)的多個(gè)專業(yè)智能體組成,自動(dòng)處理編碼、文檔編寫等重復(fù)耗時(shí)的任務(wù)。

在研究的每個(gè)階段,用戶都可以提供反饋與指導(dǎo)。Agent Laboratory旨在助力研究人員實(shí)現(xiàn)研究創(chuàng)意,加速科學(xué)發(fā)現(xiàn),提高研究效率。

圖片

論文地址:https://arxiv.org/abs/2501.04227

研究發(fā)現(xiàn):

  1. 由o1-preview驅(qū)動(dòng)的Agent Laboratory產(chǎn)出的研究成果最佳;
  2. 與現(xiàn)有方法相比,Agent Laboratory生成的代碼達(dá)到先進(jìn)水平;
  3. 人類在各階段提供的反饋,顯著提升了研究的整體質(zhì)量;
  4. Agent Laboratory大幅降低研究費(fèi)用,與傳統(tǒng)研究方法相比,費(fèi)用減少了84%。

Agent Laboratory有三個(gè)關(guān)鍵階段:文獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)和報(bào)告撰寫。

由LLM驅(qū)動(dòng)的專業(yè)智能體(如博士、博士后等)協(xié)同工作,承擔(dān)文獻(xiàn)綜述、實(shí)驗(yàn)規(guī)劃、數(shù)據(jù)準(zhǔn)備和結(jié)果解釋等工作。這些智能體還會(huì)集成arXiv、Hugging Face、Python和LaTeX等外部工具,來優(yōu)化結(jié)果。

圖片

文獻(xiàn)綜述

文獻(xiàn)綜述階段,旨在收集、整理與給定研究主題相關(guān)的論文,為后續(xù)研究提供參考。

在這個(gè)過程中,博士智能體借助arXiv API檢索相關(guān)論文,并執(zhí)行三個(gè)主要操作:摘要、全文和添加論文。

  • 摘要:從與初始查詢相關(guān)的前20篇論文中提取摘要
  • 全文:提取特定論文的完整內(nèi)容
  • 添加論文:將選定的摘要或全文納入到文獻(xiàn)綜述

該過程并非一次性完成,而是迭代進(jìn)行。智能體多次執(zhí)行查詢,依據(jù)論文內(nèi)容評估其相關(guān)性,篩選出合適的論文,構(gòu)建全面的文獻(xiàn)綜述。

當(dāng)通過「添加論文」命令達(dá)到指定數(shù)量(N=max)的相關(guān)文獻(xiàn)后,文獻(xiàn)綜述才會(huì)完成。

實(shí)驗(yàn)環(huán)節(jié)

實(shí)驗(yàn)環(huán)節(jié)包括制定計(jì)劃、數(shù)據(jù)準(zhǔn)備、運(yùn)行實(shí)驗(yàn)和結(jié)果解釋。

制定計(jì)劃

在這個(gè)階段,依據(jù)文獻(xiàn)綜述和研究目標(biāo),智能體需要制定一份詳盡且可行的研究計(jì)劃。

博士和博士后智能體通過對話協(xié)作,明確研究方法,比如要采用哪些機(jī)器學(xué)習(xí)模型、使用什么數(shù)據(jù)集,以及實(shí)驗(yàn)的主要步驟。

達(dá)成一致后,博士后智能體通過「計(jì)劃」命令提交該計(jì)劃,作為后續(xù)子任務(wù)的行動(dòng)指南。

圖片

數(shù)據(jù)準(zhǔn)備

在此階段,ML工程師智能體負(fù)責(zé)執(zhí)行Python命令來運(yùn)行代碼,為實(shí)驗(yàn)籌備可靠的數(shù)據(jù)。該智能體有權(quán)限訪問 HuggingFace數(shù)據(jù)集。

代碼完成后,ML工程師智能體通過「提交代碼」命令提交。在正式提交前,代碼會(huì)先經(jīng)過Python編譯器檢查,確保不存在編譯問題。若代碼有錯(cuò)誤,這個(gè)過程將反復(fù)進(jìn)行,直至代碼無誤。

運(yùn)行實(shí)驗(yàn)

在運(yùn)行實(shí)驗(yàn)階段,ML工程師智能體借助mle-solver模塊來執(zhí)行之前制定的實(shí)驗(yàn)計(jì)劃。

mle-solver是一個(gè)專門的模塊,主要功能是自主生成、測試以及優(yōu)化機(jī)器學(xué)習(xí)代碼,其工作流程如下:

A. 命令執(zhí)行

在命令執(zhí)行階段,初始程序是從預(yù)先維護(hù)的高性能程序中選取的。

mle-solver通過「REPLACE」和「EDIT」這兩個(gè)操作,對這個(gè)程序進(jìn)行迭代優(yōu)化。

「EDIT」操作會(huì)選定一系列行,用新生成的代碼替換指定的內(nèi)容?!窻EPLACE」操作會(huì)直接生成一個(gè)全新的Python文件。

B. 代碼執(zhí)行

執(zhí)行代碼命令后,編譯器會(huì)檢查新程序在運(yùn)行時(shí)是否存在錯(cuò)誤。

若程序成功編譯,系統(tǒng)會(huì)給出一個(gè)得分。若該得分高于現(xiàn)有程序,頂級程序列表就會(huì)更新。

要是程序編譯失敗,智能體就會(huì)嘗試修復(fù)代碼,最多嘗試3次。如果修復(fù)失敗,就會(huì)返回錯(cuò)誤提示,重新選擇或生成代碼。

C. 程序評分

通過基于LLM獎(jiǎng)勵(lì)模型對編譯成功的代碼打分,評估m(xù)le-solver生成的機(jī)器學(xué)習(xí)代碼的有效性。

該獎(jiǎng)勵(lì)模型會(huì)依據(jù)研究計(jì)劃、生成的代碼以及觀察到的輸出,對程序進(jìn)行評分,評分范圍是0到1。得分越高,表明程序能夠更有效地實(shí)現(xiàn)研究目標(biāo)。

D. 自我反思

無論代碼運(yùn)行成功與否,mle-solver都會(huì)依據(jù)實(shí)驗(yàn)結(jié)果或者錯(cuò)誤信號(hào)進(jìn)行反思。智能體會(huì)思考每個(gè)步驟,力求優(yōu)化最終結(jié)果。

如果程序編譯失敗,求解器就會(huì)琢磨下一次迭代時(shí)該怎么解決這個(gè)問題。要是代碼成功編譯且有了得分,求解器則會(huì)思考怎樣提高這個(gè)分?jǐn)?shù)。這些反思旨在幫助系統(tǒng)從錯(cuò)誤中學(xué)習(xí),并在后續(xù)迭代中提高代碼質(zhì)量和穩(wěn)定性。

E. 性能穩(wěn)定化

為避免性能出現(xiàn)波動(dòng),采用了兩種機(jī)制:頂級程序采樣和批量并行化。這兩種策略在探索新解決方案和優(yōu)化現(xiàn)有方案之間找到平衡,讓代碼修改過程更加穩(wěn)定 。

  • 頂級程序采樣:指維護(hù)一組評分最高的程序。在執(zhí)行命令前,會(huì)從這組程序中隨機(jī)挑選一個(gè),既能保證程序的多樣性,又能確保質(zhì)量。
  • 批量并行化:求解器每進(jìn)行一步操作,都會(huì)同時(shí)對程序做出N次修改,然后從這些修改中挑選出評分最高的,去替換頂級集合里評分最低的程序。

研究者在MLE-bench的10個(gè)ML挑戰(zhàn)中單獨(dú)評估了mle-solver。mle-solver始終優(yōu)于其他求解器,獲得了更多獎(jiǎng)牌,并在10個(gè)基準(zhǔn)中的6個(gè)中達(dá)到了高于中位數(shù)的人類表現(xiàn)。

圖片

解釋結(jié)果

在此階段,博士和博士后智能體一同探討對mle-solver得出的實(shí)驗(yàn)結(jié)果的理解,旨在從實(shí)驗(yàn)結(jié)果中提煉出有價(jià)值的見解。

當(dāng)他們就某個(gè)有意義的解釋達(dá)成共識(shí),且認(rèn)為該解釋能為學(xué)術(shù)論文增添價(jià)值時(shí),博士后智能體便會(huì)通過「解釋」命令提交該解釋,為后續(xù)的報(bào)告撰寫提供支撐。

撰寫研究報(bào)告

報(bào)告寫作階段,博士和教授智能體負(fù)責(zé)把研究成果整理成一份完整的學(xué)術(shù)報(bào)告。這一過程借助名為paper-solver的模塊,來迭代生成并完善報(bào)告。

paper-solver并非要完全取代學(xué)術(shù)論文的寫作過程,而是以人類易于理解的格式,對已完成的研究成果進(jìn)行總結(jié)。

該模塊生成的報(bào)告遵循學(xué)術(shù)論文的標(biāo)準(zhǔn)結(jié)構(gòu)。paper-solver模塊的工作流程如下:

A. 初始報(bào)告框架

paper-solver的首要任務(wù)是生成研究論文的初始框架。該框架框架遵循學(xué)術(shù)規(guī)范,采用了LaTeX編譯所需的格式,生成的論文能直接進(jìn)入審閱和修改環(huán)節(jié)。

B. ArXiv研究

paper-solver可按文獻(xiàn)綜述接口訪問arXiv,探索與當(dāng)前撰寫主題相關(guān)的文獻(xiàn),還可以查找可引用的論文。

C. 報(bào)告編輯

使用「EDIT」命令,對LaTeX代碼進(jìn)行迭代和修改,確保論文與研究計(jì)劃相符、論點(diǎn)清晰且滿足格式要求。

D. 論文審閱

這個(gè)系統(tǒng)借助基于LLM的代理,模擬科學(xué)論文的審閱過程,遵循NeurIPS會(huì)議的審稿指南對論文進(jìn)行評估。

E. 論文完善

在論文修改階段,根據(jù)三個(gè)評審代理給出的反饋意見,博士智能體負(fù)責(zé)決定論文是需要修訂。這一過程能夠持續(xù)優(yōu)化研究報(bào)告,直至達(dá)到較高標(biāo)準(zhǔn)。

圖片

輔助駕駛模式

Agent Laboratory有兩種運(yùn)行模式:自主模式和輔助駕駛模式。

自主模式下,用戶僅需提供初始研究思路,此后整個(gè)過程完全無需人工干預(yù)。每完成一個(gè)子任務(wù),系統(tǒng)便會(huì)自動(dòng)按順序推進(jìn)至下一個(gè)子任務(wù)。

輔助駕駛模式下,同樣是先提供研究思路。不同的是,每個(gè)子任務(wù)結(jié)束時(shí)設(shè)有檢查點(diǎn)。在這些檢查點(diǎn),人工審閱者會(huì)對代理在該階段的工作成果(如文獻(xiàn)綜述總結(jié)、生成的報(bào)告等)進(jìn)行審閱。

人工審閱者有兩個(gè)選擇:一是讓系統(tǒng)繼續(xù)推進(jìn)到下一個(gè)子任務(wù);二是要求代理重復(fù)當(dāng)前子任務(wù),并給出改進(jìn)建議,助力代理在后續(xù)嘗試中表現(xiàn)更佳。

o1-preview總分最高

通過比較15篇由10位博士審閱的論文,研究者分析了3個(gè)LLM(gpt-4o、o1-mini、o1-preview)在實(shí)驗(yàn)質(zhì)量、報(bào)告質(zhì)量和實(shí)用性方面的表現(xiàn)。人類評審者使用NeurIPS風(fēng)格的標(biāo)準(zhǔn)來評估論文。

圖片

o1-preview的總分最高(4.0/10),其次是o1-mini(3.8)和gpt-4o(3.5)。o1-preview在實(shí)用性和報(bào)告質(zhì)量方面表現(xiàn)出色,o1-mini在質(zhì)量上領(lǐng)先。

而在重要性和貢獻(xiàn)這兩項(xiàng)上,所有模型的表現(xiàn)都較為普通,這反映出模型在原創(chuàng)性和影響力方面存在局限。

所有模型的得分均低于NeurIPS的平均分,表明生成的論文在技術(shù)性和方法論的嚴(yán)謹(jǐn)性上顯著不足。凸顯了進(jìn)一步優(yōu)化Agent Laboratory的必要性,讓其生成的內(nèi)容符合高質(zhì)量出版物的標(biāo)準(zhǔn)。

圖片

在輔助駕駛模式下,研究人員對論文的實(shí)用性(3.5/5)、延續(xù)性(3.75/5)、滿意度(3.63/5)和可用性(4.0/5)進(jìn)行了評分。輔助駕駛模式下的論文質(zhì)量從3.8/10提高到4.38/10。

圖片

運(yùn)行時(shí)間和成本分析顯示,gpt-4o的計(jì)算效率和成本效益最佳,完成時(shí)間為1165.4秒,成本為2.33美元,優(yōu)于o1-mini(3616.8秒,7.51美元)和o1-preview(6201.3秒,13.10美元)。

報(bào)告撰寫是成本最高的階段,尤其是o1-preview(9.58美元)。

圖片

Agent Laboratory的出現(xiàn),無疑是科研領(lǐng)域的一次重大革新,展現(xiàn)了AI在助力科研上的巨大潛力。

盡管它還存在一些需要完善的地方,如生成論文在某些方面與高質(zhì)量出版物標(biāo)準(zhǔn)尚有差距,但它所帶來的高效、便捷以及新思路,已經(jīng)讓我們看到了未來科研發(fā)展的新方向。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-09-23 16:00:00

AI模型測評

2024-11-15 09:36:07

2025-01-10 14:14:44

2024-12-20 14:30:00

2025-01-02 09:53:17

2024-10-28 08:50:00

2025-01-26 10:25:53

2024-11-20 14:00:00

模型測評

2025-02-11 16:17:42

2023-04-11 13:55:20

AI游戲

2025-04-04 00:00:00

AI模型數(shù)據(jù)

2023-07-07 17:03:23

AI智能

2023-07-05 13:56:50

2024-05-11 07:00:00

AIIC-LightP照片換背景

2014-12-05 09:55:50

長城電腦

2025-01-13 00:00:00

訓(xùn)練數(shù)據(jù)模型

2017-05-23 17:03:15

阿里云VPN網(wǎng)關(guān)公網(wǎng)

2023-10-12 12:11:58

2025-03-17 08:40:00

開源智能體框架

2024-09-12 15:10:00

AI智能體
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)