自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!

發(fā)布于 2025-1-13 10:20
瀏覽
0收藏

科學(xué)發(fā)現(xiàn)漫長(zhǎng)且成本高昂,為了加速科學(xué)發(fā)現(xiàn),降低研究成本,并提高研究質(zhì)量,芯片廠商AMD推出了Agent Laboratory,這是一個(gè)基于自主大型語(yǔ)言模型(LLM)的框架,能夠完成整個(gè)研究流程。

Agent Laboratory接受人類研究想法和一組筆記作為輸入,將其提供給一系列由LLM驅(qū)動(dòng)的專門Agent組成的流程線,并產(chǎn)生研究報(bào)告代碼倉(cāng)庫(kù)。

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)

Agent Laboratory接受人類提供的研究想法,并通過(guò)三個(gè)階段——文獻(xiàn)綜述、實(shí)驗(yàn)和報(bào)告撰寫——來(lái)產(chǎn)生全面的研究成果,包括代碼倉(cāng)庫(kù)和研究報(bào)告,同時(shí)允許用戶在每個(gè)階段提供反饋和指導(dǎo)。邀請(qǐng)多位研究人員通過(guò)參與調(diào)查、提供人類反饋來(lái)指導(dǎo)研究過(guò)程,并評(píng)估最終論文:

  • o1-preview驅(qū)動(dòng)的Agent Laboratory產(chǎn)生了最佳的研究成果;

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)

  • 生成的機(jī)器學(xué)習(xí)代碼能夠與現(xiàn)有方法相比達(dá)到最先進(jìn)的性能;
  • 人類的參與,即在每個(gè)階段提供反饋,顯著提高了研究的整體質(zhì)量
  • 自動(dòng)化評(píng)估,按頂會(huì)NeurIPS標(biāo)準(zhǔn),論文(6.1/10)接近了頂會(huì)NeurIPS接受論文的平均得分(5.9/10)
  • 而人類評(píng)估論文得分只有3.8/10,和自動(dòng)化評(píng)估之間出現(xiàn)了一定差距

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)

  • 協(xié)作模式(人類指導(dǎo))下評(píng)估Agent Laboratory,評(píng)分由3.8提升到4.38(+0.58,NeurIPS接受論文的平均得分是5.9)。自選主題在實(shí)用性(+0.5)、繼續(xù)使用(+0.5)和滿意度(+0.25)方面普遍獲得了更高的評(píng)分。

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)

  • Agent Laboratory顯著降低了研究費(fèi)用,與之前的自主研究方法相比,實(shí)現(xiàn)了84%的減少。

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)

Agent Laboratory是如何工作的?

Agent Laboratory包含三個(gè)主要階段,系統(tǒng)地指導(dǎo)研究過(guò)程:

  • 文獻(xiàn)綜述
  • 實(shí)驗(yàn),
  • 報(bào)告撰寫

在每個(gè)階段,由LLM驅(qū)動(dòng)的專門代理協(xié)作完成特定目標(biāo),整合外部工具,如arXiv、Hugging Face、Python和LaTeX,以優(yōu)化結(jié)果。這個(gè)結(jié)構(gòu)化的工作流程從獨(dú)立收集和分析相關(guān)研究論文開(kāi)始,通過(guò)協(xié)作規(guī)劃和數(shù)據(jù)準(zhǔn)備,最終實(shí)現(xiàn)自動(dòng)化實(shí)驗(yàn)和全面報(bào)告生成。具體代理角色及其在這些階段的貢獻(xiàn)在論文中有詳細(xì)討論。模塊化設(shè)計(jì)確保了計(jì)算靈活性,適應(yīng)不同的資源可用性,同時(shí)保持生成高質(zhì)量研究成果的效率。

Agent Laboratory工作流程

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)

解決ML問(wèn)題

進(jìn)行研究的第一步是構(gòu)建解決ML問(wèn)題的能力。Agent Laboratory通過(guò)mle-solver來(lái)實(shí)現(xiàn)這一點(diǎn)。這個(gè)工具作為一個(gè)通用的ML代碼求解器,將前一階段的研究方向作為文本輸入,并迭代改進(jìn)研究代碼。為了實(shí)現(xiàn)這一點(diǎn),一組頂級(jí)程序根據(jù)輸入(如任務(wù)指令、命令描述和提煉的知識(shí))進(jìn)行迭代改進(jìn),以根據(jù)評(píng)分函數(shù)提高實(shí)驗(yàn)結(jié)果。通過(guò)兩個(gè)命令生成一系列更改:REPLACE(重寫所有代碼)和EDIT(修改特定行)。成功編譯的代碼根據(jù)評(píng)分更新頂級(jí)程序,而錯(cuò)誤則提示最多三次修復(fù)嘗試,然后嘗試新代碼。代理會(huì)反思每一步,以優(yōu)化結(jié)果。

mle-solver工作流程概覽

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)


撰寫研究報(bào)告

第二步是根據(jù)實(shí)驗(yàn)設(shè)計(jì)和結(jié)果生成研究報(bào)告。為此,引入了paper-solver,專注于報(bào)告生成。這個(gè)模塊作為結(jié)果和代碼到報(bào)告的生成器,將前一實(shí)驗(yàn)階段的輸出和發(fā)現(xiàn)總結(jié)成人類可讀的學(xué)術(shù)論文。paper-solver綜合前一階段的研究,為研究人員提供清晰的成就總結(jié)。輸入包括研究計(jì)劃、實(shí)驗(yàn)結(jié)果、衍生見(jiàn)解和文獻(xiàn)綜述,輸出格式適合會(huì)議提交的標(biāo)準(zhǔn)學(xué)術(shù)論文格式。

paper-solver的圖形概述

AMD發(fā)布科研Agent,論文自動(dòng)化評(píng)分趨近頂會(huì)NeurIPS水平!-AI.x社區(qū)


https://github.com/SamuelSchmidgall/AgentLaboratory
https://agentlaboratory.github.io/
https://arxiv.org/pdf/2501.04227

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦