AMD把o1煉成了實驗室助手,自動科研經(jīng)費節(jié)省84%
芯片強(qiáng)者AMD最新推出科研AI,o1-preview竟成天選打工人?!
注意看,只需將科研idea和相關(guān)筆記一股腦丟給AI,研究報告甚至是代碼就能立馬出爐了。
這個AI系統(tǒng)代號“Agent Laboratory”,全程由LLM(大語言模型)驅(qū)動完成文獻(xiàn)綜述、實驗,以及報告,一站式搞定科學(xué)研究。
對了,在GPT-4o、o1-mini以及o1-preview這幾位科研助理當(dāng)中,作者們發(fā)現(xiàn)o1-preview產(chǎn)出的研究成果最佳。
而且整體上,與現(xiàn)有方法相比,由AI生成的代碼能夠?qū)崿F(xiàn)SOTA性能。
同時,如果人類在每個過程給予反饋,研究的整體質(zhì)量也會大大提高。
總體而言,與之前的自主研究方法相比,Agent Laboratory將研究費用減少了84%。
Okk,這也再次印證了人們的預(yù)想,人類與AI協(xié)同將帶來更具性價比的方式加速科研。
最后,我們也扒了扒論文作者們,結(jié)果意外發(fā)現(xiàn)7/9為華人面孔——
從文獻(xiàn)到報告,AMD科研AI一站式搞定
先來看Agent Laboratory是如何工作的。
如圖所示,主要有三個階段:文獻(xiàn)綜述→實驗→撰寫報告,每一階段都有不同的任務(wù)、工具和AI Agent角色(比如PhD、博士后Postdocto等)。
PhD Student負(fù)責(zé)文獻(xiàn)綜述
展開來說,在文獻(xiàn)綜述階段,PhD Student這一角色負(fù)責(zé)主要執(zhí)行。它利用arXiv API來檢索相關(guān)論文,并進(jìn)行三個動作:
- 一抓摘要:檢索出與初始查詢最相關(guān)的前20篇論文的摘要;
- 二抓單篇全文:對于某些具有重要參考價值的論文,提取其完整內(nèi)容;
- 三添加論文:將經(jīng)過篩選的論文摘要或全文納入到文獻(xiàn)綜述中;
需要注意的是,最后一個過程并非一次性完成,而是一個迭代的過程。
換句話說,只有當(dāng)通過add paper(添加論文)命令達(dá)到指定數(shù)量(N = max)的相關(guān)文本時,文獻(xiàn)綜述才會最終確定。
接下來進(jìn)入實驗環(huán)節(jié)。
如圖所示,主要有四個過程:計劃制定→數(shù)據(jù)準(zhǔn)備→運(yùn)行實驗→結(jié)果解釋。
PhD Student+Postdoc通過對話制定實驗計劃
簡單說,根據(jù)綜述結(jié)果和既定研究目標(biāo),PhD Student+Postdoc會通過對話來制定詳細(xì)、可執(zhí)行的實驗計劃。
計劃一般包括具體實驗步驟、選用何種機(jī)器學(xué)習(xí)模型、篩選合適的數(shù)據(jù)集以及規(guī)劃實驗的高級流程框架等關(guān)鍵要素。
在達(dá)成一致意見后,Postdoc這一角色會使用plan命令提交計劃,此計劃將作為后續(xù)所有實驗相關(guān)子任務(wù)的重要行動指南。
ML Engineer用Python準(zhǔn)備數(shù)據(jù)
然后ML Engineer會在下一階段用Python來處理和準(zhǔn)備實驗所需的數(shù)據(jù)。
過程中,這一角色可以利用search HF命令在HuggingFace數(shù)據(jù)集中進(jìn)行搜索,以獲取合適的數(shù)據(jù)資源。
寫完代碼后,ML Engineer會先將代碼通過Python編譯器進(jìn)行檢查,確保沒有編譯錯誤。若存在問題,則會進(jìn)行迭代修改,直至代碼能夠順利運(yùn)行且無錯誤,最終使用submit code命令提交經(jīng)過驗證的數(shù)據(jù)準(zhǔn)備代碼,為后續(xù)實驗提供可靠的數(shù)據(jù)基礎(chǔ)。
ML Engineer借助專用模塊運(yùn)行實驗
搓搓手,下面正式進(jìn)入實驗運(yùn)行環(huán)節(jié)。
概括而言,ML Engineer會借助mle-solver這一專門設(shè)計的模塊,來實施和執(zhí)行先前制定的實驗計劃。
mle-solver的工作流程如下:
- 命令執(zhí)行
圖(A)部分,從一組預(yù)先維護(hù)的高性能程序中采樣出一個初始程序,在后續(xù)的迭代過程中,通過EDIT和REPLACE兩種操作對程序進(jìn)行不斷優(yōu)化。
EDIT允許在指定的代碼行范圍內(nèi),用新生成的代碼替換原有代碼,從而實現(xiàn)對程序功能的局部調(diào)整;REPLACE則更為激進(jìn),它會生成一個全新的Python文件,用于在需要對程序結(jié)構(gòu)或整體邏輯進(jìn)行重大改變時使用。
- 代碼執(zhí)行
圖(B)部分,執(zhí)行代碼命令后,新程序會立即通過編譯器進(jìn)行檢查,以識別和處理可能出現(xiàn)的運(yùn)行時錯誤。
若程序成功編譯,將根據(jù)預(yù)先設(shè)定的評估標(biāo)準(zhǔn)對其進(jìn)行評分,并與現(xiàn)有的程序進(jìn)行比較。若新程序得分更高,則會更新最優(yōu)程序列表。
若代碼未能通過編譯,ML Engineer會嘗試進(jìn)行最多Nrep(在實驗中設(shè)定為3次)的修復(fù)操作,若仍無法解決問題,則會放棄當(dāng)前程序,重新選擇或生成新的代碼進(jìn)行替換。
- 程序評分
圖(C)部分,采用LLM獎勵模型對成功編譯的代碼進(jìn)行評分。
該模型會綜合考慮研究計劃的目標(biāo)、生成的代碼邏輯以及實際的實驗輸出結(jié)果等多方面因素,在0到1的范圍內(nèi)對程序進(jìn)行量化評估。得分越高,表示程序與初始研究目標(biāo)的契合度越高,能夠更有效地實現(xiàn)預(yù)期功能。
- 自我反思
圖(D)部分,無論代碼執(zhí)行結(jié)果是成功還是失敗,mle-solver都會基于實驗結(jié)果或遇到的錯誤信號進(jìn)行自我反思。
如果程序編譯失敗,它會思考如何在后續(xù)的迭代中避免或解決類似的問題;若程序成功編譯并獲得評分,它會分析如何進(jìn)一步提高程序的性能和得分,通過這種不斷學(xué)習(xí)和改進(jìn)的機(jī)制,確保系統(tǒng)能夠持續(xù)提升生成代碼的質(zhì)量和穩(wěn)定性。
- 性能穩(wěn)定化
圖(E)部分,為防止性能波動,mle-solver采用了兩種關(guān)鍵機(jī)制。
一是頂級程序采樣,通過維護(hù)一個高質(zhì)量程序的集合,在執(zhí)行命令前隨機(jī)從中采樣一個程序,這樣既保證了程序的多樣性,又能確保所選用的程序具有較高的質(zhì)量基準(zhǔn);
二是批量并行化,在每個求解步驟中,同時進(jìn)行多個代碼修改操作,并選擇其中性能最佳的修改結(jié)果來替換當(dāng)前最優(yōu)程序集合中得分最低的程序。
PhD Student+Postdoc共同討論分析實驗結(jié)果
執(zhí)行結(jié)束后,PhD Student+Postdoc會深入探討mle-solver生成的實驗結(jié)果,結(jié)合自身的專業(yè)知識和前期的研究背景,對結(jié)果進(jìn)行全面解讀。
一旦雙方認(rèn)為結(jié)果合理且具備學(xué)術(shù)價值,Postdoc就會使用interpretation命令提交該解釋,為后續(xù)的報告撰寫階段提供關(guān)鍵的內(nèi)容基礎(chǔ)。
PhD Student+Professor撰寫完整報告
進(jìn)入最后的報告撰寫環(huán)節(jié),PhD Student和Professor會通過一個名為 “論文求解器”(paper-solver)的專門模塊完成任務(wù)。
需要提醒,paper - solver并非用來完全取代學(xué)術(shù)論文撰寫流程,而是以一種人類可讀的格式總結(jié)已完成的研究,以便使用 “Agent Laboratory” 的研究人員了解已取得的成果。
通常來說,其工作流程包括以下步驟:
- 初始報告框架生成:生成符合學(xué)術(shù)標(biāo)準(zhǔn)結(jié)構(gòu)且含占位符、滿足LaTeX編譯和學(xué)術(shù)慣例的報告初始框架。
- arXiv研究:可按文獻(xiàn)綜述接口訪問arXiv拓展文獻(xiàn)資料完善報告(非強(qiáng)制但很有幫助)。
- 編輯報告:用EDIT命令按照多因素對論文LaTeX代碼行精確迭代編輯并編譯驗證,提升報告質(zhì)量。
- 論文評審:用LLM Agent模擬NeurIPS流程多維度評估論文,測試準(zhǔn)確性接近人類評審員。
- 完善論文:由三個評審Agent生成意見,PhD Student依此判斷是否修訂,必要時回溯前期環(huán)節(jié)修改至達(dá)標(biāo)。
o1-preview科研能力最強(qiáng)
通過以上三個主要階段,Agent Laboratory就完成了整個科研流程。
接下來,研究人員用GPT-4o、o1-mini以及o1-preview來評估實驗質(zhì)量、報告質(zhì)量和有用性,這3個AI在沒有人類任何參與的情況下完成了15篇論文。
然后普通人(人工審稿人)被要求根據(jù)以下五個問題對它們進(jìn)行1—5評分,結(jié)果如圖所示。
綜合來看o1-preview對研究最有幫助, o1-mini的實驗質(zhì)量得分最高, 而GPT-4o全面墊底。
- 語言模型是否表現(xiàn)出認(rèn)知偏差,比如確認(rèn)偏差或錨定偏差?
- 圖像Transformer相較于卷積網(wǎng)絡(luò),對像素噪聲的敏感度是更高還是更低?
- 當(dāng)被要求進(jìn)行鑒別診斷時,語言模型在醫(yī)學(xué)問答(MedQA)上的準(zhǔn)確性會提高嗎?
- 在多項選擇題基準(zhǔn)測試中,語言模型對詞序敏感嗎?
- 性別角色是否會影響語言模型回答數(shù)學(xué)問題的準(zhǔn)確性?
然后作者們還探討了人工審稿與自動審稿的區(qū)別有多大。
二者差異顯著,且自動審稿傾向于高估論文分?jǐn)?shù)。
具體來說,與平均水平的NeurIPS論文得分相比,自動審稿平均為6.1/10,人工審稿為3.8/10。
而在GitHub,作者們也透露了讓研究效果更好的技巧。
- 撰寫詳細(xì)的筆記;
- 使用更強(qiáng)大的模型;
另外,如果用戶丟失進(jìn)度、斷開互聯(lián)網(wǎng)或子任務(wù)失敗,可以使用「檢查點恢復(fù)工作進(jìn)度」功能。
甚至也支持切換到中文模式。
背后團(tuán)隊過半數(shù)是華人
最后介紹一下Agent Laboratory背后的作者們,他們幾乎全是在去年加入AMD。
Samuel Schmidgall,目前是霍普金斯大學(xué)電氣與計算機(jī)工程博士,也是DeepMind學(xué)生研究員。
從去年10月開始,他在AMD進(jìn)行語言Agent方面的實習(xí)。
更早之前還在美國海軍研究實驗室探索機(jī)器人強(qiáng)化學(xué)習(xí),以及在斯坦福大學(xué)研究心血管外科方面的語言&視覺大模型。
Yusheng Su,去年8月加入AMD GenAI團(tuán)隊的研究科學(xué)家,專注于模型數(shù)據(jù)、模型架構(gòu)和訓(xùn)練效率優(yōu)化。
他2019年畢業(yè)于政治大學(xué)(base臺北),后獲得清華大學(xué)CS博士學(xué)位(期間研究大模型預(yù)訓(xùn)練)。
更早之前,他還在微軟云計算部門有過一段實習(xí)經(jīng)歷。
Ze Wang,去年5月加入AMD GenAI團(tuán)隊的應(yīng)用研究科學(xué)家。
他2017年本科畢業(yè)于北航電氣與電子工程專業(yè),后分別于美國杜克大學(xué)和普渡大學(xué)讀了電子與計算機(jī)工程PhD。
更早之前,還在Facebook AI和微軟實習(xí)過。
Ximeng Sun,去年6月加入AMD的應(yīng)用科學(xué)家。
她2018年畢業(yè)于密歇根大學(xué)拉克哈姆研究生院的計算機(jī)專業(yè),后于波士頓大學(xué)取得CS博士學(xué)位。
加入AMD之前,她前后在IBM、谷歌和Meta進(jìn)行了實習(xí)。
Jialian Wu (吳嘉濂),去年4月加入AMD GenAI團(tuán)隊的研究科學(xué)家。
他在2019年本碩畢業(yè)于天津大學(xué)電子工程專業(yè),后于紐約州立大學(xué)布法羅分校讀完CS博士。
加入AMD之前,他只在高通有過一段全職經(jīng)歷。更早之前則在亞馬遜和微軟實習(xí)過。
Xiaodong Yu(于曉棟),去年8月加入AMD GenAI團(tuán)隊的研究科學(xué)家,專注于知識檢索/忠實度、長文本理解、數(shù)學(xué)推理以及LLM/VLM訓(xùn)練等。
他2015年畢業(yè)于上海交大電子與電氣工程專業(yè),后赴美國伊利諾伊大學(xué)香檳分校和賓大攻讀碩博。
讀書期間,他也在亞馬遜、微軟等機(jī)構(gòu)實習(xí)過。
Jiang Liu,去年4月加入AMD GenAI團(tuán)隊的研究員,方向為開發(fā)通用AI模型。
他2019年本科畢業(yè)于清華大學(xué)自動化專業(yè),同時也在五道口金融學(xué)院學(xué)習(xí),后于約翰斯·霍普金斯大學(xué)讀完電子與計算機(jī)專業(yè)博士。
加入AMD之前,他在AWS和微軟進(jìn)行了大語言模型方面的實習(xí)。
Zicheng Liu,去年年初入職AMD擔(dān)任高級工程總監(jiān),研究興趣為視覺語言學(xué)習(xí)、3D人體和手部重建、動態(tài)卷積和人類活動識別。
在這之前,他在微軟工作了27年,主要負(fù)責(zé)管理計算機(jī)視覺科學(xué)組。
他還是多個國際會議的技術(shù)委員會成員,而且是《視覺傳達(dá)與圖像表示》雜志主編等。
Emad Barsoum,負(fù)責(zé)AMD生成式AI方面的副總裁,加入AMD 1年多。
曾在微軟擔(dān)任團(tuán)隊工程經(jīng)理/架構(gòu)師,共同參與創(chuàng)建了ONNX標(biāo)準(zhǔn)。這是一個開放神經(jīng)網(wǎng)絡(luò)格式交換計劃,在2017年由微軟和Facebook共同發(fā)起,它使得數(shù)據(jù)科學(xué)家和開發(fā)者可以將不同的深度神經(jīng)網(wǎng)絡(luò)框架開發(fā)的模型,直接部署到上億的Windows設(shè)備中。
加入AMD之前,他也在芯片制造公司Cerebras負(fù)責(zé)領(lǐng)導(dǎo)AI團(tuán)隊,主要是訓(xùn)練大語言模型和視覺模型。
論文:https://arxiv.org/pdf/2501.04227代碼:https://github.com/SamuelSchmidgall/AgentLaboratory。