AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點分析 精華
今天分享一篇最近比較熱門的日本創(chuàng)業(yè)公司Sakana AI的一篇文章,標(biāo)題為《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一種名為“AI Scientist”的框架,旨在實現(xiàn)端到端完全自動化的科學(xué)發(fā)現(xiàn),完成從Idea構(gòu)建,實驗跑取,文章撰寫的完全自動化。驗證了AI自動化探索新問題,解決新問題,甚至撰寫Paper的可行性。同時還提出了一個能與人類評委水準(zhǔn)接近的Review Agent,能夠給出高水準(zhǔn)的評審意見。
總體來說,其還是一個多agent系統(tǒng),利用了reflection機(jī)制迭代優(yōu)化效果,同時也結(jié)合Semantic Scholar等工具驗證創(chuàng)新性,利用Aider工具來更新代碼和Paper,來執(zhí)行相關(guān)實驗。同時也要看到其只是搭了一個基礎(chǔ)的Baseline通道,如何提升Idea生成的深度以及多樣性,如何讓LLM能實現(xiàn)更復(fù)雜,更有挑戰(zhàn)性的Idea,如何降低Review Agent的False Positive Rate(FPR)都值得進(jìn)一步探索。
本文將對其背后的技術(shù),優(yōu)缺點進(jìn)行詳細(xì)的分析~
一、概述
1. Motivation
- ? 盡管前沿模型已被用作人類科學(xué)家的輔助工具,如頭腦風(fēng)暴、編寫代碼或預(yù)測任務(wù),但它們?nèi)詢H完成了科學(xué)過程的一小部分。
- ? 本文提出了第一個全面的框架,用于實現(xiàn)完全自動化的科學(xué)發(fā)現(xiàn),使前沿大型語言模型能夠獨立進(jìn)行研究并傳達(dá)其發(fā)現(xiàn)。
2. Method
文章介紹了“AI科學(xué)家”框架,該框架包括三個主要階段:
1.想法生成:AI科學(xué)家首先“頭腦風(fēng)暴”出一系列新穎的研究方向,然后在此基礎(chǔ)上進(jìn)行創(chuàng)新性迭代優(yōu)化,最后篩選創(chuàng)新性較高的idea。
2.實驗迭代:根據(jù)想法和模板,AI科學(xué)家首先執(zhí)行提出的實驗plan,然后根據(jù)實驗結(jié)果,迭代優(yōu)化實驗,最后更新plot代碼,可視化其結(jié)果以供后續(xù)撰寫,代碼通過AIder工具來更新。
3.論文撰寫:AI科學(xué)家使用LaTeX撰寫完整的科學(xué)論文,描述其進(jìn)展。
? 輸入:總體就兩個輸入,Baseline Code,以及論文Latex模板,加上init paper的一些信息。
? Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes
? Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.
? 輸出:完整的Paper
1 Idea generate過程
?輸入:code template
?輸出:some ideas
?代碼:??https://github.com/SakanaAI/AI-Scientist/blob/main/ai_scientist/generate_ideas.py??
? generate_ideas:idea生成
? generate_next_idea:在seed的基礎(chǔ)上繼續(xù)生成新的idea
? search_for_papers:調(diào)用api search paper
? check_idea_novelty:檢查并優(yōu)化創(chuàng)新性
1.1 Idea Generation Prompt
?優(yōu)點:對diversity做了優(yōu)化和限制,引入了COT機(jī)制。
?缺點:idea全靠LLM內(nèi)部信息想出來,思考的知識有限,更新也不及時,不太能及時follow最新知識,不過內(nèi)部知識能做到什么粒度其實還不太確定,另外內(nèi)部知識其實是缺乏新知識的,這對科學(xué)研究非常致命。
1.2 Idea Novelty Prompt
?特點:用于搜索num_rounds相關(guān)的paper來檢查優(yōu)化創(chuàng)新性,如果每次沒search到相關(guān)內(nèi)容,還知道去更新Query重新search,最多探索num_rounds,思路看起來不錯。
? 缺點:還是創(chuàng)新全部源于LLM內(nèi)部知識。
2 Experiments過程
? 輸入:idea + template
? 輸出:experiment result + experiment figures
? 實現(xiàn)方式:通過Aider更新代碼,然后執(zhí)行命令行跑取模型結(jié)果。
? Aider平臺,可以通過命令更新代碼:https://github.com/paul-gauthier/aider?
2.1 Experiment Running Aider Prompt
? 特點:先也會有一個plan,然后分別實現(xiàn)experiments
? 缺點:沒具體講如何實現(xiàn)Experiment的,Aider看著是個平臺,可能可以直接用,但是改代碼很容易出錯,穩(wěn)定性存疑。
2.2 Plotting Aider Prompt
? 特點:生成plot,還有description,后續(xù)用于添加到論文中。
3 Paper Writing流程
? 輸入:Latex模版 + Experiments recorded notes + plots,Latex模板圖如下,也是用Aider工具來修改?
? 輸出:paper
3.1 Paper Writing Aider Prompt
? 特點:提供每個section的建議+latex的template+plan
?缺點:Aider是個啥,感覺writing比較有用的樣子。
4 Reviewer Agent流程
? 輸入:PDF manuscript
? 輸出:Paper Review Result
? 優(yōu)點:參考了neurips ReviewerGuidelines,同時引入reflection,few-shot來提升效果。
4.1 Paper Review Prompt
? 特點:引入neurips guideline和few_shot_example。
4.2 Paper Review Reflection Prompt
? 特點:經(jīng)過多輪迭代 + COT思考
4.3 Paper Review Ensembling Prompt
? 特點:還有個匯總的,優(yōu)點self-consistant的感覺
5 反思和迭代次數(shù)
3. Coclusion
文章搭建了一個AI Scientist,通過三個子任務(wù)驗證了其可行性:擴(kuò)散模型、Transformer和Groking。并且每種想法的實現(xiàn)和開發(fā)成本不到15美元。表明了該框架在Research研究和顯著加速科學(xué)進(jìn)步方面的潛力。
? 搭建了一個完整的科研鏈路Agent:idea -> Experiments -> Paper,還真work了。
? 附帶送了一個接近人類水平的Paper Review Agent,效果也還不錯。
4. Limitation
? 生成的Idea經(jīng)常非常相似,甚至不同模型,不同run都會有很類似的idea。
? Aider實現(xiàn)ideas有困難,GPT-4o寫Latext常不能編譯,有些idea實現(xiàn)challenging比較大。
? plot的圖像也可能有問題,而且還不止是vision,可能看不出效果。
? Latext的cite和reference可能有問題。
? LLM數(shù)學(xué)能力不太好,對metric不敏感。
? 幻覺。
二、詳細(xì)內(nèi)容
1 LLM Paper Review水平在ICLR2022數(shù)據(jù)集上已經(jīng)接近人類水平
? 特點:精度和人類比較接近(balanced 0.65 vs 0.66),F(xiàn)alse Negative Rate(FNR)更低,F(xiàn)alse Positive Rate(FPR)偏高,說明也有打分偏高的情況。
2 Reflexion和one-shot能提升Reviewing效果
? 結(jié)論:從0.66提升到0.70,看著還不錯。Ensemble后精度沒有提升,但是variance有降低。
3 Diffusion Modeling優(yōu)化效果
? **結(jié)論1:Sonnet3.5看著比GPT-4o好很多啊,而且還更便宜,完成Paper率居然接近80%**,還是很厲害。
?結(jié)論2:DeepSeek Coder是性價比之王。
?其他:DIffusion Modeling感覺都是比較老的模型了,利用LLM生成的idea可能都是訓(xùn)練過的了,可能并不能代表真正的創(chuàng)新。
4 Language Modeling優(yōu)化效果
?結(jié)論: 這次完成率只有40%了,這個差異好大,跟猜測的一樣,coding可能非常不穩(wěn)定,另外DeepSeek Coder確實厲害。
5 Grokking優(yōu)化效果
?結(jié)論:不同paper,不同LLM基座的Noval Ideas居然都超過90%,但是Experiments的完成率差異非常大。?
本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly
