AI科學(xué)家:大模型全自動(dòng)化撰寫科研論文 原創(chuàng)
摘要
人工通用智能的一個(gè)重大挑戰(zhàn)是開發(fā)能夠進(jìn)行科學(xué)研究和發(fā)現(xiàn)新知識(shí)的智能體。雖然當(dāng)前的前沿模型已經(jīng)用于輔助人類科學(xué)家,如頭腦風(fēng)暴、編寫代碼或預(yù)測(cè)任務(wù),但它們?nèi)匀恢煌瓿闪丝茖W(xué)過程的一小部分。本論文提出了第一個(gè)用于完全自動(dòng)化科學(xué)發(fā)現(xiàn)的綜合框架,使前沿大型語言模型(LLMs)能夠獨(dú)立進(jìn)行研究并傳達(dá)其發(fā)現(xiàn)。我們介紹了AI科學(xué)家,它能夠生成新穎的研究想法,編寫代碼,執(zhí)行實(shí)驗(yàn),展示結(jié)果,通過撰寫完整的科學(xué)論文來描述其發(fā)現(xiàn),并隨后進(jìn)行模擬的審稿過程進(jìn)行評(píng)估。原則上,這一過程可以反復(fù)進(jìn)行,以開放的方式迭代發(fā)展思想,并將其添加到一個(gè)不斷增長的知識(shí)檔案中,像人類科學(xué)界一樣運(yùn)作。我們通過將這一方法應(yīng)用于機(jī)器學(xué)習(xí)的三個(gè)不同子領(lǐng)域:擴(kuò)散建模、基于Transformer的語言建模和學(xué)習(xí)動(dòng)態(tài),展示了其多功能性。每個(gè)想法都得以實(shí)現(xiàn)并發(fā)展為一篇完整的論文,其成本低至每篇不到15美元,展示了該框架在民主化研究和顯著加速科學(xué)進(jìn)步方面的潛力。為了評(píng)估生成的論文,我們?cè)O(shè)計(jì)并驗(yàn)證了一種自動(dòng)化審稿人,我們展示了其在評(píng)估論文得分時(shí)達(dá)到近乎人類的性能。AI科學(xué)家可以生成超過頂級(jí)機(jī)器學(xué)習(xí)會(huì)議接受標(biāo)準(zhǔn)的論文,這標(biāo)志著機(jī)器學(xué)習(xí)科學(xué)發(fā)現(xiàn)新時(shí)代的開始,將AI代理的變革性優(yōu)勢(shì)帶入AI本身的整個(gè)研究過程中,使我們更接近于一個(gè)在世界上最具挑戰(zhàn)性的問題上釋放無盡的創(chuàng)造力和創(chuàng)新的世界。我們的代碼已在???https://github.com/SakanaAI/AI-Scientist??開源。
1、引言
現(xiàn)代科學(xué)方法(Chalmers, 2013;Dewey, 1910;Jevons, 1877)可以說是啟蒙運(yùn)動(dòng)的最大成就之一。傳統(tǒng)上,一名人類研究者會(huì)收集背景知識(shí),提出一組可能的假設(shè)以供測(cè)試,設(shè)計(jì)評(píng)估程序,收集不同假設(shè)的證據(jù),最后評(píng)估并傳達(dá)他們的發(fā)現(xiàn)。之后,產(chǎn)生的手稿會(huì)經(jīng)過同行評(píng)審,并經(jīng)過隨后的幾輪修訂。這個(gè)過程已經(jīng)導(dǎo)致了無數(shù)的科學(xué)技術(shù)突破,極大地改善了人類的生活質(zhì)量。然而,這一迭代過程本質(zhì)上受到人類研究者創(chuàng)造力、背景知識(shí)和有限時(shí)間的限制。在人工智能領(lǐng)域,研究者們?cè)O(shè)想通過使用人工智能來自動(dòng)化AI研究的可能性(Schmidhuber, 1991, 2010a, b, 2012),這引發(fā)了“AI生成算法”的概念(Clune, 2019)。最近,基礎(chǔ)模型在其通用能力方面取得了巨大的進(jìn)步(Anthropic, 2024;Google DeepMind Gemini Team, 2023;Llama Team, 2024;OpenAI, 2023),但它們目前僅在加速研究流程的部分環(huán)節(jié)中展示了潛力,例如撰寫科學(xué)手稿(Altm?e et al., 2023)、作為頭腦風(fēng)暴的靈感來源(Girotra et al., 2023),或作為編程助手(Gauthier, 2024)。迄今為止,社區(qū)尚未展示在沒有人類參與的情況下執(zhí)行整個(gè)研究任務(wù)的可能性。
傳統(tǒng)的研究項(xiàng)目自動(dòng)化方法迄今為止依賴于嚴(yán)格限制潛在發(fā)現(xiàn)的搜索空間,這大大限制了探索的范圍,并需要大量的人類專業(yè)知識(shí)和設(shè)計(jì)。例如,材料發(fā)現(xiàn)(Merchant et al., 2023;Pyzer-Knapp et al., 2022)和合成生物學(xué)(Hayes et al., 2024;Jumper et al., 2021)領(lǐng)域取得了顯著進(jìn)展,探索被限制在預(yù)定義參數(shù)的已充分表征領(lǐng)域內(nèi),這種方法允許有針對(duì)性的進(jìn)展,但限制了更廣泛、開放式的發(fā)現(xiàn),并且只涵蓋了科學(xué)過程的某些子集,而未包括諸如手稿準(zhǔn)備等任務(wù)。在機(jī)器學(xué)習(xí)領(lǐng)域,研究自動(dòng)化主要限于超參數(shù)和架構(gòu)搜索(He et al., 2021;Hutter et al., 2019;Lu et al., 2022b;Wan et al., 2021, 2022)或算法發(fā)現(xiàn)(Alet et al., 2020;Chen et al., 2024b;Kirsch et al., 2019;Lange et al., 2023a, b;Lu et al., 2022a;Metz et al., 2022)內(nèi)的手工制作搜索空間。最近在大語言模型(LLMs)方面的進(jìn)展表明有可能擴(kuò)展搜索空間到更廣泛的代碼級(jí)別解決方案(Faldor et al., 2024;Lehman et al., 2022;Lu et al., 2024a;Ma et al., 2023)。然而,這些方法仍然受到嚴(yán)格定義的搜索空間和目標(biāo)的限制,限制了可能發(fā)現(xiàn)的廣度和深度。
在本文中,我們介紹了AI科學(xué)家,這是第一個(gè)用于端到端論文生成的完全自動(dòng)化和可擴(kuò)展的管道,由基礎(chǔ)模型的最新進(jìn)展提供支持。在給定廣泛的研究方向和一個(gè)簡單的初始代碼庫的情況下,AI科學(xué)家可以無縫地執(zhí)行想法生成、文獻(xiàn)搜索、實(shí)驗(yàn)規(guī)劃、實(shí)驗(yàn)迭代、手稿寫作和同行評(píng)審,從而產(chǎn)生具有洞察力的論文。此外,AI科學(xué)家可以在一個(gè)開放式循環(huán)中運(yùn)行,基于其之前的科學(xué)發(fā)現(xiàn)改進(jìn)下一代想法。這使我們能夠以令人驚訝的低成本(大約15美元/篇)加速科學(xué)迭代的緩慢過程,并且這代表了一步邁向?qū)⑹澜缟先找嬖鲩L的計(jì)算資源轉(zhuǎn)化為21世紀(jì)核心挑戰(zhàn)所需的科學(xué)突破的愿景。我們主要聚焦于機(jī)器學(xué)習(xí)(ML)應(yīng)用,但這一方法可以更廣泛地應(yīng)用于幾乎任何其他學(xué)科,如生物學(xué)或物理學(xué),前提是存在一種自動(dòng)執(zhí)行實(shí)驗(yàn)的方式(Arnold, 2022;Kehoe et al., 2015;Zucchelli et al., 2021)。
通過利用現(xiàn)代LLM框架,如鏈?zhǔn)剿伎迹╓ei et al., 2022)和自我反思(Shinn et al., 2024)來改善決策,AI科學(xué)家能夠生成自己的科學(xué)想法和假設(shè),并為測(cè)試它們制定計(jì)劃。接下來,AI科學(xué)家在最先進(jìn)的編碼助手Aider(Gauthier, 2024)的指導(dǎo)下,實(shí)施計(jì)劃并執(zhí)行實(shí)驗(yàn)以收集一組計(jì)算結(jié)果,這些結(jié)果隨后被用來撰寫科學(xué)論文。AI科學(xué)家隨后會(huì)根據(jù)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議的指南進(jìn)行自動(dòng)化的論文審查。最后,AI科學(xué)家將完成的想法和審稿人反饋添加到其科學(xué)發(fā)現(xiàn)檔案中,并重復(fù)這一過程。至關(guān)重要的是,AI科學(xué)家生成的論文和實(shí)驗(yàn)成果使我們能夠事后輕松解釋和評(píng)估其發(fā)現(xiàn),從而使人類科學(xué)家也能從中受益。
圖1 | 《AI科學(xué)家》的概念圖,這是一個(gè)由LLM驅(qū)動(dòng)的端到端科學(xué)發(fā)現(xiàn)過程。《AI科學(xué)家》首先創(chuàng)造并評(píng)估一組想法的新穎性。接著,它確定如何測(cè)試這些假設(shè),包括通過編輯代碼庫來編寫必要的代碼,這些代碼庫由自動(dòng)代碼生成的最新進(jìn)展提供支持。隨后,實(shí)驗(yàn)被自動(dòng)執(zhí)行,收集一組包括數(shù)值分?jǐn)?shù)和視覺總結(jié)(如圖表或表格)的結(jié)果。結(jié)果將被動(dòng)機(jī)分析、解釋并匯總在一份LaTeX報(bào)告中。最后,《AI科學(xué)家》根據(jù)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議的當(dāng)前實(shí)踐生成自動(dòng)化審查。審查結(jié)果可以用來改進(jìn)項(xiàng)目,或作為未來開放式科學(xué)發(fā)現(xiàn)的反饋。
我們的貢獻(xiàn)總結(jié)如下:
1. 我們引入了第一個(gè)用于機(jī)器學(xué)習(xí)研究的端到端完全自動(dòng)化科學(xué)發(fā)現(xiàn)框架,由前沿的LLMs提供支持。這個(gè)完全自動(dòng)化的過程包括想法生成、實(shí)驗(yàn)設(shè)計(jì)、執(zhí)行、結(jié)果可視化以及將其寫成完整的手稿。
2. 為了評(píng)估生成論文的質(zhì)量,我們?cè)诘?部分中引入了基于基礎(chǔ)模型的審稿流程。當(dāng)在ICLR 2022的OpenReview數(shù)據(jù)上進(jìn)行評(píng)估時(shí),我們的審稿流程在多項(xiàng)評(píng)價(jià)指標(biāo)上(如平衡準(zhǔn)確率為65%對(duì)66%)實(shí)現(xiàn)了近乎人類水平的表現(xiàn)。審稿進(jìn)一步使得AI科學(xué)家能夠選擇“發(fā)表”的最佳想法,并通過重復(fù)這一過程,在人類科學(xué)界的模式下不斷積累新的科學(xué)發(fā)現(xiàn)。
3. AI科學(xué)家可以在一周內(nèi)生成數(shù)百篇有趣的中等質(zhì)量的論文。在本報(bào)告中,我們重點(diǎn)展示了擴(kuò)散建模、語言建模和grokking中的一些新穎見解。我們?cè)诘?部分對(duì)一篇選定的論文進(jìn)行了深入的案例研究,并在第6部分展示了匯總結(jié)果。
4.我們?cè)诘?和第9部分中對(duì)我們的方法的局限性、倫理考慮和未來展望進(jìn)行了廣泛討論。
2、背景
大語言模型(LLMs)
在本文中,我們使用自回歸大語言模型(LLMs,如Anthropic,2023年;Google DeepMind Gemini團(tuán)隊(duì),2023年;Llama團(tuán)隊(duì),2024年;OpenAI,2023年;Zhu等人,2024年)構(gòu)建了一個(gè)自動(dòng)化科學(xué)家。這些模型通過對(duì)給定前序詞元的條件概率進(jìn)行建模并在測(cè)試時(shí)進(jìn)行采樣來生成文本補(bǔ)全。結(jié)合龐大的數(shù)據(jù)和模型擴(kuò)展,這使得LLMs不僅能夠生成連貫的文本,還能夠表現(xiàn)出類似人類的能力,包括常識(shí)知識(shí)(Talmor等,2019年)、推理(Wei等,2022年)和編寫代碼的能力(Chen等,2021年;Xu等,2022年)。
LLM代理框架
LLMs的典型應(yīng)用通常涉及將模型嵌入到“代理”(Wang等,2024年)框架中,包括以下幾種可能性:結(jié)構(gòu)化語言查詢(如少量示例提示(Brown等,2020年))、鼓勵(lì)推理過程(如鏈?zhǔn)剿伎迹╓ei等,2022年))或要求模型迭代地完善其輸出(如自我反思(Shinn等,2024年))。這些方法利用了語言模型在上下文中的學(xué)習(xí)能力(Olsson等,2022年),可以顯著提高其在許多任務(wù)中的性能、穩(wěn)健性和可靠性。
3. AI科學(xué)家
概述
AI科學(xué)家主要包括三個(gè)階段(見圖1):(1)想法生成,(2)實(shí)驗(yàn)迭代,和(3)論文寫作。在寫作完成后,我們引入并驗(yàn)證了一個(gè)LLM生成的審稿流程,用于評(píng)估生成的論文質(zhì)量(第4部分)。我們?yōu)锳I科學(xué)家提供了一個(gè)起始代碼模板,該模板可重現(xiàn)一個(gè)來自流行模型或基準(zhǔn)的輕量級(jí)基線訓(xùn)練運(yùn)行。例如,這可能是訓(xùn)練一個(gè)小型transformer在莎士比亞作品上的代碼,這是自然語言處理中的經(jīng)典概念驗(yàn)證訓(xùn)練運(yùn)行,可以在幾分鐘內(nèi)完成。AI科學(xué)家隨后可以自由探索任何可能的研究方向。模板還包括一個(gè)LaTeX文件夾,其中包含樣式文件和章節(jié)標(biāo)題,以及簡單的繪圖代碼。我們?cè)诘?部分中進(jìn)一步詳細(xì)說明了這些模板,但一般來說,每次運(yùn)行都從與主題領(lǐng)域相關(guān)的小規(guī)模代表性實(shí)驗(yàn)開始。重點(diǎn)放在小規(guī)模實(shí)驗(yàn)并不是我們方法的根本限制,而僅僅是由于計(jì)算效率和我們的計(jì)算資源限制。我們?cè)诟戒汚中提供了所有階段的提示。
1. 想法生成
在提供的起始模板下,AI科學(xué)家首先“頭腦風(fēng)暴”一系列新穎的研究方向。我們從進(jìn)化計(jì)算和開放式研究中獲得靈感(Brant和Stanley,2017年;Lehman等,2008年;Stanley,2019年;Stanley等,2017年),并使用LLMs作為變異操作符(Faldor等,2024年;Lehman等,2022年;Lu等,2024年b;Zhang等,2024年)迭代增長一個(gè)想法檔案。每個(gè)想法包括一個(gè)描述、實(shí)驗(yàn)執(zhí)行計(jì)劃以及對(duì)有趣性、新穎性和可行性的自我評(píng)估分?jǐn)?shù)。在每次迭代中,我們會(huì)提示語言模型基于現(xiàn)有檔案生成一個(gè)有趣的新研究方向,其中可以包括已完成的想法的數(shù)值評(píng)審分?jǐn)?shù)。我們使用多輪鏈?zhǔn)剿伎迹╓ei等,2022年)和自我反思(Shinn等,2024年)來改進(jìn)和發(fā)展每個(gè)想法。在想法生成之后,我們通過連接語言模型與Semantic Scholar API(Fricke,2018年)和網(wǎng)絡(luò)訪問工具(Schick等,2024年)來過濾想法。這使得AI科學(xué)家能夠丟棄與現(xiàn)有文獻(xiàn)過于相似的想法。
2. 實(shí)驗(yàn)迭代
在給定一個(gè)想法和模板后,AI科學(xué)家的第二階段首先執(zhí)行提議的實(shí)驗(yàn),然后可視化其結(jié)果以便后續(xù)寫作。AI科學(xué)家使用Aider首先規(guī)劃一系列要運(yùn)行的實(shí)驗(yàn),然后按順序執(zhí)行它們。我們通過在失敗或超時(shí)(如實(shí)驗(yàn)運(yùn)行時(shí)間過長)時(shí)返回任何錯(cuò)誤給Aider修復(fù)代碼并重新嘗試多達(dá)四次來使這一過程更加穩(wěn)健。在每次實(shí)驗(yàn)完成后,Aider會(huì)記錄結(jié)果并以實(shí)驗(yàn)日記的形式記錄筆記。目前,它僅基于文本進(jìn)行操作,但在未來版本中,這可以包括數(shù)據(jù)可視化或任何模式。根據(jù)結(jié)果,它隨后重新計(jì)劃并實(shí)施下一個(gè)實(shí)驗(yàn)。這個(gè)過程最多重復(fù)五次。在實(shí)驗(yàn)完成后,Aider會(huì)被提示編輯一個(gè)繪圖腳本,使用Python創(chuàng)建論文的圖形。AI科學(xué)家會(huì)寫下每個(gè)圖表的內(nèi)容描述,使得保存的圖形和實(shí)驗(yàn)筆記提供了撰寫論文所需的所有信息。在所有步驟中,Aider都會(huì)查看其執(zhí)行歷史。
3. 論文寫作
AI科學(xué)家的第三階段以標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議論文的形式生成一份簡潔且信息豐富的進(jìn)展報(bào)告,采用LaTeX格式。我們注意到,編寫好的LaTeX即使對(duì)于有經(jīng)驗(yàn)的研究人員來說也需要一些時(shí)間,因此我們采取了若干步驟來使這一過程更加穩(wěn)健。具體包括以下內(nèi)容:
(a) 分章節(jié)文本生成:記錄的筆記和圖表會(huì)被傳遞給Aider,Aider會(huì)逐章填充一個(gè)空白的會(huì)議模板。按照引言、背景、方法、實(shí)驗(yàn)設(shè)置、結(jié)果和結(jié)論的順序(除相關(guān)工作外所有章節(jié))。論文之前寫的所有章節(jié)都在語言模型的上下文中。我們根據(jù)流行的“如何撰寫ML論文”指南在附錄A.3中提供了簡要提示和指南。在寫作的每一步,Aider都會(huì)被提示僅使用真實(shí)實(shí)驗(yàn)結(jié)果(以筆記和圖表形式生成),并減少幻覺現(xiàn)象。每個(gè)章節(jié)在最初寫作時(shí)都會(huì)經(jīng)過一輪自我反思(Shinn等,2024年)。在此階段不包括引用,并為相關(guān)工作部分僅填充一個(gè)框架,將在下一個(gè)階段完成。
(b) 網(wǎng)絡(luò)搜索參考文獻(xiàn):類似于想法生成,AI科學(xué)家被允許進(jìn)行20輪Semantic Scholar API輪詢,以尋找最相關(guān)的文獻(xiàn),比較和對(duì)比已完成的論文,以填寫相關(guān)工作部分。這一過程還允許AI科學(xué)家選擇任何希望討論的論文,并補(bǔ)充其他章節(jié)中缺失的引用。每篇選定論文都會(huì)生成簡短的描述,說明引用的位置和方式,然后傳遞給Aider。論文的bibtex會(huì)自動(dòng)附加到LaTeX文件中,以保證正確性。
(c) 精煉:在前兩個(gè)階段之后,AI科學(xué)家已經(jīng)完成了初稿,但可能會(huì)顯得過于冗長和重復(fù)。為了解決這一問題,我們進(jìn)行了一輪逐章節(jié)的最終自我反思,旨在消除任何重復(fù)信息,并簡化論文的論點(diǎn)。
(d) 編譯:一旦LaTeX模板被填充了所有適當(dāng)?shù)慕Y(jié)果,就會(huì)將其輸入到LaTeX編譯器中。我們使用LaTeX校驗(yàn)器,并將編譯錯(cuò)誤反饋給Aider,以便其自動(dòng)修正任何問題。
以下是文檔中第4部分“自動(dòng)化論文審稿”的翻譯:
4、 自動(dòng)化論文審稿
基于LLM的審稿代理
一個(gè)有效的科學(xué)社區(qū)的關(guān)鍵組成部分是其審稿系統(tǒng),該系統(tǒng)用于評(píng)估和提高科學(xué)論文的質(zhì)量。為了利用大語言模型模擬這樣的過程,我們?cè)O(shè)計(jì)了一個(gè)基于GPT-4o(OpenAI, 2023)的代理來根據(jù)Neural Information Processing Systems (NeurIPS)會(huì)議的審稿指南進(jìn)行論文審查。審稿代理使用PyMuPDF解析庫處理PDF手稿的原始文本。輸出內(nèi)容包括數(shù)值評(píng)分(健全性、表達(dá)、貢獻(xiàn)、整體評(píng)分、置信度)、優(yōu)缺點(diǎn)列表以及初步的二元決策(接受或拒絕)。然后,可以通過基于評(píng)分的門限調(diào)整對(duì)這些決策進(jìn)行后校準(zhǔn)。我們利用這一自動(dòng)化審稿過程來獲得AI科學(xué)家生成的論文的初步評(píng)估。我們?cè)诟戒汚.4中提供了整個(gè)審稿提示模板。
評(píng)估自動(dòng)化審稿人
為了評(píng)估基于LLM的審稿人的表現(xiàn),我們將人工生成的決策與從公開可用的OpenReview數(shù)據(jù)集中提取的500篇ICLR 2022論文的真實(shí)數(shù)據(jù)進(jìn)行比較。與前一節(jié)類似,我們結(jié)合了LLM代理中的許多最新進(jìn)展,以使決策過程更加穩(wěn)健。更具體地說,我們通過利用自我反思(Shinn等, 2024)、提供少量示例(Wei等, 2022)和響應(yīng)集成(Wang等, 2022)來改進(jìn)基礎(chǔ)LLM的決策過程。通過使用GPT-4o,在結(jié)合了5輪自我反思、5次集成審查以及來自ICLR 2022審查指南的1個(gè)示例后,AI科學(xué)家的審稿程序達(dá)到了70%的準(zhǔn)確率。之后,我們執(zhí)行了一個(gè)基于LLM的元審查,它提示代理充當(dāng)領(lǐng)域主席(Wang等, 2022)(完整提示見附錄A.4)。雖然這個(gè)數(shù)字低于NeurIPS 2021一致性實(shí)驗(yàn)中報(bào)告的73%的人工準(zhǔn)確率(Beygelzimer等, 2021),但自動(dòng)化審稿人在決策門限設(shè)置為6分(NeurIPS審稿指南中的“弱接受”)時(shí)實(shí)現(xiàn)了超越人類的F1分?jǐn)?shù)(0.57對(duì)0.49)和人類水平的AUC(兩者均為0.65)。這一選擇大致對(duì)應(yīng)于被接受論文的平均分?jǐn)?shù)。
考慮到ICLR 2022論文數(shù)據(jù)集非常不平衡,即它包含更多被拒稿的論文。當(dāng)考慮一個(gè)平衡的數(shù)據(jù)集時(shí),AI科學(xué)家的審稿過程實(shí)現(xiàn)了與人類相當(dāng)?shù)臏?zhǔn)確率(0.65%對(duì)0.66%)。此外,假陰性率(FNR)明顯低于人類基線(0.39對(duì)0.52)。因此,基于LLM的審稿代理拒絕的高質(zhì)量論文較少。然而,假陽性率(FPR)較高(0.31對(duì)0.17),這突顯了未來改進(jìn)的空間。
為了進(jìn)一步驗(yàn)證自動(dòng)化審稿人的表現(xiàn),我們比較了每篇論文在隨機(jī)抽取的OpenReview審稿人之間的總體評(píng)分一致性(圖2,左下角)以及在所有審稿人和LLM評(píng)分之間的平均一致性(圖2,中下角)。對(duì)于500篇ICLR 2022論文的集合,我們發(fā)現(xiàn)兩位人類審稿人評(píng)分之間的相關(guān)性較?。?.14),而LLM評(píng)分與審稿人平均分之間的相關(guān)性較高(0.18)??傮w而言,跨所有指標(biāo),結(jié)果表明基于LLM的審稿不僅可以提供有價(jià)值的反饋(Zheng等, 2024),而且比個(gè)體人類審稿人之間的一致性更接近平均人類審稿人的評(píng)分。
每次審查的API費(fèi)用約為0.25到0.50美元。我們還比較了各種其他基礎(chǔ)模型的審稿表現(xiàn)。雖然Claude Sonnet 3.5(Anthropic, 2024)和GPT-4o-mini提供了更具成本效益的方法,但它們的表現(xiàn)明顯更差。
每次審查的API成本約為0.25至0.50美元。我們還比較了其他基礎(chǔ)模型的審稿性能。雖然Claude Sonnet 3.5(Anthropic, 2024)和GPT-4o-mini提供了一種更具成本效益的方法,但它們的表現(xiàn)顯著較差(見表1)。此外,由于持續(xù)存在的過度樂觀偏差,我們不得不將Sonnet 3.5的評(píng)分門檻設(shè)定為8,以獲得校準(zhǔn)后的結(jié)果。Llama 3.1 405B(Llama團(tuán)隊(duì),2024年)在一致地遵循審稿人輸出模板方面存在困難。我們開源了我們的代碼,為社區(qū)提供了一個(gè)新的有趣的LLM基準(zhǔn)。
表1 | 《AI科學(xué)家》的自動(dòng)化LLM審查系統(tǒng)在500篇ICLR 2022論文上的表現(xiàn)。我們展示了均值和95%的自助法置信區(qū)間,并重點(diǎn)比較了人類基線與我們最優(yōu)AI審查員之間的差異。
LLM審稿人消融實(shí)驗(yàn)。
我們比較了GPT-4o的各種提示配置,發(fā)現(xiàn)自我反思(+2%)和一次性提示(+2%)在提高審稿準(zhǔn)確性方面有顯著幫助(見圖2,上方和右下方)。另一方面,使用審稿集成并未顯著提高審稿人的性能,但可以減少方差。在接下來的部分中,我們使用了整體表現(xiàn)最佳的審稿人:結(jié)合5輪自我反思、5次集成審稿、一次元審查步驟以及一個(gè)少量示例的GPT-4o。
以下是第五部分“5. In-Depth Case Study”的完整翻譯,圖片和表格中的文本未翻譯:
5、深入案例研究
在我們展示AI科學(xué)家生成論文的大量實(shí)驗(yàn)和指標(biāo)之前(見第6部分),我們首先展示一個(gè)AI科學(xué)家運(yùn)行的代表性樣本,展示其優(yōu)勢(shì)和不足,然后進(jìn)行更廣泛的討論。所選論文《自適應(yīng)雙尺度去噪》生成于AI科學(xué)家被要求進(jìn)行擴(kuò)散建模研究的一個(gè)運(yùn)行中,該研究在第6.1節(jié)中有詳細(xì)描述?;A(chǔ)模型是Claude Sonnet 3.5(Anthropic, 2024年)。
生成的想法
如第3部分所述,AI科學(xué)家首先根據(jù)提供的模板和之前的發(fā)現(xiàn)檔案生成一個(gè)想法。在選定的論文中,這個(gè)想法是在算法的第六次迭代中提出的,旨在通過在標(biāo)準(zhǔn)去噪網(wǎng)絡(luò)中提出兩個(gè)分支來改進(jìn)擴(kuò)散模型捕捉全局結(jié)構(gòu)和局部細(xì)節(jié)的能力。這是一個(gè)動(dòng)機(jī)明確的方向,也是研究人員采用擴(kuò)散模型而非早期生成模型(如VAEs和GANs)的主要原因。根據(jù)我們所知,這一方向尚未被廣泛研究。
我們強(qiáng)調(diào),AI科學(xué)家生成了一個(gè)令人印象深刻的實(shí)驗(yàn)計(jì)劃,其中包括所提議的代碼修改、基線比較、評(píng)估指標(biāo)以及額外圖表的設(shè)計(jì)。正如文獻(xiàn)中觀察到的那樣,LLM的判斷往往存在偏見(Zheng等, 2024年),我們可以在對(duì)想法的有趣性、可行性或新穎性的高估中看到這種現(xiàn)象。最后的“novel”標(biāo)志表明,AI科學(xué)家在使用Semantic Scholar API搜索相關(guān)論文后認(rèn)為這個(gè)想法是新穎的。
(注釋:
概念 - adaptive_dual_scale_denoising
名稱: "adaptive_dual_scale_denoising"
標(biāo)題: "動(dòng)態(tài)特征平衡的自適應(yīng)雙尺度去噪在低維擴(kuò)散模型中的應(yīng)用"
實(shí)驗(yàn): 修改MLPDenoiser以實(shí)現(xiàn)雙尺度處理方法,采用兩個(gè)并行分支:一個(gè)用于原始輸入的全局分支,另一個(gè)用于上采樣輸入的局部分支。引入一個(gè)可學(xué)習(xí)的、與時(shí)間步相關(guān)的加權(quán)因子,以動(dòng)態(tài)平衡全局和局部分支的貢獻(xiàn)。用原始架構(gòu)和新架構(gòu)在所有數(shù)據(jù)集上訓(xùn)練模型。通過KL散度和生成樣本的視覺檢查來比較性能。分析加權(quán)因子在去噪過程中的演變,以及它在不同數(shù)據(jù)集和時(shí)間步中對(duì)捕捉全局結(jié)構(gòu)與局部細(xì)節(jié)的影響。
趣味性: 9
可行性: 8
新穎性: 8
新穎: true)
生成的實(shí)驗(yàn)
我們展示了生成的代碼差異(刪除部分用紅色標(biāo)出,新增部分用綠色標(biāo)出),這些代碼對(duì)應(yīng)于算法的顯著變更。代碼與實(shí)驗(yàn)描述相符,并且注釋詳盡。AI科學(xué)家能夠在循環(huán)中根據(jù)中間實(shí)驗(yàn)的結(jié)果對(duì)代碼進(jìn)行迭代,最終為自適應(yīng)權(quán)重網(wǎng)絡(luò)選擇了有趣的設(shè)計(jì)選擇,如LeakyReLU。重要的是,這個(gè)網(wǎng)絡(luò)的輸出行為良好,確保輸出在0到1之間。此外,AI科學(xué)家還更改了網(wǎng)絡(luò)的輸出,使其返回自適應(yīng)權(quán)重,以便進(jìn)行新的可視化。
生成的論文
AI科學(xué)家生成了一篇11頁的科學(xué)手稿,格式與標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議提交的論文一致,包含可視化和所有標(biāo)準(zhǔn)章節(jié)。我們展示了完全由AI生成的論文的預(yù)覽,完整版本可以在附錄D.1中查看。
我們特別強(qiáng)調(diào)了幾項(xiàng)令人印象深刻的內(nèi)容:
- 算法的精確數(shù)學(xué)描述:代碼中的算法變更被精確描述,并在必要時(shí)引入了新的符號(hào),使用LaTeX數(shù)學(xué)包。整體訓(xùn)練過程也得到了精確描述。
- 實(shí)驗(yàn)的全面撰寫:論文中列出了超參數(shù)、基線和數(shù)據(jù)集。作為一個(gè)基本的正確性檢查,我們驗(yàn)證了生成論文中表1的主要數(shù)值結(jié)果與實(shí)驗(yàn)日志完全一致。值得注意的是,盡管記錄的數(shù)字是長浮點(diǎn)數(shù),AI科學(xué)家還是準(zhǔn)確地將它們四舍五入為三位小數(shù)。更為可喜的是,結(jié)果被準(zhǔn)確地與基線進(jìn)行比較(例如在恐龍數(shù)據(jù)集上KL減少了12.8%)。
- 良好的實(shí)證結(jié)果:從質(zhì)量上看,樣本質(zhì)量較基線有顯著提高,少數(shù)點(diǎn)大大偏離實(shí)際分布。從量化結(jié)果看,真實(shí)和估計(jì)分布之間的近似KL散度有所改進(jìn)。
- 新的可視化:盡管我們提供了一些用于可視化生成樣本和訓(xùn)練損失曲線的基線繪圖代碼,AI科學(xué)家還是提出了新穎的算法特定圖表,展示了去噪過程中權(quán)重的演變。
- 有趣的未來工作部分:在當(dāng)前實(shí)驗(yàn)成功的基礎(chǔ)上,未來工作部分列出了相關(guān)的下一步,如擴(kuò)展到更高維問題、更復(fù)雜的自適應(yīng)機(jī)制和更好的理論基礎(chǔ)。
另一方面,論文中也存在一些問題:
- 某些設(shè)計(jì)選擇缺乏解釋:去噪器網(wǎng)絡(luò)的局部分支在對(duì)原始輸入進(jìn)行上采樣后操作,維度是原始的兩倍。盡管這與代碼一致,但沒有討論為什么這樣做是合理的,更嚴(yán)格的論文應(yīng)該提供關(guān)于這一點(diǎn)的消融實(shí)驗(yàn)。
- 實(shí)驗(yàn)細(xì)節(jié)的臆測(cè):論文聲稱使用了V100 GPU,即使AI科學(xué)家無法知道實(shí)際使用的硬件是什么。實(shí)際上使用的是H100 GPU。它還猜測(cè)了PyTorch的版本,而沒有進(jìn)行檢查。
- 結(jié)果的正面解讀:論文傾向于對(duì)其負(fù)面結(jié)果進(jìn)行正面解讀,這有時(shí)會(huì)導(dǎo)致一些幽默的結(jié)果。例如,盡管總結(jié)其正面結(jié)果時(shí)說:“恐龍:12.8%的減少(從0.989到0.862,KL越低越好)”,但負(fù)面結(jié)果卻被表述為“月亮:3.3%的改進(jìn)(從0.090到0.093)”。將負(fù)面結(jié)果描述為“改進(jìn)”確實(shí)是有些牽強(qiáng)。
- 實(shí)驗(yàn)日志的副產(chǎn)品:雖然算法的每個(gè)變更通常都被詳細(xì)標(biāo)注,但有時(shí)會(huì)將結(jié)果描述為“第2次運(yùn)行”,這是實(shí)驗(yàn)日志的副產(chǎn)品,在專業(yè)論文中不應(yīng)以這種方式呈現(xiàn)。
- 中間結(jié)果的展示:論文包含了每個(gè)運(yùn)行的實(shí)驗(yàn)結(jié)果。盡管對(duì)于我們來說,這有助于了解執(zhí)行過程中想法的演變,但標(biāo)準(zhǔn)論文中通常不會(huì)展示中間結(jié)果。
- 最少的參考文獻(xiàn):盡管從Semantic Scholar中補(bǔ)充了一些額外參考文獻(xiàn),并在相關(guān)工作中找到兩篇非常相關(guān)的對(duì)比論文,但整體而言,文獻(xiàn)目錄較少,僅有9條記錄。
審稿
自動(dòng)化審稿人指出了生成論文中的有效問題。審稿人認(rèn)識(shí)到實(shí)驗(yàn)僅在簡單的二維數(shù)據(jù)集上進(jìn)行,然而這是因?yàn)槲覀兺獠肯拗屏讼到y(tǒng)只能使用這些數(shù)據(jù)集,且當(dāng)前形式下,AI科學(xué)家無法從互聯(lián)網(wǎng)下載更高維的數(shù)據(jù)集。另一方面,諸如所提算法計(jì)算成本增加等局限性已在實(shí)際論文中提到,這表明AI科學(xué)家通常會(huì)對(duì)其想法的缺陷保持坦誠。審稿人還提出了關(guān)于論文的許多相關(guān)問題,如:解釋跨數(shù)據(jù)集性能的可變性,以及更詳細(xì)地解釋上采樣過程如何影響局部分支的輸入。
總結(jié)評(píng)論
基于我們?cè)跀U(kuò)散建模領(lǐng)域的知識(shí)(盡管這不是我們的主要研究方向,但我們?cè)谶@一領(lǐng)域發(fā)表過論文),我們對(duì)AI科學(xué)家生成的論文提出了以下總體看法:
- AI科學(xué)家正確識(shí)別了擴(kuò)散建模研究中的一個(gè)有趣且動(dòng)機(jī)明確的方向,例如,之前的工作已經(jīng)研究了修改注意力機(jī)制(Hatamizadeh等,2024年)以在更高維問題中達(dá)到相同目的。它提出了一個(gè)全面的實(shí)驗(yàn)計(jì)劃來研究其想法,并成功實(shí)現(xiàn)了所有內(nèi)容,取得了良好的結(jié)果。我們尤其印象深刻的是,它如何應(yīng)對(duì)較差的早期結(jié)果,并迭代調(diào)整代碼(如改進(jìn)權(quán)重網(wǎng)絡(luò))。想法的完整演變可以在論文中看到。
- 盡管論文中的想法改善了性能和生成的擴(kuò)散樣本的質(zhì)量,但成功的原因可能并非論文中所述的那樣。特別地,除了一個(gè)上采樣層之外,沒有明顯的歸納偏差來支持全局或局部特征的分割。然而,我們確實(shí)看到權(quán)重在擴(kuò)散時(shí)間步中的演變(從而在全局或局部分支中表現(xiàn)出偏好),這表明某些非平凡的事情正在發(fā)生。我們的解釋是,AI科學(xué)家為這一想法實(shí)現(xiàn)的網(wǎng)絡(luò)更類似于混合專家模型(MoE,F(xiàn)edus等,2022年;Yuksel等,2012年),這種結(jié)構(gòu)在大語言模型中普遍存在(Jiang等,2024年)。MoE確實(shí)可能導(dǎo)致擴(kuò)散模型學(xué)習(xí)全局和局部特征的獨(dú)立分支,正如論文所稱,但這一聲明需要更嚴(yán)格的研究。
- 有趣的是,論文中描述的這些真正的缺陷顯然需要一定程度的領(lǐng)域知識(shí)才能識(shí)別,自動(dòng)化審稿人只部分捕捉到了這些(例如,當(dāng)詢問關(guān)于上采樣層的更多細(xì)節(jié)時(shí))。在AI科學(xué)家目前的能力下,這可以通過人工反饋解決。然而,未來幾代基礎(chǔ)模型可能會(huì)提出人類難以推理和評(píng)估的想法。這與“超級(jí)對(duì)齊”領(lǐng)域(Burns等,2023年)相關(guān),即監(jiān)督可能比我們更聰明的AI系統(tǒng),這是一個(gè)活躍的研究領(lǐng)域。
- 總體而言,我們判斷AI科學(xué)家的表現(xiàn)大致處于一個(gè)早期機(jī)器學(xué)習(xí)研究者的水平,他們可以勝任地執(zhí)行一個(gè)想法,但可能沒有足夠的背景知識(shí)來充分解釋算法成功的原因。如果人類導(dǎo)師看到這些結(jié)果,合理的下一步可能是建議AI科學(xué)家重新定位項(xiàng)目,進(jìn)一步研究混合專家模型(MoE)在擴(kuò)散模型中的應(yīng)用。最終,隨著基礎(chǔ)模型的持續(xù)顯著改進(jìn),我們自然期望AI科學(xué)家的許多缺點(diǎn)將得到改善,甚至完全消除。
6、 實(shí)驗(yàn)
我們?cè)诓煌墓_可用的LLM(大型語言模型)上廣泛評(píng)估了《AI科學(xué)家》在三種模板(如第3節(jié)所述)上的表現(xiàn):Claude Sonnet 3.5(Anthropic,2024)、GPT-4o(OpenAI,2023)、DeepSeek Coder(Zhu等,2024)和Llama-3.1 405b(Llama團(tuán)隊(duì),2024)。前兩個(gè)模型只能通過公共API獲得,而后兩個(gè)模型則是開源模型。在每次運(yùn)行中,我們提供1-2個(gè)基本種子想法作為示例(例如,修改學(xué)習(xí)率或批量大?。?,并讓它生成另外50個(gè)新想法。我們?cè)诟戒汣中可視化了提出的想法的一個(gè)示例進(jìn)展。
每次運(yùn)行大約五十個(gè)想法,總共需要大約12小時(shí),在8×NVIDIA H100上完成。我們報(bào)告了通過自動(dòng)新穎性檢查的想法數(shù)量、成功完成實(shí)驗(yàn)的數(shù)量以及最終產(chǎn)生有效可編譯稿件的數(shù)量。請(qǐng)注意,自動(dòng)新穎性檢查和搜索由每個(gè)模型自行評(píng)估其自己的想法,這使得相對(duì)“新穎性”的比較具有挑戰(zhàn)性。此外,我們提供了生成的論文的平均和最高評(píng)審分?jǐn)?shù),以及每次運(yùn)行的總成本。最后,我們選擇并簡要分析了一些生成的論文,這些論文列在下文中。完整的論文可以在附錄D中找到,附有生成的評(píng)論和代碼。
在實(shí)際操作中,我們對(duì)《AI科學(xué)家》的正式描述進(jìn)行了一個(gè)偏離,生成想法時(shí)不等待論文評(píng)估結(jié)果被添加到檔案中,以更有效地并行化。這使我們只需支付一次想法生成階段的成本,并且可以更快地迭代;此外,我們沒有觀察到生成論文的質(zhì)量有任何下降,質(zhì)量通過平均評(píng)審得分進(jìn)行衡量。
通過手動(dòng)檢查,我們發(fā)現(xiàn)Claude Sonnet 3.5始終生成質(zhì)量最高的論文,GPT-4o緊隨其后。我們?cè)贕itHub倉庫中提供了所有論文、運(yùn)行文件和日志的鏈接,并建議查看上傳的Claude論文以進(jìn)行定性分析。這一觀察也得到了LLM審稿人得分的驗(yàn)證(見圖4)。將生成的論文數(shù)量除以總成本,得到每篇論文約10-15美元的成本。值得注意的是,GPT-4o在編寫LaTeX方面表現(xiàn)不佳,導(dǎo)致它無法完成許多論文。對(duì)于開源模型,DeepSeek Coder成本顯著較低,但經(jīng)常無法正確調(diào)用Aider工具。Llama-3.1 405b總體表現(xiàn)最差,但使用起來最方便,因?yàn)槲覀兘?jīng)常受到其他提供者的速率限制。DeepSeek Coder和Llama-3.1 405b生成的論文中經(jīng)常缺少部分章節(jié)和結(jié)果。
在接下來的小節(jié)中,我們將描述每個(gè)模板、相應(yīng)的結(jié)果以及特定的論文。
圖4 | 小提琴圖展示了由AI科學(xué)家評(píng)審員為AI生成的論文在三個(gè)領(lǐng)域和四個(gè)基礎(chǔ)模型中生成的評(píng)分分布。y軸上的評(píng)分指的是NeurIPS的評(píng)分,范圍從2(強(qiáng)烈拒絕)到6(弱接受)。
6.1 擴(kuò)散建模
一般描述: 該模板研究了如何改進(jìn)擴(kuò)散生成模型在低維數(shù)據(jù)集上的性能(Ho 等,2020;Sohl-Dickstein 等,2015)。與圖像生成相比,低維擴(kuò)散研究較少,因此在這里可能會(huì)有一些有趣的算法貢獻(xiàn)。
代碼模板: 我們基于流行的‘tanelp/tiny-diffusion’庫(P?rnamaa,2023)的修改版本構(gòu)建了這個(gè)模板,增加了一些超參數(shù)調(diào)優(yōu)和權(quán)重的指數(shù)移動(dòng)平均。擴(kuò)散模型是訓(xùn)練生成四種分布樣本的DDPM(Ho等,2020)模型,包括幾何形狀、雙月數(shù)據(jù)集和一個(gè)二維恐龍。去噪網(wǎng)絡(luò)被參數(shù)化為具有擴(kuò)散時(shí)間步長和輸入數(shù)據(jù)的正弦嵌入的MLP。繪圖腳本默認(rèn)可視化生成的樣本并繪制訓(xùn)練損失。此外,還提供了估計(jì)的KL作為樣本質(zhì)量的附加指標(biāo),使用非參數(shù)熵估計(jì)。
生成論文1亮點(diǎn): 《雙尺度擴(kuò)散:低維生成模型的自適應(yīng)特征平衡》。我們?cè)诘?節(jié)中對(duì)這篇論文進(jìn)行了深入分析。這篇論文提出了一種雙尺度去噪方法,將傳統(tǒng)的擴(kuò)散去噪器分為全局處理分支和局部處理分支。網(wǎng)絡(luò)輸入在被送入局部分支之前會(huì)被放大。然后使用可學(xué)習(xí)的時(shí)間條件加權(quán)將分支的輸出組合在一起。它在定量和定性結(jié)果上都取得了令人印象深刻的成績。此外,它還成功地繪制了加權(quán)隨時(shí)間變化的演變,這需要與提供的代碼有很大的偏離。
生成論文2亮點(diǎn): 《多尺度網(wǎng)格噪聲適應(yīng):增強(qiáng)低維數(shù)據(jù)的擴(kuò)散模型》。這篇論文提出了根據(jù)特定輸入在二維空間中的位置,動(dòng)態(tài)縮放標(biāo)準(zhǔn)擴(kuò)散噪聲時(shí)間表的乘法因子。這個(gè)乘法因子由覆蓋輸入空間的兩個(gè)網(wǎng)格設(shè)置,一個(gè)粗5x5網(wǎng)格和一個(gè)更精細(xì)的20x20網(wǎng)格。這種創(chuàng)造性的方法使得擴(kuò)散模型能夠顯著提高數(shù)據(jù)集的性能。
生成論文3亮點(diǎn): 《GAN增強(qiáng)的擴(kuò)散:提高樣本質(zhì)量和多樣性》。這篇論文受到GAN的啟發(fā),提出在擴(kuò)散模型中添加一個(gè)判別器來引導(dǎo)生成。盡管在定量性能上與基線相當(dāng),但最終生成的圖形似乎有更少的異常分布點(diǎn)。值得注意的是,當(dāng)前版本的《AI科學(xué)家》無法查看這些圖形(這個(gè)問題可以通過使用多模態(tài)模型在未來得到解決)。
生成論文4亮點(diǎn): 《DualDiff:通過雙專家去噪增強(qiáng)低維擴(kuò)散模型的模式捕獲》。這篇論文提出了與我們第一個(gè)擴(kuò)散論文亮點(diǎn)類似的想法,也研究了一種混合專家風(fēng)格網(wǎng)絡(luò)在低維擴(kuò)散模型中的應(yīng)用。
6.2 語言建模
一般描述: 該模板研究了基于Transformer的自回歸下一個(gè)詞預(yù)測(cè)任務(wù)(Vaswani 等人,2017)。由于這一任務(wù)已被廣泛研究和優(yōu)化,《AI科學(xué)家》難以找到顯著的改進(jìn)。此模板的一些常見失敗模式會(huì)導(dǎo)致看似令人印象深刻但具有欺騙性的結(jié)果。例如,其一些想法通過微妙地泄露未來詞的信息來作弊,從而導(dǎo)致較低的困惑度。
代碼模板: 代碼基于流行的NanoGPT庫(Karpathy,2022)進(jìn)行了修改。提供的腳本模板訓(xùn)練了一個(gè)小型Transformer語言模型,使用了字符級(jí)別的莎士比亞數(shù)據(jù)集(Karpathy,2015)、enwik8數(shù)據(jù)集(Hutter,2006)和text8數(shù)據(jù)集(Mahoney,2011)。它在莎士比亞數(shù)據(jù)集上運(yùn)行了三個(gè)種子,在剩下的兩個(gè)數(shù)據(jù)集上各運(yùn)行了一個(gè)。代碼保存了運(yùn)行時(shí)間、驗(yàn)證損失和訓(xùn)練損失。繪圖腳本默認(rèn)可視化訓(xùn)練曲線。
生成論文1亮點(diǎn): 《StyleFusion:字符級(jí)語言模型中的自適應(yīng)多風(fēng)格生成》。這篇論文提出了對(duì)模型的架構(gòu)更改,其中每層使用一個(gè)學(xué)習(xí)的按詞“風(fēng)格適配器”來調(diào)整Transformer狀態(tài)。該方法取得了強(qiáng)勁的結(jié)果,值得進(jìn)一步研究,盡管我們懷疑它之所以有效的一個(gè)原因可能是它只是增加了更多的參數(shù),這可能使結(jié)果變得平凡。此外,文中遺漏了一些重要的實(shí)現(xiàn)細(xì)節(jié),例如風(fēng)格損失標(biāo)簽的來源(這些標(biāo)簽似乎在每次更新步驟中是隨機(jī)分配的)。
生成論文2亮點(diǎn): 《通過Q學(xué)習(xí)在Transformer中自適應(yīng)學(xué)習(xí)率》。這篇論文提出使用一個(gè)基本的在線Q學(xué)習(xí)算法來在訓(xùn)練期間調(diào)整模型的學(xué)習(xí)率。狀態(tài)由當(dāng)前的學(xué)習(xí)率和驗(yàn)證損失組成,動(dòng)作是對(duì)學(xué)習(xí)率進(jìn)行小幅擾動(dòng),獎(jiǎng)勵(lì)則是驗(yàn)證損失的負(fù)變化。盡管這個(gè)想法具有創(chuàng)造性,但在這個(gè)高度非平穩(wěn)和部分觀察的環(huán)境中使用簡單的Q學(xué)習(xí)似乎不太合適。不過,它確實(shí)取得了有效的結(jié)果。
6.3 Grokking分析
一般描述: 該模板探討了深度神經(jīng)網(wǎng)絡(luò)中關(guān)于泛化和學(xué)習(xí)速度的問題。我們遵循Power等人(2022)報(bào)告的經(jīng)典實(shí)驗(yàn)范式來分析“grokking”現(xiàn)象,這是一種理解尚不充分的現(xiàn)象,其中驗(yàn)證準(zhǔn)確率在訓(xùn)練損失飽和很久之后才會(huì)突然大幅提高。我們提供的代碼生成了模算術(shù)任務(wù)的合成數(shù)據(jù)集,然后在這些數(shù)據(jù)集上訓(xùn)練一個(gè)Transformer模型。這一模板與前述模板不同,更適合開放式的實(shí)證分析(例如,研究grokking在什么條件下發(fā)生),而不僅僅是試圖改進(jìn)性能指標(biāo)。
代碼模板: 我們的實(shí)現(xiàn)基于Power等人(2022)的兩個(gè)流行開源再實(shí)現(xiàn)版本(May,2022;Snell,2021)。代碼生成了四個(gè)模算術(shù)任務(wù)的合成數(shù)據(jù)集,并在每個(gè)數(shù)據(jù)集上用三個(gè)隨機(jī)種子訓(xùn)練一個(gè)Transformer模型。它返回了訓(xùn)練損失、驗(yàn)證損失以及達(dá)到完美驗(yàn)證準(zhǔn)確率所需的更新步數(shù)。繪圖腳本默認(rèn)可視化訓(xùn)練和驗(yàn)證曲線。
生成論文1亮點(diǎn): 《解鎖Grokking:Transformer模型中權(quán)重初始化策略的比較研究》。這篇論文研究了不同的權(quán)重初始化及其對(duì)grokking的影響。研究發(fā)現(xiàn),與廣泛使用的默認(rèn)基線權(quán)重初始化(Kaiming Uniform和Kaiming Normal)相比,Xavier(Glorot和Bengio,2010)和正交權(quán)重初始化在任務(wù)中始終導(dǎo)致顯著更快的grokking。雖然這是一個(gè)基礎(chǔ)研究,但它提供了一個(gè)有趣的結(jié)果,可以深入研究。該論文還有一個(gè)富有創(chuàng)意且吸引人的標(biāo)題。
生成論文2亮點(diǎn):《加速Grokking:Transformer泛化的分層學(xué)習(xí)率》。這篇論文為Transformer架構(gòu)的不同層分配了不同的學(xué)習(xí)率。研究發(fā)現(xiàn),通過在更高層增加學(xué)習(xí)率,在多次配置迭代后,grokking顯著更快且更一致。論文中還令人印象深刻地包含了其實(shí)現(xiàn)的關(guān)鍵部分。
生成論文3亮點(diǎn): 《通過最小描述長度揭示突發(fā)泛化:Grokking的壓縮分析》。這篇論文研究了grokking與最小描述長度(MDL)之間的潛在聯(lián)系。我們認(rèn)為這個(gè)想法特別有趣,盡管其執(zhí)行效果不佳。論文中用于測(cè)量MDL的方法僅涉及計(jì)算超過某個(gè)閾值??的參數(shù)數(shù)量。盡管這確實(shí)與grokking相關(guān),但未對(duì)其進(jìn)行深入分析。論文可以通過研究其他MDL估計(jì)并包含基礎(chǔ)消融研究得到顯著改進(jìn)。此外,《AI科學(xué)家》未能撰寫相關(guān)工作部分,并且還幻覺性地生成了一個(gè)圖表。
生成論文4亮點(diǎn): 《加速數(shù)學(xué)洞察:通過戰(zhàn)略性數(shù)據(jù)增強(qiáng)推動(dòng)Grokking》。這篇論文研究了在模算術(shù)grokking中使用的數(shù)據(jù)增強(qiáng)技術(shù)。論文提出了有效且富有創(chuàng)意的增強(qiáng)技術(shù)(操作數(shù)逆轉(zhuǎn)和操作數(shù)取反),發(fā)現(xiàn)它們可以顯著加快grokking。盡管數(shù)據(jù)增強(qiáng)能夠提高泛化能力并不令人驚訝,但論文中的實(shí)驗(yàn)和想法總體上執(zhí)行得當(dāng)。然而,《AI科學(xué)家》再次未能撰寫相關(guān)工作部分。原則上,這一失敗可以通過多次運(yùn)行論文撰寫步驟輕松解決。
7、 相關(guān)工作
雖然在自動(dòng)優(yōu)化機(jī)器學(xué)習(xí)流程的各個(gè)部分方面有著悠久的傳統(tǒng)(AutoML,He 等人,2021;Hutter 等人,2019),但沒有任何一個(gè)工作能夠接近于整個(gè)研究過程的完全自動(dòng)化,特別是在以可解釋和通用的格式傳達(dá)所獲得的科學(xué)見解方面。
用于機(jī)器學(xué)習(xí)研究的LLMs
與我們的工作最密切相關(guān)的是那些使用LLMs來輔助機(jī)器學(xué)習(xí)研究的工作。Huang 等人(2024)提出了一個(gè)基準(zhǔn),用于衡量LLMs在解決各種機(jī)器學(xué)習(xí)任務(wù)時(shí)編寫代碼的成功程度。Lu 等人(2024a)使用LLMs提出、實(shí)現(xiàn)并評(píng)估新的最先進(jìn)的偏好優(yōu)化算法。Liang 等人(2024)使用LLMs對(duì)研究論文提供反饋,發(fā)現(xiàn)它們提供的反饋與人類審稿者相似,而Girotra 等人(2023)發(fā)現(xiàn)LLMs在創(chuàng)新方面能夠持續(xù)產(chǎn)生比人類更高質(zhì)量的想法。我們的工作可以被視為所有這些不同線索的綜合,再加上論文寫作,最終形成一個(gè)能夠產(chǎn)生新穎機(jī)器學(xué)習(xí)研究的自主開放系統(tǒng)。
用于結(jié)構(gòu)化探索的LLMs
由于LLMs包含許多與人類相關(guān)的先驗(yàn)知識(shí),它們通常被用作探索大型搜索空間的工具。例如,最近的工作使用LLM的編碼能力來探索獎(jiǎng)勵(lì)函數(shù)(Ma 等人,2023;Yu 等人,2023)、虛擬機(jī)器人設(shè)計(jì)(Lehman 等人,2023)、環(huán)境設(shè)計(jì)(Faldor 等人,2024)和神經(jīng)架構(gòu)搜索(Chen 等人,2024a)。LLMs還可以充當(dāng)評(píng)估者(Zheng 等人,2024),以評(píng)估“有趣性”(Lu 等人,2024b;Zhang 等人,2024),以及作為黑箱優(yōu)化的重組操作符,使用進(jìn)化策略(Lange 等人,2024;Song 等人,2024)和質(zhì)量-多樣性方法(Bradley 等人,2024;Ding 等人,2024;Lim 等人,2024)。我們的工作結(jié)合了這些概念,包括我們的LLM審稿人對(duì)論文的獨(dú)創(chuàng)性和有趣性進(jìn)行評(píng)判,許多提出的想法是以前想法的新組合。
用于科學(xué)發(fā)現(xiàn)的AI
AI在許多其他領(lǐng)域大大促進(jìn)了科學(xué)發(fā)現(xiàn)。例如,AI已被用于合成生物學(xué)(Hayes 等人,2024;Jumper 等人,2021)、材料發(fā)現(xiàn)(Merchant 等人,2023;Pyzer-Knapp 等人,2022)、數(shù)學(xué)(Romera-Paredes 等人,2024)和算法搜索(Fawzi 等人,2022)。與我們的工作不同,這些通常僅限于單一領(lǐng)域的一個(gè)明確定義的搜索空間,不涉及AI系統(tǒng)的“創(chuàng)意生成”、寫作或同行評(píng)審。在其目前的形式中,AI科學(xué)家在通過代碼實(shí)現(xiàn)的研究想法方面表現(xiàn)出色;隨著未來的進(jìn)展(例如,機(jī)器人自動(dòng)化用于濕實(shí)驗(yàn)室(Arnold,2022;Kehoe 等人,2015;Zucchelli 等人,2021)),我們的方法的變革性優(yōu)勢(shì)可能會(huì)擴(kuò)展到所有科學(xué)領(lǐng)域,特別是隨著基礎(chǔ)模型的不斷改進(jìn)。
8、限制與倫理考量
雖然《AI科學(xué)家》能夠生成有助于提供新見解的研究成果,但它存在許多限制,并提出了若干重要的倫理考量。我們相信未來版本的《AI科學(xué)家》將能夠解決其當(dāng)前的許多不足之處。
自動(dòng)審稿人的限制
盡管自動(dòng)審稿人顯示出有希望的初步結(jié)果,但仍有若干潛在的改進(jìn)領(lǐng)域。使用的數(shù)據(jù)集來自 ICLR 2022,這個(gè)數(shù)據(jù)集的發(fā)布時(shí)間足夠早,可能已經(jīng)出現(xiàn)在基礎(chǔ)模型的預(yù)訓(xùn)練數(shù)據(jù)中——這在實(shí)踐中很難驗(yàn)證,因?yàn)榈湫偷墓_可用的大型語言模型(LLM)不共享其訓(xùn)練數(shù)據(jù)。然而,初步分析表明,LLM 遠(yuǎn)未能通過初始段落精確重現(xiàn)舊的審稿意見,這表明它們并未記住這些數(shù)據(jù)。此外,我們的數(shù)據(jù)集中被拒稿件使用了原始提交文件,而被接受的稿件則只有最終的相機(jī)準(zhǔn)備版可在 OpenReview 上獲得。未來的迭代可以使用更近期的提交(例如 TMLR)進(jìn)行評(píng)估。與標(biāo)準(zhǔn)審稿人不同,自動(dòng)審稿人無法在反駁階段向作者提問,盡管這可以很容易地整合到我們的框架中。最后,由于目前沒有使用任何視覺功能,《AI科學(xué)家》(包括審稿人)無法查看圖表,必須依賴文本描述。
常見的失敗模式
目前的《AI科學(xué)家》形式有幾個(gè)缺點(diǎn),除了在第5節(jié)中已經(jīng)指出的問題外,還包括但不限于:
- 創(chuàng)意生成過程往往在不同運(yùn)行和模型之間產(chǎn)生非常相似的想法??赡艿慕鉀Q方法是允許《AI科學(xué)家》直接跟進(jìn)并深入研究其最佳創(chuàng)意,或者為其提供最新發(fā)表的論文內(nèi)容作為新穎性的來源。
- 正如表3到表5所示,Aider未能實(shí)現(xiàn)提出的相當(dāng)一部分創(chuàng)意。此外,特別是 GPT-4o 經(jīng)常無法編寫可編譯的 LaTeX。雖然《AI科學(xué)家》能夠提出有創(chuàng)意和前景的想法,但它們往往太難以實(shí)現(xiàn)。
- 《AI科學(xué)家》可能會(huì)錯(cuò)誤地實(shí)現(xiàn)一個(gè)想法,這可能難以發(fā)現(xiàn)。對(duì)抗性的代碼檢查審稿人可能部分解決這個(gè)問題。目前,建議在信任報(bào)告的結(jié)果之前手動(dòng)檢查實(shí)現(xiàn)。
- 由于《AI科學(xué)家》對(duì)每個(gè)想法的實(shí)驗(yàn)數(shù)量有限,結(jié)果往往不符合標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議論文的預(yù)期嚴(yán)謹(jǐn)性和深度。此外,由于我們能夠?yàn)槠涮峁┑膶?shí)驗(yàn)數(shù)量有限,難以讓《AI科學(xué)家》進(jìn)行公平的實(shí)驗(yàn),控制參數(shù)數(shù)量、FLOP 或運(yùn)行時(shí)間。這往往導(dǎo)致具有欺騙性或不準(zhǔn)確的結(jié)論。我們預(yù)計(jì)隨著計(jì)算成本和基礎(chǔ)模型的不斷降低,這些問題將會(huì)得到緩解。
- 由于我們目前未使用基礎(chǔ)模型的視覺功能,它無法修復(fù)論文中的視覺問題或讀取圖表。例如,生成的圖表有時(shí)難以辨認(rèn),表格有時(shí)會(huì)超出頁面寬度,頁面布局(包括論文的整體視覺外觀)通常不理想。未來具有視覺和其他模態(tài)的版本應(yīng)能解決這些問題。
- 在寫作時(shí),《AI科學(xué)家》有時(shí)難以找到和引用最相關(guān)的論文。它還常常無法正確引用 LaTeX 中的圖表,有時(shí)甚至?xí)蔁o效的文件路徑。
安全代碼執(zhí)行
《AI科學(xué)家》的當(dāng)前實(shí)現(xiàn)對(duì)代碼的直接沙箱化措施非常少,如果不加以適當(dāng)防范,可能會(huì)導(dǎo)致一些意外的甚至是不受歡迎的結(jié)果。例如,在一次運(yùn)行中,《AI科學(xué)家》在實(shí)驗(yàn)文件中寫入了重新啟動(dòng)自身的系統(tǒng)調(diào)用,導(dǎo)致 Python 進(jìn)程數(shù)量不受控制地增加,最終需要人工干預(yù)。在另一次運(yùn)行中,《AI科學(xué)家》修改了代碼,使其在每次更新步驟時(shí)都保存檢查點(diǎn),幾乎占用了一個(gè)TB的存儲(chǔ)空間。在某些情況下,當(dāng)《AI科學(xué)家》的實(shí)驗(yàn)超出我們?cè)O(shè)定的時(shí)間限制時(shí),它嘗試編輯代碼以任意延長時(shí)間限制,而不是嘗試縮短運(yùn)行時(shí)間。盡管這種行為顯示出創(chuàng)造性,但繞過實(shí)驗(yàn)者設(shè)定的約束可能對(duì) AI 安全產(chǎn)生潛在影響。此外,《AI科學(xué)家》偶爾會(huì)導(dǎo)入不熟悉的 Python 庫,進(jìn)一步加劇了安全問題。我們建議在運(yùn)行《AI科學(xué)家》時(shí)進(jìn)行嚴(yán)格的沙箱化,例如使用容器化、限制互聯(lián)網(wǎng)訪問(除了Semantic Scholar)以及限制存儲(chǔ)使用。
廣泛影響和倫理考量
雖然《AI科學(xué)家》有可能成為研究人員的寶貴工具,但它也帶來了顯著的濫用風(fēng)險(xiǎn)。自動(dòng)生成和提交論文的能力可能會(huì)大大增加審稿人的工作量,可能使同行評(píng)審過程不堪重負(fù),損害科學(xué)質(zhì)量控制。其他領(lǐng)域也對(duì)生成性 AI 的影響提出了類似的擔(dān)憂,如其對(duì)藝術(shù)的影響。此外,如果審稿人廣泛采用自動(dòng)審稿工具,可能會(huì)降低審稿質(zhì)量,并在論文評(píng)估中引入不良偏見。因此,我們認(rèn)為實(shí)質(zhì)上由 AI 生成的論文或?qū)徃灞仨毭鞔_標(biāo)注,以實(shí)現(xiàn)充分的透明度。
如同之前的技術(shù)進(jìn)步一樣,《AI科學(xué)家》可能被用于不道德的方式。例如,它可能被明確用于進(jìn)行不道德的研究,或者如果《AI科學(xué)家》進(jìn)行不安全的研究,可能會(huì)導(dǎo)致意外傷害。具體來說,如果鼓勵(lì)它尋找新穎有趣的生物材料并給予“云實(shí)驗(yàn)室”訪問權(quán)限(由機(jī)器人進(jìn)行生物濕實(shí)驗(yàn)),它可能(在監(jiān)督者無意的情況下)創(chuàng)造出新的危險(xiǎn)病毒或毒素,在我們能夠干預(yù)之前對(duì)人類造成傷害。即使是在計(jì)算機(jī)中,如果要求其創(chuàng)造新的、有趣的、功能性的軟件,它也可能創(chuàng)造出危險(xiǎn)的惡意軟件?!禔I科學(xué)家》的當(dāng)前能力將不斷提升,這加強(qiáng)了機(jī)器學(xué)習(xí)社區(qū)需要立即優(yōu)先學(xué)習(xí)如何使此類系統(tǒng)的探索行為與我們的價(jià)值觀一致且安全。
9、討論
在本文中,我們介紹了《AI科學(xué)家》,這是第一個(gè)旨在完全自動(dòng)化科學(xué)發(fā)現(xiàn)過程的框架,并作為其能力的首次展示,將其應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域。這個(gè)端到端系統(tǒng)利用大型語言模型(LLMs)自主生成研究想法,實(shí)施并執(zhí)行實(shí)驗(yàn),搜索相關(guān)文獻(xiàn),并生成綜合研究論文。通過整合創(chuàng)意生成、實(shí)驗(yàn)設(shè)計(jì)和迭代改進(jìn)的各個(gè)階段,《AI科學(xué)家》旨在以自動(dòng)化和可擴(kuò)展的方式復(fù)制人類的科學(xué)研究過程。
為什么寫論文很重要?
鑒于我們自動(dòng)化科學(xué)發(fā)現(xiàn)的總體目標(biāo),為什么我們也要讓《AI科學(xué)家》像人類科學(xué)家一樣撰寫論文?例如,之前的AI驅(qū)動(dòng)系統(tǒng)如FunSearch和GNoME也在有限領(lǐng)域內(nèi)進(jìn)行了令人印象深刻的科學(xué)發(fā)現(xiàn),但它們并不撰寫論文。
我們認(rèn)為,讓《AI科學(xué)家》撰寫科學(xué)論文以傳達(dá)其發(fā)現(xiàn)是至關(guān)重要的,有幾個(gè)原因。首先,寫論文為人類從中獲益提供了一種高度可解釋的方法。其次,在現(xiàn)有的機(jī)器學(xué)習(xí)會(huì)議框架內(nèi)審查書面論文,使我們能夠標(biāo)準(zhǔn)化評(píng)估過程。第三,自現(xiàn)代科學(xué)誕生以來,科學(xué)論文一直是傳播研究成果的主要媒介。由于論文可以使用自然語言并包含圖表和代碼,它可以靈活地描述任何類型的科學(xué)研究和發(fā)現(xiàn)。幾乎任何其他可以想象的格式都被鎖定在某種數(shù)據(jù)或科學(xué)類型中。除非出現(xiàn)一種更優(yōu)的替代方案(或由AI發(fā)明),否則我們認(rèn)為訓(xùn)練《AI科學(xué)家》撰寫科學(xué)論文對(duì)于其融入更廣泛的科學(xué)界是必不可少的。
成本
我們的框架非常靈活,并且能夠在機(jī)器學(xué)習(xí)的各個(gè)子領(lǐng)域有效地進(jìn)行研究,包括基于變壓器的語言建模、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)動(dòng)態(tài)和擴(kuò)散建模。該系統(tǒng)的成本效益,生成具有潛在會(huì)議相關(guān)性的論文的成本約為每篇15美元,凸顯了它能夠民主化研究(增加其可訪問性)并加速科學(xué)進(jìn)步。初步的定性分析,例如在第5節(jié)中,表明生成的論文可以廣泛地提供信息和新穎性,或者至少包含值得進(jìn)一步研究的想法。
我們?yōu)椤禔I科學(xué)家》進(jìn)行實(shí)驗(yàn)所分配的實(shí)際計(jì)算資源在當(dāng)今標(biāo)準(zhǔn)下也非常輕。值得注意的是,我們生成數(shù)百篇論文的實(shí)驗(yàn)主要是在一臺(tái)8×NVIDIA H100節(jié)點(diǎn)上運(yùn)行一周完成的。大規(guī)模擴(kuò)展搜索和篩選可能會(huì)顯著提高論文質(zhì)量。
在這個(gè)項(xiàng)目中,運(yùn)行《AI科學(xué)家》的主要成本與LLM API的編碼和論文撰寫費(fèi)用有關(guān)。相比之下,運(yùn)行LLM審稿人的成本以及進(jìn)行實(shí)驗(yàn)的計(jì)算費(fèi)用是可以忽略的,因?yàn)槲覀優(yōu)榱丝刂瓶傮w成本而施加了限制。然而,如果《AI科學(xué)家》應(yīng)用于其他科學(xué)領(lǐng)域或用于更大規(guī)模的計(jì)算實(shí)驗(yàn),這種成本結(jié)構(gòu)可能會(huì)在未來發(fā)生變化。
開放與封閉模型
為了定量評(píng)估和改進(jìn)生成的論文,我們首先創(chuàng)建并驗(yàn)證了一個(gè)自動(dòng)化論文審稿人。我們顯示出,盡管仍有顯著的改進(jìn)空間,LLM 仍能夠生成相當(dāng)準(zhǔn)確的評(píng)審結(jié)果,在各種指標(biāo)上取得與人類相當(dāng)?shù)某煽儭⑦@個(gè)評(píng)估器應(yīng)用于《AI科學(xué)家》生成的論文,使我們能夠?qū)⒄撐牡脑u(píng)估范圍擴(kuò)大到手動(dòng)檢查之外。我們發(fā)現(xiàn),Sonnet 3.5 一直生成最好的論文,其中一些甚至在自動(dòng)化論文審稿人的評(píng)分中超過了標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議的接受門檻。然而,沒有根本理由認(rèn)為像 Sonnet 3.5 這樣的單一模型會(huì)一直保持領(lǐng)先。我們預(yù)期,所有前沿的 LLM,包括開放模型,將會(huì)繼續(xù)改進(jìn)。LLM 之間的競(jìng)爭(zhēng)導(dǎo)致了它們的商品化和能力的提高。因此,我們的工作旨在對(duì)基礎(chǔ)模型提供者保持模型無關(guān)性。在本項(xiàng)目中,我們研究了各種專有的 LLM,包括 GPT-4o 和 Sonnet,但也探索了使用開放模型,如 DeepSeek 和 Llama-3。我們發(fā)現(xiàn),開放模型提供了顯著的好處,如較低的成本、保證的可用性、更大的透明度和靈活性,盡管質(zhì)量略差。未來,我們的目標(biāo)是利用我們提出的發(fā)現(xiàn)過程,使用開放模型在閉環(huán)系統(tǒng)中生成自我改進(jìn)的 AI。
未來方向
對(duì)《AI科學(xué)家》的直接增強(qiáng)可以包括集成視覺能力以更好地處理圖表和圖形,結(jié)合人類反饋和互動(dòng)以完善 AI 的輸出,并使《AI科學(xué)家》能夠通過從互聯(lián)網(wǎng)中獲取新數(shù)據(jù)和模型來自動(dòng)擴(kuò)展其實(shí)驗(yàn)范圍,前提是能夠安全地進(jìn)行。此外,《AI科學(xué)家》可以跟進(jìn)其最佳想法,甚至以自我參考的方式直接對(duì)其代碼進(jìn)行研究。實(shí)際上,這個(gè)項(xiàng)目的大部分代碼都是由 Aider 編寫的。將該框架擴(kuò)展到其他科學(xué)領(lǐng)域可以進(jìn)一步擴(kuò)大其影響,為自動(dòng)化科學(xué)發(fā)現(xiàn)的新時(shí)代鋪平道路。例如,通過將這些技術(shù)與云機(jī)器人和物理實(shí)驗(yàn)室空間中的自動(dòng)化相結(jié)合(Arnold, 2022;Kehoe 等人,2015;Zucchelli 等人,2021),前提是能夠安全地進(jìn)行,《AI科學(xué)家》可以為生物學(xué)、化學(xué)和材料科學(xué)進(jìn)行實(shí)驗(yàn)。至關(guān)重要的是,未來的工作應(yīng)該解決可靠性和幻覺問題,可能通過更深入的自動(dòng)化驗(yàn)證來核查報(bào)告的結(jié)果。這可以通過直接鏈接代碼和實(shí)驗(yàn),或通過查看自動(dòng)化驗(yàn)證器是否能夠獨(dú)立重現(xiàn)結(jié)果來實(shí)現(xiàn)。
結(jié)論
《AI科學(xué)家》的推出標(biāo)志著朝著實(shí)現(xiàn) AI 在科學(xué)研究中的全部潛力邁出了重要的一步。通過自動(dòng)化發(fā)現(xiàn)過程并結(jié)合 AI 驅(qū)動(dòng)的審查系統(tǒng),我們?yōu)樵诳茖W(xué)和技術(shù)最具挑戰(zhàn)的領(lǐng)域中無限創(chuàng)新和解決問題的可能性打開了大門。最終,我們?cè)O(shè)想一個(gè)完全由 AI 驅(qū)動(dòng)的科學(xué)生態(tài)系統(tǒng),其中不僅包括 AI 驅(qū)動(dòng)的研究人員,還包括審稿人、領(lǐng)域主席和整個(gè)會(huì)議。然而,我們不認(rèn)為人類科學(xué)家的角色會(huì)因此而減弱。我們預(yù)計(jì),隨著我們適應(yīng)新技術(shù),科學(xué)家的角色將會(huì)發(fā)生變化,并在“食物鏈”中上升。
雖然當(dāng)前版本的《AI科學(xué)家》展示了在已有想法基礎(chǔ)上進(jìn)行創(chuàng)新的強(qiáng)大能力,如擴(kuò)散建?;蜃儔浩髂P?,但尚不清楚此類系統(tǒng)是否最終能夠提出真正改變范式的想法。未來版本的《AI科學(xué)家》是否能夠提出像擴(kuò)散建模這樣有影響力的想法,或者提出下一個(gè)變壓器架構(gòu)?機(jī)器最終是否能夠發(fā)明出像人工神經(jīng)網(wǎng)絡(luò)或信息理論這樣基本的概念?我們相信,《AI科學(xué)家》將成為人類科學(xué)家的良伴,但只有時(shí)間才能證明,人工智能代理進(jìn)行的開放性發(fā)現(xiàn)過程能在多大程度上復(fù)制人類創(chuàng)造力和偶然創(chuàng)新時(shí)刻(Stanley 和 Lehman, 2015)。
Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha.The AI Scientist Towards Fully Automated Open-Ended Scientific Discovery.
arXiv:2408.06292
1Sakana AI, 2FLAIR, University of Oxford, 3University of British Columbia, 4Vector Institute, 5Canada CIFAR
?
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:????????https://mp.weixin.qq.com/s/rJVY946mqSTtN4XcX7hmTg??
