首個(gè)AI科學(xué)家發(fā)論文進(jìn)ICLR!得分6/7/6,從選題到實(shí)驗(yàn)全程零人工,連GitHub代碼庫都是AI寫的
嚯!完全由AI生成的論文,通過頂會ICLR評審?!
分?jǐn)?shù)為6/7/6,已經(jīng)超過平均人類接收門檻。
論文是醬嬸的。
整個(gè)通篇看下來,圖表論據(jù)俱全,十分有模有樣。
這篇論文,由首位AI科學(xué)家AI Scientist的2.0版本完成。
背后公司Sakana AI,是Transformer作者之一的Llion Jones的創(chuàng)業(yè)公司。
新版本2.0是一個(gè)通用端到端Agent系統(tǒng),與原版本不同的是,它擺脫了對人工模版的依賴,能夠自主生成假設(shè)、運(yùn)行實(shí)驗(yàn)、分析數(shù)據(jù)并撰寫科學(xué)論文,圖表理解能力也更強(qiáng)。
它在ML領(lǐng)域中具有更強(qiáng)的泛化能力,并采用由實(shí)驗(yàn)管理Agent引導(dǎo)的漸進(jìn)式代理樹搜索(AgenticTreeSearch)。
就連它的GitHub開源代碼庫都是由大模型來編寫。
AI生成論文通過頂會評審
首先來看這篇完全由AI生成的論文,官方透露了諸多細(xì)節(jié)。
這篇論文的標(biāo)題為:《組合正則化:增強(qiáng)神經(jīng)網(wǎng)絡(luò)泛化的意外障礙》。論文中的提出了一種旨在增強(qiáng)神經(jīng)網(wǎng)絡(luò)組成泛化的組成正則化方法,進(jìn)行了大量實(shí)驗(yàn)以評估其影響,并分析了算子復(fù)雜性對模型性能的影響,討論了組成正則化沒有產(chǎn)生預(yù)期效益的潛在原因。
當(dāng)時(shí)ICLR研討會同意他們遞交3篇AI生成的論文進(jìn)行同行評審。
評審人員會被告知他們正在評審的論文可能是AI生成的(43篇論文中有3篇),但并不知道分配給他們的論文作者到底是不是AI。
SakanaAI準(zhǔn)備的論文完全由AI端到端生成,沒有經(jīng)過人類任何修改——
AI Scientist-v2提出了科學(xué)假設(shè),提出了測試假設(shè)的實(shí)驗(yàn),編寫和完善了進(jìn)行這些實(shí)驗(yàn)的代碼,運(yùn)行實(shí)驗(yàn),分析數(shù)據(jù),將數(shù)據(jù)可視化為圖表,并寫下整個(gè)科學(xué)手稿的每一個(gè)字,從標(biāo)題到最終參考文獻(xiàn),包括放置圖表和所有格式。
整個(gè)過程,人類僅做的一個(gè)工作是,提供一個(gè)廣泛的研究主題,最終他們挑選出了三篇排名前三論文(考慮到多樣性和質(zhì)量)提交給研討會。
△團(tuán)隊(duì)為每篇生成的論文撰寫了全面的評論
最終,在提交的三篇論文中,有兩篇論文未達(dá)到接受標(biāo)準(zhǔn)。一篇論文的平均得分為 6.33(分別是6/6/7),在所有提交的論文中排名約 45%,高于人類平均接受門檻。
不過為了透明起見,這篇論文在同行評審之后被撤回,也不會在OpenReview公共論壇上發(fā)布,但是可以GitHub存儲庫中找到。
除此之外,他們發(fā)現(xiàn)AI Scientist偶爾也會犯一些引用錯(cuò)誤。
比如將錯(cuò)誤地將“基于 LSTM 的神經(jīng)網(wǎng)絡(luò)”歸因于Goodfellow (2016),而不是正確的作者Hochreiter和Schmidhuber (1997)。
而為了提高實(shí)驗(yàn)結(jié)果的科學(xué)準(zhǔn)確性、可重復(fù)性和統(tǒng)計(jì)嚴(yán)謹(jǐn)性,他們鼓勵(lì)A(yù)I Scientist重復(fù)其每個(gè)實(shí)驗(yàn)(已選入論文)數(shù)次。
首位AI科學(xué)家2.0
去年8月,首位AI Scientist橫空出世,一出手就獨(dú)立完成了10篇論文。現(xiàn)在的2.0生產(chǎn)的論文已經(jīng)可以通過頂會同行評審。
值得一提的是,官方GitHub頁面上,特別注明了兩者的區(qū)別:AI Scientist-v2并不一定能寫出比v1更好的論文,尤其是在有強(qiáng)大的起始模板可用的情況下。
v1遵循定義明確的模板,成功率較高,而v2則采用更廣泛、更具探索性的方法,成功率較低。v1最適合具有明確目標(biāo)和堅(jiān)實(shí)基礎(chǔ)的任務(wù),而v2則專為開放式科學(xué)探索而設(shè)計(jì)。
AI Scientist-v2通過將樹搜索與LLM工作流相結(jié)合,該工作流程由多個(gè)階段組成,包括自動創(chuàng)意生成、實(shí)驗(yàn)執(zhí)行、圖表可視化、手稿撰寫和審稿。
它采用代理樹搜索(由實(shí)驗(yàn)進(jìn)度管理器管理,跨越多個(gè)階段)來生成和完善代碼實(shí)現(xiàn)。隨后的實(shí)驗(yàn)利用樹搜索中表現(xiàn)最好的代碼檢查點(diǎn)(節(jié)點(diǎn)),對各種研究假設(shè)進(jìn)行迭代測試。
Transformer作者之一創(chuàng)業(yè)公司
背后公司Sakana AI,Transformer作者之一Llion Jones(簡稱獅子哥)的創(chuàng)業(yè)公司。
他本碩畢業(yè)于伯明翰大學(xué),在Delcam、油管、谷歌都工作過,谷歌是他待得最久的一家公司。
據(jù)FourWeekMBA介紹稱,在他之前的工作經(jīng)歷中,“曾兩度與谷歌的工作擦肩而過”。
第一次是他剛畢業(yè)找工作時(shí),雖然投了谷歌倫敦軟件工程師的崗位,并通過了兩輪電話面試,但最終相比谷歌,他選擇了位于英國的CAD/CAM軟件公司Delcam。
值得一說的是,在拿下谷歌offer前,恰巧遇上2009年的經(jīng)濟(jì)危機(jī),獅子哥找不到工作,好幾個(gè)月都只能靠領(lǐng)取救濟(jì)金勉強(qiáng)度日。
第二次是工作18個(gè)月后,他又接到了谷歌的招聘電話,詢問他是否想重新申請,但他依舊沒去谷歌,而是隨后加入了YouTube。
在Youtube做三年軟件工程師期間,他對人工智能產(chǎn)生興趣,自學(xué)了Coursera的機(jī)器學(xué)習(xí)課程,并終于在2015年的時(shí)候加入谷歌研究院,擔(dān)任里面的高級軟件工程師。
也正是在此期間,他與其他七名作者一起發(fā)表了那篇著名的Transformer論文Attention Is Al lYou Need。
除此之外,獅子哥也在谷歌參與了不少研究,包括Prot Trans、Tensor2Tensor等。
之所以選擇離開谷歌,是因?yàn)楣灸壳耙呀?jīng)發(fā)展到一種規(guī)模,使得他無法繼續(xù)進(jìn)行自己想做的工作。
除了每天都在浪費(fèi)精力排查其他人的bug,他還需要花時(shí)間從這家公司中找資源,試圖獲得訪問某些數(shù)據(jù)的權(quán)限。
創(chuàng)業(yè)過后,Sakana AI的工作在有序推進(jìn)。
去年8月,他們首次推出了AI科學(xué)家(AI Scientist)、AI審稿人項(xiàng)目。在這之前,還出過大模型合并進(jìn)化算法,以及研究Tranformer內(nèi)部信息流動。
此次作為AI Scientist的延續(xù),依舊由Sakana AI、UBC、牛津合作完成。
合著者包括UBC的Cong Lu和Jeff Clune以及牛津大學(xué)的Chris Lu和Jakob Foerster,兩位華人以及他們的導(dǎo)師參與。
Cong Lu,UBC(不列顛哥倫比亞大學(xué))博士后研究員,導(dǎo)師是Jeff Clune。今年2月加入了DeepMind。
Cong曾在RGU(羅伯特戈登大學(xué))就讀,2019年在牛津大學(xué)拿下博士學(xué)位,他的主要研究方向是開放式強(qiáng)化學(xué)習(xí)和AI科學(xué)發(fā)現(xiàn)。
此前,他曾在Waymo和微軟實(shí)習(xí)過。
Chris Lu,博士畢業(yè)前在Sakana AI實(shí)習(xí)了6個(gè)月。
他本科畢業(yè)于UC伯克利,博士畢業(yè)于牛津大學(xué),導(dǎo)師是Jakob Foerster。去年10月畢業(yè)之后,去到了OpenAI。
Chris目前的重要研究方向,是將進(jìn)化啟發(fā)的技術(shù)應(yīng)用于元學(xué)習(xí)和多智能體強(qiáng)化學(xué)習(xí)。
2022年夏天,他曾在DeepMind以研究科學(xué)家身份實(shí)習(xí)過。
雖然這次AI科學(xué)家已經(jīng)可以生產(chǎn)出頂會級別的論文了,但這并不是他們的最終目的。
這次是頂級的機(jī)器學(xué)習(xí)會議,下次可能就是頂級科學(xué)期刊了。
比如Nature、Science啥的。
歸根結(jié)底,研究團(tuán)隊(duì)認(rèn)為最重要的不是人工智能科學(xué)與人類科學(xué)的比較,而是它的發(fā)現(xiàn)是否有助于人類繁榮,例如治愈疾病或擴(kuò)展我們對宇宙規(guī)律的認(rèn)識。
你覺得這個(gè)時(shí)刻什么時(shí)候會到來呢?