首篇AI自寫(xiě)論文通過(guò)ICLR 2025同行評(píng)審!6.25高分碾壓人類(lèi),AI獨(dú)挑科研大梁
首篇完全由AI生成的論文,竟通過(guò)了ICLR 2025同行評(píng)審!
剛剛,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI頂會(huì)的大門(mén)。
從提出科學(xué)假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、到編寫(xiě)代碼、運(yùn)行實(shí)驗(yàn)、分析數(shù)據(jù)、繪制圖表,再到撰寫(xiě)完整論文,所有環(huán)節(jié)均由AI完成。
研究人員向2025 ICLR Workshop,一共提交了3篇AI生成的論文,全部進(jìn)入雙盲評(píng)審。
顯然,審稿人完全不知道,他們?cè)u(píng)審的是AI生成的作品,并且按照評(píng)審人類(lèi)科學(xué)家論文的標(biāo)準(zhǔn),進(jìn)行嚴(yán)格評(píng)判。
3篇論文中,只有一篇Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization,平均獲6.25的高分(6,7,6,6),遠(yuǎn)高于許多人類(lèi)作者的論文。
論文地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment/blob/master/compositional-regularization/annotated_paper.pdf
另外兩篇全部敗北。
Sakana AI特別強(qiáng)調(diào),這是首次通過(guò)「與人類(lèi)科學(xué)家相同標(biāo)準(zhǔn)」的同行評(píng)審論文。
AI科研歷史性時(shí)刻來(lái)了!
AI闖入科研殿堂,全程無(wú)人干預(yù)
要知道,ICLR與NeurIPS、ICML并稱(chēng)機(jī)器學(xué)習(xí)和人工智能研究領(lǐng)域三大頂級(jí)會(huì)議。
如前所述,Sakana AI在由2025 ICLR主辦的Workshop——ICBINB上,展開(kāi)了這項(xiàng)實(shí)驗(yàn)。
這個(gè)研討會(huì)涉及的議題非常廣泛,挑戰(zhàn)者(包括AI科學(xué)家)需要處理多樣化研究課題,去解決深度學(xué)習(xí)的實(shí)際局限性。
https://sites.google.com/view/icbinb-2025
那么,AI論文是如何參與評(píng)審過(guò)程的呢?
評(píng)審過(guò)程
通過(guò)與ICLR Workshop商定,研究團(tuán)隊(duì)提交了3篇AI生成的論文,參與同行評(píng)審。
審稿人并未明確被告知,他們所評(píng)審的論文是由AI生成的。在ICLR Workshop「評(píng)審指南」中,明確規(guī)定了這一點(diǎn)。
關(guān)鍵在于,Sakana AI提交的AI生成論文,完全由「AI端到端」生成,未經(jīng)任何人類(lèi)修改。
AI Scientist-v2不僅提出了科學(xué)假設(shè),設(shè)計(jì)了測(cè)試假設(shè)的實(shí)驗(yàn),還編寫(xiě)并優(yōu)化了實(shí)驗(yàn)代碼,運(yùn)行實(shí)驗(yàn),分析數(shù)據(jù),將數(shù)據(jù)可視化為圖表。
并且,它還撰寫(xiě)了整篇科學(xué)稿件的每一個(gè)字,從標(biāo)題到最后的參考文獻(xiàn),包括圖表放置和所有格式。
全程沒(méi)有人類(lèi)參與,為了監(jiān)督研究,Sakana AI研究員僅是為AI提供了研究的廣泛主題,并提交了3篇他們自認(rèn)為比較好的論文。
在提交的3篇論文中,其中兩篇未達(dá)到接受標(biāo)準(zhǔn)。
另外一篇論文的平均得分為6.25,在所有提交中排名約45%。這一分?jǐn)?shù)高于研討會(huì)中許多被接受的人類(lèi)撰寫(xiě)論文,高于平均接受門(mén)檻。具體評(píng)分為:
- 評(píng)分:6:略高于接受門(mén)檻
- 評(píng)分:7:好論文,接受
- 評(píng)分:6:略高于接受門(mén)檻
- 評(píng)分:6:略高于接受門(mén)檻
對(duì)AI生成論文的分析
除了同行評(píng)審過(guò)程,作為人類(lèi)AI研究者,Sakana AI還對(duì)所有3篇AI生成論文進(jìn)行了自己的分析和評(píng)審。
團(tuán)隊(duì)為每篇論文撰寫(xiě)了全面的評(píng)審意見(jiàn)。
除了自己的評(píng)審之外,Sakana AI還為每篇AI生成的論文添加了內(nèi)聯(lián)評(píng)論
他們扮演了ICLR會(huì)議審稿人的角色,向論文作者AI Scientist提出了自己發(fā)現(xiàn)的問(wèn)題,并建議作者如何通過(guò)回應(yīng)我們提出的問(wèn)題改進(jìn)論文。
與研討會(huì)評(píng)審過(guò)程不同,這種雙向交流是頂會(huì)或期刊典型同行評(píng)審過(guò)程的一部分,審稿人與作者共同改進(jìn)作品。
如下圖所示,AI Scientist偶爾會(huì)犯令人尷尬的引用錯(cuò)誤。
在這里,研究團(tuán)隊(duì)發(fā)現(xiàn)它錯(cuò)誤地將「基于LSTM神經(jīng)網(wǎng)絡(luò)」引用寫(xiě)成Goodfellow(2016),而正確的作者應(yīng)是 Hochreiter 和 Schmidhuber(1997)。
除了評(píng)審和評(píng)論外,研究團(tuán)隊(duì)還在初審階段,為每篇論文提供了初步評(píng)估分?jǐn)?shù),評(píng)估依據(jù)頂級(jí)ML會(huì)議(如NeurIPS、ICLR)的指南進(jìn)行。
最終,他們得出結(jié)論:這3篇論文在其當(dāng)前形式下,均未達(dá)到內(nèi)部認(rèn)為能被ICLR主會(huì)場(chǎng)接受的內(nèi)部標(biāo)準(zhǔn)。
然而,他們認(rèn)為提交至Workshop的論文能夠提出有趣、原創(chuàng)的初步想法,可以進(jìn)一步的大發(fā)展,因此研究人員認(rèn)為它們可能更適合ICLR Workshop分會(huì)場(chǎng)。
目前,Sakana AI已在GitHub倉(cāng)庫(kù)中,公開(kāi)了內(nèi)部人類(lèi)評(píng)審意見(jiàn),以及這3篇AI生成論文。
項(xiàng)目地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment?tab=readme-ov-file
AI中的不是主會(huì),內(nèi)部評(píng)審未通過(guò)
Sakana AI團(tuán)隊(duì)坦承,目前AI生成的論文,在其內(nèi)部標(biāo)準(zhǔn)下尚未達(dá)到ICLR主會(huì)場(chǎng)的接受水平。
在ICLR、ICML、NeurIPS三大頂會(huì)主場(chǎng),接受率通常在20-30%之間,而ICBINB Workshop接受率在60-70%之間。
盡管這只是Workshop,而非主會(huì)場(chǎng)的成果,但這一里程碑式突破預(yù)示著更大變革即將到來(lái)。
在未來(lái)的研究中,團(tuán)隊(duì)打算繼續(xù)改進(jìn)流程,生成更高質(zhì)量的科學(xué)論文,爭(zhēng)取通過(guò)頂級(jí)會(huì)議的標(biāo)準(zhǔn)。
Sakana AI還指出,AI Scientist主要基于當(dāng)前最先進(jìn)的LLM打造,因此其表現(xiàn)直接與這些LLM的性能相關(guān)。
如果前沿基礎(chǔ)模型得到持續(xù)改進(jìn),那么AI Scientist也將不斷提升。
主動(dòng)撤回論文,科學(xué)規(guī)范不能破
值得一提的是,Sakana AI在進(jìn)行這項(xiàng)研究時(shí),高度重視透明度與倫理規(guī)范。
他們認(rèn)為,科學(xué)界研究AI生成研究的質(zhì)量非常重要,而最好的方法之一是,將少量樣本提交至與評(píng)估人類(lèi)科學(xué)研究相同的嚴(yán)格同行評(píng)審過(guò)程(前提是已獲得管理這些過(guò)程的相關(guān)方許可)。
Sakana AI與ICLR組委會(huì),以及Workshop組織者全面合作才展開(kāi)的實(shí)驗(yàn),并獲得了不列顛哥倫比亞大學(xué)機(jī)構(gòu)審查委員會(huì)(IRB)的批準(zhǔn)。
此外,AI生成論文不會(huì)在OpenReview的公共論壇上公開(kāi)。根據(jù)事先約定的實(shí)驗(yàn)協(xié)議,Sakana AI主動(dòng)撤回了被接受的論文。
這是因?yàn)?,AI和科學(xué)界尚未決定是否希望在相同場(chǎng)合發(fā)表AI生成的稿件。
團(tuán)隊(duì)認(rèn)為,「作為一個(gè)共同體,我們需要制定關(guān)于AI生成科學(xué)的規(guī)范,包括何時(shí)以及如何聲明一篇論文由AI生成」。
「AI科學(xué)家」的未來(lái)
Sakana AI堅(jiān)信相信,AI Scientist的下一代將開(kāi)啟科學(xué)的新時(shí)代。
AI能夠生成一篇通過(guò)頂級(jí)ML Workshop同行評(píng)審的完整科學(xué)論文,展現(xiàn)了非常有前景的早期進(jìn)展跡象。
但,這只是開(kāi)始。
隨著AI繼續(xù)改進(jìn),AI Scientist的能力可能呈指數(shù)級(jí)增長(zhǎng)。
在未來(lái)某個(gè)時(shí)候,AI很可能會(huì)生成達(dá)到甚至超越人類(lèi)水平的論文,不僅能在頂級(jí)ML頂會(huì)上被接受,還能在頂級(jí)科學(xué)期刊中發(fā)表。