NeurIPS24評審結果遭全網(wǎng)吐槽,驚動LeCun!評審員打低分,嚴重貶低論文貢獻
每年AI領域的國際頂會,少不了「大事」發(fā)生。
前段時間,NeurIPS 2024論文評審結果終于出爐了,網(wǎng)友們開始「拉群」吵成了一片。
這時,有網(wǎng)友爆出黑料:
「一些評審人嚴重貶低論文貢獻,用不合理的標準評判,甚至忽視論文相對于其他工作的實際改進」
他認為,這可能是競品的作者,發(fā)現(xiàn)后做出不誠實的評審。
就連LeCun大佬也來圍觀,立即轉發(fā)了該帖。
作為領域主席,我告訴作者:如果你遇到了這種情況,請聯(lián)系領域主席(AC)。
作為一個作者,我想問:如何恰當?shù)刂赋鲞@種行為,并在合法批評和過度把關之間找到平衡點?
另有網(wǎng)友放出NeurIPS評審員經(jīng)典評論:這個解決方案不是新的,并且已經(jīng)被大量研究過了。
今年,是NeurIPS第38屆年會,將于12月9日-15日在溫哥華召開。
根據(jù)Paper Copilot收集的數(shù)據(jù)統(tǒng)計,截至目前,得分平均分布均在3-6分之間居多。
論文被打低分,究竟是誰的問題?
NeurIPS論文低分一片?
一位來自UT Austin的副教授,也是NeurIPS這屆頂會的領域主席(AC)之一,闡述了自己所看到的現(xiàn)象。
他表示,在自己負責的一批論文中,已提交了48篇中的16篇評審。
到目前為止,我還沒有看到一個正面評價,要么是評審員變得非常嚴格,要么是論文質量下降了?
今年,NeurIPS收到了很多「回收利用」的論文。
另一位AI研究員同樣表示,要么就是論文質量下降,要么我就是大家口中討厭的2號評審員。
在他審閱的論文中,基本上都給了2-4分。
另有評審員表示,「在我負責的這批62篇論文中,平均評分是4.3分,標準差為1。所以如果你最初得到低分,也不要灰心」!
可見,這次NeurIPS頂會論文作者都挺不好受,想要獲取高分并不容易。
大模型參與評審
而且AI火了之后,大模型也被用來論文評審。
這次,NeurIPS 2024也不例外。
Reddit網(wǎng)友評論道,自己用一個月的時間審核6篇論文,當看到自己得到的是LLM的評價,真的很受傷。
還有人指出,在自己審閱的論文中,至少發(fā)現(xiàn)了3篇由大模型生成的評審意見,很可能還有更多,其中3篇明顯是直接復制粘貼了ChatGPT輸出,完全沒有閱讀論文。
這些評審都給了6分,Confidence為4,與其他所有人的評價完全不一致。
更有網(wǎng)友評價道,「論文評論的質量很低」。
一個評審者混淆了我們方法的基線,另一個評審者混淆了基線的派生(正如我們的工作所批評的那樣)和我們方法的派生。我懷疑一些評論是由LLM產(chǎn)生的。
這屆評審怎么肥事?
有人指出這本是NeurIPS官方組委會的問題。
對于NeurIPS的評審,6分的描述完全、徹底、奇怪地錯誤。
通常情況下,給6分就意味著拒稿。但它卻被描述為一篇有中等到高影響力,且沒有問題的論文?
難怪新評審員給出如此低的分數(shù)!
在NeurIPS評分規(guī)則中,給6分的介紹——Weak Accept。
技術上扎實,具有中等到高影響力的論文,在評估、資源、可重復性、倫理考慮方面沒有重大問題。
今年6月,NeurIPS一位AC分享了很多關于頂會評審的更多信息:
他負責的一批共有13篇投稿,所有論文都已自動分配了四位評審員。
有趣的是,50%的評審員是博士生,還有幾位碩士生和本科生也是評審員。
13篇論文中有5篇的評審員中,沒有任何一位的職位高于博士生。
在這位AC負責的所有評審員中,有3位正教授,1位副教授,4位助理教授,9位業(yè)界專業(yè)人士,以及2位來自國家實驗室的人員。其余的是博士后/研究科學家、博士生、碩士生和本科生。