ICLR被曝巨大黑幕,評審和作者竟私下勾結(jié)?49.9%論文疑有AI審稿
由于規(guī)格高、論文多,頂會論文審稿過程的公平性和透明度,向來是業(yè)界關(guān)注和爭議的焦點。
本屆ICLR在放榜后就有人在Reddit上發(fā)帖,質(zhì)疑委員會接收了違反匿名政策的論文,且沒有在評審過程中遵守雙盲原則。
而且這種情況絕不是個例。ICLR官方發(fā)布的文章表示,關(guān)于審稿過程的問題已經(jīng)收到了7000多封意見書。
很快,隨著大會正式拉開帷幕,ICLR也親自下場表示,目前已經(jīng)針對這種「串通」行為展開了調(diào)查。
所謂Collusion(串通)就是,一些審稿人通過操縱投標(biāo)系統(tǒng)與特定作者匹配。
不僅如此,部分領(lǐng)域主席(AC)可能也通過類似的方式操作系統(tǒng)并指派同謀的審稿人。
然后,這些審稿人就會給出極高的評價,從而提高論文被接收的可能性。
對此,ICLR表示:
- 目前已發(fā)現(xiàn)多起審稿人與作者之間的勾結(jié)行為,其中一些案例有直接證據(jù)。
- 這些行為均直接違反了道德守則。
- 道德委員會正審查,并評估可能的處罰。
AI輔助審稿
除此之外,關(guān)于評審委員會在審稿時能否使用AI工具的問題也一直飽受爭議。
相比其他頂會,ICLR審稿較為獨特的一點在于,無論是否被接受,每篇論文的評分和評審意見都會被公開發(fā)布。
于是,來自洛桑聯(lián)邦理工學(xué)院的研究人員,就利用ICLR 2024的相關(guān)公開數(shù)據(jù),研究了用AI進行輔助評審的情況。
這篇論文不僅揭示了評審過程中可能存在的大范圍使用AI輔助工具的情況,也采用對比分析的方法研究了這種行為對評審結(jié)果可能存在的影響。
論文地址:https://arxiv.org/abs/2405.02150
論文作者首先采用了一個商用的LLM檢測器GPTZero來評估所有的文字評審意見。GPTZero可以將給定文本分為「完全由人類生成」,「完全由AI生成」和「混合生成」三類,并給出相應(yīng)的置信度。
這篇研究中,如果GPTZero認(rèn)為「完全由人類生成」的置信度低于0.5,則被認(rèn)定為使用了AI輔助。結(jié)果顯示,AI輔助評審比想象中的更廣泛。
2024年評委們給出的28028條評審意見中至少有15.8%是由AI輔助生成的,全部接收文章中的49.9%收到了至少一條由GPTZero判定為AI輔助的評審意見。
基于GPTZero的檢測結(jié)果,論文繼續(xù)研究AI輔助生成的評論是否會對論文的評分和接受率產(chǎn)生影響。
文章包括三部分,第一部分分析AI參與審稿的范圍,第二、三部分研究AI輔助可能產(chǎn)生的影響
對于每篇既有AI輔助評審意見又有人類評審意見的論文,作者收集了這些等級制評分的結(jié)果(包含5個等級:1分、3分、5分、6分、8分),并使用了比例賠付模型(proportional odds model)擬合估計AI輔助評審會打出更高分?jǐn)?shù)的可能性。
總體上,AI給論文的評分會高于人類。對于一篇給定的論文,AI評分有53.4%的可能性高于人類評分。
無論在哪個分?jǐn)?shù)區(qū)間,AI輔助評審打出的分?jǐn)?shù)相比人類都會更高
為了研究AI輔助的評審意見會如何影響論文入選結(jié)果,作者從全部論文中挑選了內(nèi)容相似的文章匹配成對,其中一篇全部被判定為由人類評審,另一篇則只含有一條AI輔助評審,且除去AI的給分后,審稿委員會為它們打出了完全相同的分?jǐn)?shù)。
通過以上標(biāo)準(zhǔn)篩選出5132個論文樣本后,作者對比了它們的接收情況從而分析AI輔助評分的影響。
總體而言,一條AI輔助的評分讓論文有3.1%的更高可能入選,而且對于評分徘徊在接收分?jǐn)?shù)線邊緣的論文,這個數(shù)字還會提升到4.9%。
評分在5~6分、處于接收線邊緣時,AI評分會對論文入選有正面影響
近年來大語言模型的快速發(fā)展,尤其是ChatGPT誕生后,學(xué)術(shù)界就涌現(xiàn)出了對AI參與審稿過程的質(zhì)疑,自己工作都在「996」的教授們面對審稿的重?fù)?dān)很有可能讓大語言模型幫自己撰寫評審意見。
這篇論文探究了當(dāng)今頂會的審稿現(xiàn)狀,通過控制變量的方法追蹤并量化了因果關(guān)系,進而揭示了AI輔助評審對論文接收結(jié)果可能產(chǎn)生的影響。
大語言模型的快速發(fā)展是否會威脅學(xué)術(shù)界長久以來實行的同行評審制度,一直是期刊和論文的委員會所擔(dān)憂的。論文作者表示,這項研究的意義之一在于,用量化的證據(jù)坐實了這種負(fù)面影響。
由于論文投稿數(shù)量的激增以及發(fā)展得越來越快的文字生成工具,疲于審稿工作的委員們采用AI輔助工具似乎是不可避免的趨勢。
以ICLR為例,2023年的總投稿數(shù)僅為4955篇,今年就激增了將近一倍,達到7262篇,這無疑給會議的評審委員會帶來了很大的工作負(fù)擔(dān)。
論文的最后一部分誠實地表達了作者的擔(dān)憂,認(rèn)為審稿過程的準(zhǔn)則和評價指標(biāo)需要跟隨大語言模型的發(fā)展一同進化。
否則,任由AI放肆地將自己不成熟的價值觀投射到學(xué)術(shù)論文的篩選過程上,尤其是那些含有更多觀點和價值表述的論文,將會產(chǎn)生更嚴(yán)重的危機。
最后,作者還分享了他們基于GPTZero打造的檢測網(wǎng)站,只要輸入你的論文標(biāo)題,就能看到自己的ICLR論文是不是被「幸運」地分配到了AI輔助評審。
測試地址:http://aireviewlottery.com