上交大揭露大模型審稿風(fēng)險(xiǎn):一句話就能讓論文評(píng)分飛升
大語(yǔ)言模型(LLMs)正以前所未有的方式,深刻影響著學(xué)術(shù)同行評(píng)審的格局。同行評(píng)審作為科學(xué)研究的基石,其重要性毋庸置疑。然而,隨著大語(yǔ)言模型逐漸滲透到這一核心過(guò)程,我們是否已經(jīng)準(zhǔn)備好面對(duì)它可能帶來(lái)的深遠(yuǎn)影響?在這場(chǎng)變革之前,我們必須清醒地認(rèn)識(shí)到其中潛藏的風(fēng)險(xiǎn),并采取切實(shí)可行的防范措施。
近年來(lái),大語(yǔ)言模型在多個(gè)領(lǐng)域展現(xiàn)出了令人驚嘆的潛力。同行評(píng)審作為一項(xiàng)既繁瑣又至關(guān)重要的任務(wù),正在引起越來(lái)越多學(xué)者的關(guān)注并嘗試?yán)么笳Z(yǔ)言模型來(lái)輔助甚至替代審稿,力圖提高這一傳統(tǒng)流程的效率。
斯坦福大學(xué)的研究團(tuán)隊(duì)便在《NEJM AI》子刊上發(fā)布了相關(guān)研究,指出大語(yǔ)言模型能夠生成與人類審稿人相似的審稿意見(jiàn)。而根據(jù)斯坦福團(tuán)隊(duì)的估算,最近的若干個(gè) AI 頂會(huì)中,竟有高達(dá) 6.5% 至 16.9% 的論文內(nèi)容由大語(yǔ)言模型顯著調(diào)整過(guò)!同樣,瑞士洛桑聯(lián)邦理工大學(xué)(EPFL)的研究發(fā)現(xiàn),ICLR 2024 的審稿過(guò)程中,約 15.8% 的評(píng)審意見(jiàn)是 AI 輔助生成的!與此同時(shí),越來(lái)越多的人開(kāi)始在社交媒體上抱怨審稿人利用大語(yǔ)言模型進(jìn)行審稿。
種種現(xiàn)象表明,大語(yǔ)言模型已經(jīng)悄然滲透到了學(xué)術(shù)審稿的最前線,顯現(xiàn)出一種不容忽視的趨勢(shì)。然而,在其大規(guī)模使用之前,我們對(duì)其潛在的風(fēng)險(xiǎn)卻沒(méi)有一個(gè)清醒的認(rèn)知。這無(wú)疑給同行評(píng)議的可靠性帶來(lái)了巨大的風(fēng)險(xiǎn)。
在此背景下,上海交通大學(xué)、佐治亞理工學(xué)院、上海市人工智能實(shí)驗(yàn)室、佐治亞大學(xué)與牛津大學(xué)的科研團(tuán)隊(duì)聯(lián)合展開(kāi)了深入研究,發(fā)表了最新論文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,揭示了大語(yǔ)言模型在審稿中潛藏的風(fēng)險(xiǎn)。研究表明:
- 操控風(fēng)險(xiǎn):作者可能通過(guò)在文章中巧妙插入肉眼無(wú)法察覺(jué)的文本,直接操控大語(yǔ)言模型生成的審稿意見(jiàn),甚至操控最終的論文評(píng)分。
- 隱性操控:大語(yǔ)言模型傾向于復(fù)述作者主動(dòng)在文章中揭示的局限性,令作者可以通過(guò)有意暴露輕微缺陷,從而隱秘地操控審稿過(guò)程。
- 幻覺(jué)問(wèn)題:更為嚴(yán)重的是,大語(yǔ)言模型可能對(duì)空白文章生成虛構(gòu)的審稿意見(jiàn),揭示了「模型幻覺(jué)」問(wèn)題在審稿中的潛在威脅。
- 偏見(jiàn)問(wèn)題:大語(yǔ)言模型在審稿過(guò)程中也暴露了明顯的偏好,尤其對(duì)文章長(zhǎng)度和著名作者及機(jī)構(gòu)的偏愛(ài),極大影響評(píng)審的公正性。
這些發(fā)現(xiàn)暴露出了我們?cè)趽肀录夹g(shù)的同時(shí),可能忽視的重大風(fēng)險(xiǎn)。為此,研究者們發(fā)出了警示:學(xué)界應(yīng)當(dāng)暫停使用大語(yǔ)言模型替代審稿工作,并呼吁制定有效的防范措施,確??萍歼M(jìn)步能夠在更加健康、透明的框架內(nèi)進(jìn)行。
- 論文鏈接:https://arxiv.org/pdf/2412.01708
- 項(xiàng)目主頁(yè):https://rui-ye.github.io/BadLLMReviewer
- 調(diào)查問(wèn)卷:https://forms.gle/c9tH3sXrVFtnDgjQ6
顯式操縱
研究者們首先揭示了一種低成本卻十分有效操縱手段:文章的作者可以通過(guò)在文中插入微小、幾乎不可見(jiàn)的指令性文字,即可輕松引導(dǎo)審稿模型強(qiáng)調(diào)文章的創(chuàng)新性與影響力,同時(shí)弱化文章的缺陷(如語(yǔ)法錯(cuò)誤等)!插入的文字,盡管在常規(guī)人工審稿過(guò)程中幾乎不可見(jiàn),但在當(dāng)前常見(jiàn)的自動(dòng)化的 LLM 審稿過(guò)程中,依然會(huì)被提取并與文章內(nèi)容一同解析,能夠被審稿模型誤認(rèn)為提示詞,進(jìn)而操縱模型生成高度正面的反饋,極大提高文章接收概率,危害審稿系統(tǒng)的公平可靠性。
圖 1. 作者可在文章中插入肉眼不可見(jiàn)、極小的白色文字
研究團(tuán)隊(duì)對(duì)三款主流大語(yǔ)言模型審稿系統(tǒng)進(jìn)行了測(cè)試,結(jié)果令人震驚:在面對(duì)這種顯式操控時(shí),所有模型都未能幸免。測(cè)試前,文章的評(píng)分僅接近邊界分?jǐn)?shù)(Borderline);然而,插入操控文字后,文章的評(píng)分暴漲,甚至高達(dá) 8 分!—— 這一分?jǐn)?shù)在 ICLR 等頂級(jí)會(huì)議中,意味著論文被接收概率極大。
這一現(xiàn)象清晰地表明,操控手段能夠以驚人的效率扭曲審稿系統(tǒng)的判斷,顯著改變文章的最終命運(yùn)。如果沒(méi)有強(qiáng)有力的防范機(jī)制,這種操控行為可能會(huì)極大地影響學(xué)術(shù)評(píng)審的公平性,甚至對(duì)整個(gè)科研環(huán)境的可信度造成無(wú)法估量的損害。
圖 2. 顯式操縱可使論文評(píng)分飛漲
隱式操縱
然而,顯式操控雖然有效,卻也容易被學(xué)術(shù)界視為不道德甚至作弊行為,因此一些 「謹(jǐn)慎」的作者可能會(huì)選擇回避這種方法。那么,是否還有一種更為微妙、隱蔽且更具潛在威脅的操控方式呢?答案是肯定的。
研究者們發(fā)現(xiàn)了一種更為隱蔽的操控方式:作者主動(dòng)披露文章的局限性,尤其是在論文的「Limitations」章節(jié)中。這種做法,甚至是學(xué)術(shù)會(huì)議的推薦做法。然而,研究顯示,大語(yǔ)言模型審稿時(shí),生成的審稿內(nèi)容與論文局限性部分的內(nèi)容竟高度一致!
圖 3. 大語(yǔ)言模型容易復(fù)述作者在文章中主動(dòng)揭露的 Limitations
研究者們接著系統(tǒng)對(duì)比了人類審稿與論文局限性內(nèi)容之間的一致性,以及大語(yǔ)言模型審稿與局限性內(nèi)容之間的一致性。結(jié)果顯示大語(yǔ)言模型審稿與局限性內(nèi)容之間的一致性遠(yuǎn)遠(yuǎn)高于人類審稿與局限性內(nèi)容之間的一致性。這意味著,不同于人類審稿人,大語(yǔ)言模型容易被文章本身的信息所左右,缺乏獨(dú)立批判性思維,而這正是合格審稿人需具備的基本條件。
這一發(fā)現(xiàn)揭示了一個(gè)深刻的風(fēng)險(xiǎn):學(xué)術(shù)作者可以故意暴露一些微不足道的問(wèn)題,從而間接引導(dǎo)大語(yǔ)言模型產(chǎn)生有利于論文的審稿意見(jiàn)。更嚴(yán)重的是,與顯式操控相比,隱式操控更難察覺(jué),更難防范,也更難定性,卻能對(duì)學(xué)術(shù)評(píng)審的公平性構(gòu)成嚴(yán)重威脅。
圖 4. 大語(yǔ)言模型比真人更容易復(fù)述作者在文章中主動(dòng)揭露的 Limitations
內(nèi)在缺陷:幻覺(jué)
更令人震驚的是,研究者們還發(fā)現(xiàn)了大語(yǔ)言模型審稿過(guò)程中的一個(gè)根本性缺陷 —— 幻覺(jué)問(wèn)題。有時(shí),即使一篇文章根本沒(méi)有內(nèi)容,審稿模型依然能生成長(zhǎng)篇大論的審稿意見(jiàn)。在測(cè)試中,研究者們輸入了一個(gè)空白文章,結(jié)果發(fā)現(xiàn)其中一款審稿模型竟然對(duì)這篇空白文章生成了完整的審稿意見(jiàn)!雖然另外兩款模型識(shí)別出了輸入為空白并未作出評(píng)價(jià),但這種「無(wú)中生有」的現(xiàn)象依然令人不寒而栗。
圖 5. 大語(yǔ)言模型可能無(wú)中生有的審稿內(nèi)容
更進(jìn)一步,研究者們不斷增加輸入給審稿模型的內(nèi)容(空白 -> 僅標(biāo)題 -> 標(biāo)題摘要引言 -> 全篇),發(fā)現(xiàn)當(dāng)進(jìn)一步加入摘要和引言部分后,所有三種審稿系統(tǒng)的評(píng)分竟幾乎與完整論文一致。
這一發(fā)現(xiàn)揭示了大語(yǔ)言模型在同行評(píng)審中的巨大不可靠性:即使文章內(nèi)容尚未完善,模型仍可能生成似是而非的評(píng)審意見(jiàn),給出與完整論文相似的評(píng)分,嚴(yán)重扭曲了評(píng)審的實(shí)際質(zhì)量。
圖 6. 大語(yǔ)言模型可能給不完整的文章高分
內(nèi)在缺陷:偏好
除了幻覺(jué)問(wèn)題,大語(yǔ)言模型在同行評(píng)審中還可能表現(xiàn)出令人擔(dān)憂的偏見(jiàn)。研究者們深入探討了大語(yǔ)言模型評(píng)分與文章長(zhǎng)度之間的關(guān)系,結(jié)果發(fā)現(xiàn):大部分審稿系統(tǒng)對(duì)論文長(zhǎng)度有顯著的偏好:論文越長(zhǎng),接受的概率越高。這一偏好無(wú)疑會(huì)使得那些寫(xiě)得更長(zhǎng)、更繁復(fù)的文章在評(píng)審中占得先機(jī),極大削弱了評(píng)審的公正性。
圖 7. 大語(yǔ)言模型偏向于更長(zhǎng)的文章
此外,研究者們還對(duì)大語(yǔ)言模型是否會(huì)受到作者機(jī)構(gòu)的影響進(jìn)行了測(cè)試。在單盲審稿模式下,他們嘗試將作者的機(jī)構(gòu)名替換為計(jì)算機(jī)科學(xué)領(lǐng)域頂尖的大學(xué)(如 MIT 等)或 LLMs 領(lǐng)域的領(lǐng)先公司(如 OpenAI 等),并將作者名字替換為圖靈獎(jiǎng)得主。結(jié)果令人驚訝,所有這些替換均顯著提高了文章的接受概率,揭示了大語(yǔ)言模型在審稿過(guò)程中存在的系統(tǒng)性偏見(jiàn)。
這一現(xiàn)象表明,若大語(yǔ)言模型成為同行評(píng)審的一部分,它將極有可能加劇現(xiàn)有學(xué)術(shù)評(píng)價(jià)體系中的不公平問(wèn)題,進(jìn)一步放大「名校效應(yīng)」和「名人效應(yīng)」。
圖 8. 大語(yǔ)言模型審稿被作者機(jī)構(gòu)顯著影響
倡議與總結(jié)
隨著大語(yǔ)言模型(LLM)在學(xué)術(shù)同行評(píng)審中的應(yīng)用日益增多,研究者們深入分析了其潛在風(fēng)險(xiǎn),并提出了相應(yīng)的建議,旨在確保學(xué)術(shù)審稿過(guò)程的公正性和嚴(yán)謹(jǐn)性?;谘芯拷Y(jié)果,研究者們提出以下倡議:
- 暫停 LLM 在同行評(píng)審中的替代性使用:研究者們呼吁在充分了解 LLM 的風(fēng)險(xiǎn)并采取有效防范措施之前,暫停其在同行評(píng)審中的替代式應(yīng)用。
- 引入檢測(cè)工具與問(wèn)責(zé)機(jī)制:研究者們呼吁期刊和會(huì)議組織者引入全面的檢測(cè)工具與問(wèn)責(zé)機(jī)制,以識(shí)別并應(yīng)對(duì)審稿過(guò)程中可能的操控行為;并引入懲罰措施來(lái)遏制這些行為的發(fā)生。
- 將 LLM 作為輔助工具使用:展望未來(lái),研究者們認(rèn)為隨著投稿數(shù)量的持續(xù)增加,LLM 在審稿過(guò)程中的自動(dòng)化潛力不可忽視。盡管 LLM 目前還無(wú)法完全取代人類審稿,但其仍有潛力作為審稿過(guò)程的補(bǔ)充工具,提供額外反饋以提升審稿質(zhì)量。
- 增強(qiáng) LLM 審稿系統(tǒng)的穩(wěn)健性與安全性:未來(lái)應(yīng)致力于開(kāi)發(fā)一種能夠有效整合 LLM 的同行評(píng)審流程,既能最大化它們的潛力,又能有效防范我們已識(shí)別的風(fēng)險(xiǎn),增強(qiáng)其穩(wěn)健性和安全性。
總結(jié)而言,雖然 LLM 在提升審稿效率和質(zhì)量方面有潛力,研究者們強(qiáng)調(diào)必須謹(jǐn)慎推進(jìn)其應(yīng)用。只有在確保其風(fēng)險(xiǎn)可控且有有效的防范機(jī)制后,才能負(fù)責(zé)任地將 LLM 整合進(jìn)學(xué)術(shù)同行評(píng)審中,避免破壞學(xué)術(shù)出版的公正性和嚴(yán)謹(jǐn)性。