GPT-4「榮升」AI頂會(huì)同行評(píng)審專家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%評(píng)審是ChatGPT生成
LLM在飛速進(jìn)步的同時(shí),人類也越來越難以區(qū)分LLM生成的文本與人工編寫的內(nèi)容,甚至分辨能力與隨機(jī)器不相上下。
這加大了未經(jīng)證實(shí)的生成文本可以偽裝成權(quán)威、基于證據(jù)的寫作的風(fēng)險(xiǎn)。
盡管在個(gè)例上難以察覺,但由于LLM的輸出趨于一致性,這種趨勢可能會(huì)放大語料庫級(jí)別的偏見。
基于這一點(diǎn),一支來自斯坦福的團(tuán)隊(duì)提出一種方法,以此來對(duì)包含不確定量的AI生成文本的真實(shí)世界數(shù)據(jù)集進(jìn)行可比較的評(píng)估,并在AI會(huì)議的同行評(píng)審文本中驗(yàn)證。
論文地址:https://arxiv.org/abs/2403.07183
AI會(huì)議的同行評(píng)審可能是AI?
同行評(píng)審是一種學(xué)術(shù)論文發(fā)表前的質(zhì)量評(píng)估機(jī)制。
這些同行評(píng)審者通常具有相關(guān)領(lǐng)域的專業(yè)知識(shí),他們會(huì)對(duì)論文的原創(chuàng)性、方法學(xué)、數(shù)據(jù)分析、結(jié)果解釋等進(jìn)行評(píng)價(jià),以確保論文的科學(xué)性和可信度。
斯坦福團(tuán)隊(duì)研究的AI會(huì)議包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023,他們的研究發(fā)生在ChatGPT發(fā)布之后,實(shí)驗(yàn)觀察估計(jì)LLM可能會(huì)顯著修改或生成的大語料庫中的文本比例。
結(jié)果顯示,有6.5%到16.9%可能是由LLM大幅修改的,即超出了拼寫檢查或微小寫作更新的范圍。
在下圖中,可以看到ICLR 2024同行評(píng)審中,某些形容詞的頻率發(fā)生了顯著變化,例如「值得稱贊的」、「細(xì)致的」和「復(fù)雜的」,它們在出現(xiàn)在句子中的概率分別增加了9.8倍、34.7倍和11.2倍。而這些詞大概率是由人工智能生成的。
同時(shí)研究還發(fā)現(xiàn),在報(bào)告較低自信度、接近截稿時(shí)間以及不太可能回應(yīng)作者反駁的評(píng)論中,LLM生成文本的估計(jì)比例較高。
最大似然讓LLM現(xiàn)形
因?yàn)長LM檢測器的性能不穩(wěn)定,所以比起嘗試對(duì)語料庫中的每個(gè)文檔進(jìn)行分類并計(jì)算總數(shù),研究人員采用了最大似然的方法。
研究方法主要分成四個(gè)步驟:
1. 收集(人類)作者的寫作指導(dǎo)——在這個(gè)情況下是同行評(píng)審指導(dǎo)。將這些指導(dǎo)作為提示輸入到一個(gè)LLM中,生成相應(yīng)的AI生成文檔的語料庫。
2. 使用人類和AI文檔語料庫,估算參考標(biāo)記使用分布P和Q。
3. 在已知正確比例的AI生成文檔的合成目標(biāo)語料庫上驗(yàn)證方法的性能。
4. 基于對(duì)P和Q的這些估計(jì),使用最大似然法估算目標(biāo)語料庫中AI生成或修改文檔的比例α。
上圖對(duì)方法進(jìn)行了流程可視化。
研究人員首先生成一個(gè)具有已知科學(xué)家或AI作者身份的文檔語料庫。利用這些歷史數(shù)據(jù),我們可以估算科學(xué)家撰寫的文本和AI文本的分布P和Q,并驗(yàn)證我們方法在留存數(shù)據(jù)上的性能。最后,使用估算的P和Q來估算目標(biāo)語料庫中 AI 生成文本的比例。
在驗(yàn)證集中,該方法在LLM生成反饋比例方面表現(xiàn)出高精度,預(yù)測誤差不到2.4%。同時(shí),團(tuán)隊(duì)對(duì)魯棒性也進(jìn)行了驗(yàn)證。
另外,一位審稿人可能會(huì)分兩個(gè)不同階段起草他們的審稿意見:首先,在閱讀論文時(shí)創(chuàng)建審稿的簡要大綱,然后使用LLM擴(kuò)展這個(gè)大綱以形成詳細(xì)、全面的審稿意見。
在這種場景的驗(yàn)證中,算法仍舊表現(xiàn)出色,能夠檢測到LLM用于大幅擴(kuò)展由人提供的審稿大綱的情況。
實(shí)驗(yàn)結(jié)果中還發(fā)現(xiàn)了什么
首先,團(tuán)隊(duì)將AI會(huì)議的同行評(píng)審和Nature Portfolio期刊的α進(jìn)行了比較。
與AI會(huì)議相反,Nature Portfolio期刊在ChatGPT發(fā)布后沒有顯示出估計(jì)α值的顯著增加,ChatGPT發(fā)布前后的α估計(jì)值仍在α = 0驗(yàn)證實(shí)驗(yàn)的誤差范圍內(nèi)。
這種一致性表明,在與機(jī)器學(xué)習(xí)專業(yè)領(lǐng)域相比,廣泛的科學(xué)學(xué)科對(duì)AI工具的反應(yīng)有明顯的不同。
除了發(fā)現(xiàn)同行評(píng)審文本中,有6.5%到16.9%來自于LLM的手筆之外,該研究還發(fā)現(xiàn)了一些有意思的用戶行為,在四個(gè)AI會(huì)議里保持一致:
1. 截至日期效應(yīng):在審稿截止日期前3天內(nèi)提交的評(píng)審?fù)鼉A向于用GPT
2. 參考文獻(xiàn)效應(yīng):包含「et al.」一詞的評(píng)審,即有學(xué)術(shù)引用的評(píng)審,更不會(huì)用GPT
3. 回復(fù)率降低效應(yīng):審稿討論期間,審稿人回復(fù)數(shù)量越多,評(píng)審更不會(huì)用GPT
4. 同質(zhì)化效應(yīng):與同論文其他審稿意見越相似的評(píng)審,越可能用GPT
5. 低置信度效應(yīng):自評(píng)置信度在5分制度中為2分或以下的評(píng)審與較高置信度(3分或以上)的評(píng)審相比,更可能用了GPT
盡管這項(xiàng)研究存在一定的局限性,比如只涉及了四個(gè)會(huì)議、僅使用了GPT-4來生成AI文本,并且可能存在其他誤差來源,比如由于主題和審稿人的變化而導(dǎo)致的模型時(shí)間分布的偏差。
但是,研究的結(jié)論啟示了LLM可能對(duì)科學(xué)界產(chǎn)生的潛在影響,這有助于激發(fā)進(jìn)一步的社會(huì)分析和思考。希望這些研究結(jié)果能夠促進(jìn)對(duì)于LLM在未來信息生態(tài)系統(tǒng)中應(yīng)該如何使用以及可能帶來的影響的深入探討,從而推動(dòng)出臺(tái)更加明智的政策決策。