ChatGPT 與 AI 會議同行評審:大規(guī)模監(jiān)測 AI
原創(chuàng)編輯 | 言征
作者 | 智能交互引擎
出品 | 51CTO技術棧(微信號:blog51cto)
如何監(jiān)測AI生成的內容?一篇文章中AI生成的篇幅占比究竟有多少?
今年4月,一篇題為“Monitoring AI-Modified Content at Scale:A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”的論文引起了廣泛關注。
該論文探討了ChatGPT對AI會議同行評審的影響,并提出了一種估計大型語料庫中被AI大幅修改或生成的文本比例的方法。
一、研究背景
隨著大型語言模型(LLM)的廣泛應用,如在教育、科學和全球媒體等領域,準確測量其使用規(guī)模以及評估生成文本對信息生態(tài)系統(tǒng)的影響變得愈發(fā)重要。然而,目前很難區(qū)分LLM生成的文本和人類撰寫的內容,這給科學研究帶來了挑戰(zhàn),例如ChatGPT生成的醫(yī)學摘要可能繞過AI檢測器和專家,以及媒體中出現(xiàn)的不可靠AI生成的新聞網站可能誤導消費者。
二、相關工作
1、Zero-shotLLM檢測:許多LLM檢測方法旨在檢測單個文檔中AI生成的文本,如利用語言模型的熵、對數(shù)概率分數(shù)、困惑度和不常見n-gram頻率等指標來區(qū)分人類和機器文本。但這些方法在實際應用中效果有限,且當許多商業(yè)LLM不開放源代碼時,這些方法往往依賴于假設與閉源LLM機制相似的代理LLM,這引入了一定的局限性。
2、Training-basedLLM檢測:通過微調預訓練模型來區(qū)分人類和AI生成的文本,但這種方法存在過擬合訓練數(shù)據(jù)和語言模型的傾向,且許多分類器在對抗侵入面前表現(xiàn)脆弱,對非主導語言變體的作者存在偏見。
3、LLM水?。和ㄟ^在文本中嵌入獨特的、可算法檢測的信號(水?。﹣頇z測AI生成的文本,但水印的嵌入需要模型或服務所有者的參與,且可能會降低文本生成質量和連貫性。
三、研究方法
1、記號與問題陳述:用表示文檔或句子,表示令牌,表示語料庫,表示詞匯表。假設目標語料庫中的文檔是從科學家編寫的文檔分布和AI生成的文檔分布的混合分布中生成的,目標是估計AI生成的文檔的比例。
2、統(tǒng)計估計方法概述:采用最大似然估計(MLE)方法,包括訓練數(shù)據(jù)生成、文檔概率分布估計和計算AI生成或修改的文本的最終估計比例。具體步驟為收集原始語料庫的寫作指令,用LLM生成AI文檔,估計參考令牌使用分布和,在合成目標語料庫上驗證方法性能,最后基于估計的和,使用MLE估計目標語料庫中AI生成或修改的文檔的比例。
3、MLE框架:給定從混合分布中獨立抽取的文檔集合,通過對數(shù)似然函數(shù)來估計。
4、生成訓練數(shù)據(jù):需要訪問歷史數(shù)據(jù)來估計和,具體為已知的僅包含人類撰寫文本的評論集合以及相關的評論問題和被評審的論文。將評審指令提示和與人類語料庫中評論相關的論文輸入AI語言工具(如ChatGPT),生成AI語料庫。
5、估計和從數(shù)據(jù):將每個文檔表示為令牌出現(xiàn)的列表(即一個集合),而不是令牌計數(shù)的列表。通過計算令牌在文檔中出現(xiàn)的文檔數(shù)量占總文檔數(shù)量的比例來估計人類文檔分布的出現(xiàn)概率,類似地估計,然后通過和類似的公式估計和。
6、驗證方法:將人類和AI語料庫劃分為兩個不相交的部分,80%用于訓練,20%用于驗證。選擇一系列可行的值,從AI驗證語料庫和人類驗證語料庫中抽樣生成目標語料庫,計算目標語料庫的MLE估計,如果,則說明系統(tǒng)工作正常。
圖片
四、實驗結果
1、在合成數(shù)據(jù)上的驗證:算法在識別混合驗證集中LLM生成的文本比例方面具有較高的準確性,預測誤差在人口水平上小于1.8%。
2、與基于實例的檢測方法比較:與BERT分類器基線和其他兩個最近發(fā)布的先進AI文本檢測方法相比,該方法減少了內部分布估計誤差3.4倍,外部分布估計誤差4.6倍,并且在推理時間上計算效率更高,超過1000萬倍(即7個數(shù)量級)。
3、對真實評論的估計:ML會議的評論中,在ChatGPT發(fā)布后,AI生成的句子顯著增加,但Nature期刊的評論中沒有明顯證據(jù)表明使用了AI。例如,ICLR會議中,估計的從1.6%增加到10.6%,NeurIPS從1.9%增加到9.1%,CoRL從2.4%增加到6.5%,而EMNLP會議的估計約為16.9%。
4、對校對的魯棒性:將方法應用于僅由ChatGPT進行校對(非實質性編輯)的同行評審,發(fā)現(xiàn)估計的雖有增加,但幅度遠小于在真實評審語料庫中的效果。
5、使用LLM大幅擴展評論大綱:通過模擬評審者先創(chuàng)建簡要大綱,然后使用LLM擴展大綱的過程,發(fā)現(xiàn)算法能夠檢測到這種LLM的使用情況,估計的與實際情況相符。
6、與估計LLM使用相關的因素:
(1)截止日期效應:在截止日期前3天或更少時間提交的評論中,估計的有小幅但一致的增加,表明評審者可能會在臨近截止日期時依賴LLM來節(jié)省時間。
(2)參考效應:包含學術引用的評論中估計的較低,這表明LLM往往難以準確生成包含引用的內容,同時也說明使用ChatGPT的人可能不太傾向于引用來源。
(3)低回復率效應:作者回復較少的評論中,估計的ChatGPT使用量較高,這可能是因為評審者使用LLM作為快速解決方案來避免額外的參與,或者是因為評審工作量增加導致學者依賴工具。
(4)同質化效應:“趨同”(與其他評論相似)的評論往往具有更高的估計,這表明LLM生成的文本可能導致反饋的同質化,減少了語言和認知的多樣性,可能會使學者失去接受來自多個獨立專家的多樣化反饋的機會。
(5)低信心效應:評審者信心低的評論與ChatGPT使用量的增加相關,這可能是因為LLM的融入使評審者對生成內容的個人投入感或準確性信心降低。
圖片
五、討論與結論
該研究提出了一種估計大型語料庫中被AI修改或生成的文本比例的有效方法,并通過對AI會議和期刊評論的研究,揭示了ChatGPT對科學出版的潛在影響。盡管研究存在一定局限性,但為社會分析提供了有價值的視角,希望能促進關于LLM在信息生態(tài)系統(tǒng)中使用程度和影響的建設性討論和政策決策。
以上就是對這篇論文的主要解讀,希望能對大家了解該研究有所幫助。如有不足之處,歡迎大家批評指正。
論文鏈接:https://arxiv.org/abs/2403.07183v1