自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT 與 AI 會(huì)議同行評(píng)審:大規(guī)模監(jiān)測(cè) AI 原創(chuàng)

發(fā)布于 2024-9-20 17:40
瀏覽
0收藏

編輯 | 言征

作者 | 智能交互引擎

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

如何監(jiān)測(cè)AI生成的內(nèi)容?一篇文章中AI生成的篇幅占比究竟有多少?

今年4月,一篇題為“Monitoring AI-Modified Content at Scale:A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”的論文引起了廣泛關(guān)注。

該論文探討了ChatGPT對(duì)AI會(huì)議同行評(píng)審的影響,并提出了一種估計(jì)大型語(yǔ)料庫(kù)中被AI大幅修改或生成的文本比例的方法。

一、研究背景

隨著大型語(yǔ)言模型(LLM)的廣泛應(yīng)用,如在教育、科學(xué)和全球媒體等領(lǐng)域,準(zhǔn)確測(cè)量其使用規(guī)模以及評(píng)估生成文本對(duì)信息生態(tài)系統(tǒng)的影響變得愈發(fā)重要。然而,目前很難區(qū)分LLM生成的文本和人類撰寫的內(nèi)容,這給科學(xué)研究帶來(lái)了挑戰(zhàn),例如ChatGPT生成的醫(yī)學(xué)摘要可能繞過(guò)AI檢測(cè)器和專家,以及媒體中出現(xiàn)的不可靠AI生成的新聞網(wǎng)站可能誤導(dǎo)消費(fèi)者。

二、相關(guān)工作

1、Zero-shotLLM檢測(cè):許多LLM檢測(cè)方法旨在檢測(cè)單個(gè)文檔中AI生成的文本,如利用語(yǔ)言模型的熵、對(duì)數(shù)概率分?jǐn)?shù)、困惑度和不常見(jiàn)n-gram頻率等指標(biāo)來(lái)區(qū)分人類和機(jī)器文本。但這些方法在實(shí)際應(yīng)用中效果有限,且當(dāng)許多商業(yè)LLM不開放源代碼時(shí),這些方法往往依賴于假設(shè)與閉源LLM機(jī)制相似的代理LLM,這引入了一定的局限性。

2、Training-basedLLM檢測(cè):通過(guò)微調(diào)預(yù)訓(xùn)練模型來(lái)區(qū)分人類和AI生成的文本,但這種方法存在過(guò)擬合訓(xùn)練數(shù)據(jù)和語(yǔ)言模型的傾向,且許多分類器在對(duì)抗侵入面前表現(xiàn)脆弱,對(duì)非主導(dǎo)語(yǔ)言變體的作者存在偏見(jiàn)。

3、LLM水印:通過(guò)在文本中嵌入獨(dú)特的、可算法檢測(cè)的信號(hào)(水?。﹣?lái)檢測(cè)AI生成的文本,但水印的嵌入需要模型或服務(wù)所有者的參與,且可能會(huì)降低文本生成質(zhì)量和連貫性。

三、研究方法

1、記號(hào)與問(wèn)題陳述:用表示文檔或句子,表示令牌,表示語(yǔ)料庫(kù),表示詞匯表。假設(shè)目標(biāo)語(yǔ)料庫(kù)中的文檔是從科學(xué)家編寫的文檔分布和AI生成的文檔分布的混合分布中生成的,目標(biāo)是估計(jì)AI生成的文檔的比例。

2、統(tǒng)計(jì)估計(jì)方法概述:采用最大似然估計(jì)(MLE)方法,包括訓(xùn)練數(shù)據(jù)生成、文檔概率分布估計(jì)和計(jì)算AI生成或修改的文本的最終估計(jì)比例。具體步驟為收集原始語(yǔ)料庫(kù)的寫作指令,用LLM生成AI文檔,估計(jì)參考令牌使用分布和,在合成目標(biāo)語(yǔ)料庫(kù)上驗(yàn)證方法性能,最后基于估計(jì)的和,使用MLE估計(jì)目標(biāo)語(yǔ)料庫(kù)中AI生成或修改的文檔的比例。

3、MLE框架:給定從混合分布中獨(dú)立抽取的文檔集合,通過(guò)對(duì)數(shù)似然函數(shù)來(lái)估計(jì)。

4、生成訓(xùn)練數(shù)據(jù):需要訪問(wèn)歷史數(shù)據(jù)來(lái)估計(jì)和,具體為已知的僅包含人類撰寫文本的評(píng)論集合以及相關(guān)的評(píng)論問(wèn)題和被評(píng)審的論文。將評(píng)審指令提示和與人類語(yǔ)料庫(kù)中評(píng)論相關(guān)的論文輸入AI語(yǔ)言工具(如ChatGPT),生成AI語(yǔ)料庫(kù)。

5、估計(jì)和從數(shù)據(jù):將每個(gè)文檔表示為令牌出現(xiàn)的列表(即一個(gè)集合),而不是令牌計(jì)數(shù)的列表。通過(guò)計(jì)算令牌在文檔中出現(xiàn)的文檔數(shù)量占總文檔數(shù)量的比例來(lái)估計(jì)人類文檔分布的出現(xiàn)概率,類似地估計(jì),然后通過(guò)和類似的公式估計(jì)和。

6、驗(yàn)證方法:將人類和AI語(yǔ)料庫(kù)劃分為兩個(gè)不相交的部分,80%用于訓(xùn)練,20%用于驗(yàn)證。選擇一系列可行的值,從AI驗(yàn)證語(yǔ)料庫(kù)和人類驗(yàn)證語(yǔ)料庫(kù)中抽樣生成目標(biāo)語(yǔ)料庫(kù),計(jì)算目標(biāo)語(yǔ)料庫(kù)的MLE估計(jì),如果,則說(shuō)明系統(tǒng)工作正常。

ChatGPT 與 AI 會(huì)議同行評(píng)審:大規(guī)模監(jiān)測(cè) AI-AI.x社區(qū)圖片

四、實(shí)驗(yàn)結(jié)果

1、在合成數(shù)據(jù)上的驗(yàn)證:算法在識(shí)別混合驗(yàn)證集中LLM生成的文本比例方面具有較高的準(zhǔn)確性,預(yù)測(cè)誤差在人口水平上小于1.8%。

2、與基于實(shí)例的檢測(cè)方法比較:與BERT分類器基線和其他兩個(gè)最近發(fā)布的先進(jìn)AI文本檢測(cè)方法相比,該方法減少了內(nèi)部分布估計(jì)誤差3.4倍,外部分布估計(jì)誤差4.6倍,并且在推理時(shí)間上計(jì)算效率更高,超過(guò)1000萬(wàn)倍(即7個(gè)數(shù)量級(jí))。

3、對(duì)真實(shí)評(píng)論的估計(jì):ML會(huì)議的評(píng)論中,在ChatGPT發(fā)布后,AI生成的句子顯著增加,但Nature期刊的評(píng)論中沒(méi)有明顯證據(jù)表明使用了AI。例如,ICLR會(huì)議中,估計(jì)的從1.6%增加到10.6%,NeurIPS從1.9%增加到9.1%,CoRL從2.4%增加到6.5%,而EMNLP會(huì)議的估計(jì)約為16.9%。

4、對(duì)校對(duì)的魯棒性:將方法應(yīng)用于僅由ChatGPT進(jìn)行校對(duì)(非實(shí)質(zhì)性編輯)的同行評(píng)審,發(fā)現(xiàn)估計(jì)的雖有增加,但幅度遠(yuǎn)小于在真實(shí)評(píng)審語(yǔ)料庫(kù)中的效果。

5、使用LLM大幅擴(kuò)展評(píng)論大綱:通過(guò)模擬評(píng)審者先創(chuàng)建簡(jiǎn)要大綱,然后使用LLM擴(kuò)展大綱的過(guò)程,發(fā)現(xiàn)算法能夠檢測(cè)到這種LLM的使用情況,估計(jì)的與實(shí)際情況相符。

6、與估計(jì)LLM使用相關(guān)的因素:

(1)截止日期效應(yīng):在截止日期前3天或更少時(shí)間提交的評(píng)論中,估計(jì)的有小幅但一致的增加,表明評(píng)審者可能會(huì)在臨近截止日期時(shí)依賴LLM來(lái)節(jié)省時(shí)間。

(2)參考效應(yīng):包含學(xué)術(shù)引用的評(píng)論中估計(jì)的較低,這表明LLM往往難以準(zhǔn)確生成包含引用的內(nèi)容,同時(shí)也說(shuō)明使用ChatGPT的人可能不太傾向于引用來(lái)源。

(3)低回復(fù)率效應(yīng):作者回復(fù)較少的評(píng)論中,估計(jì)的ChatGPT使用量較高,這可能是因?yàn)樵u(píng)審者使用LLM作為快速解決方案來(lái)避免額外的參與,或者是因?yàn)樵u(píng)審工作量增加導(dǎo)致學(xué)者依賴工具。

(4)同質(zhì)化效應(yīng):“趨同”(與其他評(píng)論相似)的評(píng)論往往具有更高的估計(jì),這表明LLM生成的文本可能導(dǎo)致反饋的同質(zhì)化,減少了語(yǔ)言和認(rèn)知的多樣性,可能會(huì)使學(xué)者失去接受來(lái)自多個(gè)獨(dú)立專家的多樣化反饋的機(jī)會(huì)。

(5)低信心效應(yīng):評(píng)審者信心低的評(píng)論與ChatGPT使用量的增加相關(guān),這可能是因?yàn)長(zhǎng)LM的融入使評(píng)審者對(duì)生成內(nèi)容的個(gè)人投入感或準(zhǔn)確性信心降低。

ChatGPT 與 AI 會(huì)議同行評(píng)審:大規(guī)模監(jiān)測(cè) AI-AI.x社區(qū)圖片

五、討論與結(jié)論

該研究提出了一種估計(jì)大型語(yǔ)料庫(kù)中被AI修改或生成的文本比例的有效方法,并通過(guò)對(duì)AI會(huì)議和期刊評(píng)論的研究,揭示了ChatGPT對(duì)科學(xué)出版的潛在影響。盡管研究存在一定局限性,但為社會(huì)分析提供了有價(jià)值的視角,希望能促進(jìn)關(guān)于LLM在信息生態(tài)系統(tǒng)中使用程度和影響的建設(shè)性討論和政策決策。

以上就是對(duì)這篇論文的主要解讀,希望能對(duì)大家了解該研究有所幫助。如有不足之處,歡迎大家批評(píng)指正。

論文鏈接:https://arxiv.org/abs/2403.07183v1

原文鏈接:??http://www.scjtxx.cn/aigc/2204.html??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄