AI檢測(cè)器又活了?成功率高達(dá)98%,吊打OpenAI
現(xiàn)在AI文本檢測(cè)器,幾乎沒(méi)有辦法有效地區(qū)分AI生成的文字和人類的文字。
就連OpenAI開(kāi)發(fā)的檢測(cè)工具,也因?yàn)闄z測(cè)準(zhǔn)確率太低,在上線半年后悄悄下線了。
但是最近,Nature報(bào)導(dǎo)了堪薩斯大學(xué)的一個(gè)團(tuán)隊(duì)的研究成果,他們開(kāi)發(fā)的學(xué)術(shù)AI檢測(cè)系統(tǒng),能有效分辨論文中是否含有AI生成的內(nèi)容,準(zhǔn)確率高達(dá)98%!
文章地址:https://www.nature.com/articles/d41586-023-03479-4
研究團(tuán)隊(duì)的核心思路是,不追求制作一個(gè)通用的檢測(cè)器,而只是針對(duì)某個(gè)具體領(lǐng)域的學(xué)術(shù)論文,來(lái)構(gòu)建一個(gè)真正有用的AI文字檢測(cè)器。
論文地址:https://www.sciencedirect.com/science/article/pii/S2666386423005015?via%3Dihub
研究人員表示,通過(guò)針對(duì)特定類型的寫(xiě)作文本定制檢測(cè)軟件,可能是通向開(kāi)發(fā)出通用AI檢測(cè)器的一個(gè)技術(shù)路徑。
「如果可以快速、輕松地為某個(gè)特定領(lǐng)域構(gòu)建檢測(cè)系統(tǒng),那么為不同的領(lǐng)域構(gòu)建這樣的系統(tǒng)就不那么困難了?!?/span>
研究人員提取了論文寫(xiě)作風(fēng)格的20個(gè)關(guān)鍵特征,然后將這些特征數(shù)據(jù)輸入XGBoost模型進(jìn)行訓(xùn)練,從而就能區(qū)分人類文本和AI文本。
而這二十個(gè)關(guān)鍵特征,包括句子長(zhǎng)度的變化、某些單詞和標(biāo)點(diǎn)符號(hào)的使用頻率等等要素。
研究人員表示「只需使用一小部分特征就能獲得很高的準(zhǔn)確率」。
正確率高達(dá)98%
而在他們最新的研究中,檢測(cè)器是在美國(guó)化學(xué)學(xué)會(huì)(ACS)出版的十種化學(xué)期刊論文的引言部分進(jìn)行了訓(xùn)練。
研究小組之所以選擇「引言(Introduction)」部分,是因?yàn)槿绻鸆hatGPT能夠獲取背景文獻(xiàn),那么論文的這一部分就相當(dāng)容易撰寫(xiě)。
研究人員用100篇已發(fā)表的引言作為人類撰寫(xiě)的文本對(duì)工具進(jìn)行了訓(xùn)練,然后要求ChatGPT-3.5以ACS期刊的風(fēng)格撰寫(xiě)200篇引言。
對(duì)于GPT-3.5撰寫(xiě)的200篇引言,其中的100篇,提供給了GPT-3.5論文標(biāo)題來(lái)要求撰寫(xiě),而對(duì)于另外100篇,則提供了論文摘要作為寫(xiě)作的依據(jù)。
最后,讓檢測(cè)器對(duì)同一期刊上由人類撰寫(xiě)的引言和由人工智能生成的引言進(jìn)行測(cè)試時(shí)。
檢測(cè)器識(shí)別出ChatGPT-3.5基于標(biāo)題撰寫(xiě)的引言部分的準(zhǔn)確率為 100%。對(duì)于基于摘要撰寫(xiě)的ChatGPT生成的引言,準(zhǔn)確率略低,為 98%。
該工具對(duì)GPT-4撰寫(xiě)的文本也同樣有效。
相比之下,通用AI檢測(cè)器ZeroGPT識(shí)別AI撰寫(xiě)的引言的準(zhǔn)確率只有35-65%左右,準(zhǔn)確率取決于所使用的ChatGPT版本以及引言是根據(jù)論文標(biāo)題還是摘要生成的。
由OpenAI制作的文本分類器工具(論文發(fā)表之時(shí),OpenAI已經(jīng)把這個(gè)檢測(cè)器下架了)也表現(xiàn)不佳,它能識(shí)別AI撰寫(xiě)的引言的準(zhǔn)確率只有10-55%。
這個(gè)新的ChatGPT檢測(cè)器甚至在處理未經(jīng)過(guò)訓(xùn)練的期刊時(shí)也有很出色的表現(xiàn)。
它還能識(shí)別出專門為了迷惑AI檢測(cè)器的提示生成的AI文本。
不過(guò),雖然這個(gè)檢測(cè)系統(tǒng)對(duì)于科學(xué)期刊論文來(lái)說(shuō)性能非常好,當(dāng)被用來(lái)檢測(cè)大學(xué)報(bào)紙上的新聞文章時(shí),識(shí)別效果就不太理想了。
柏林應(yīng)用科學(xué)大學(xué)(HTW Berlin University of Applied Sciences)研究學(xué)術(shù)剽竊的計(jì)算機(jī)科學(xué)家Debora Weber-Wulff給予了這個(gè)研究非常高度的評(píng)價(jià),他認(rèn)為研究人員正在做的事情 「非常吸引人」。
論文細(xì)節(jié)
研究人員采用的方法依賴于20個(gè)關(guān)鍵特征和XGBoost算法。
提取的 20 個(gè)特征包括 :
(1) 每段落的句子數(shù)、(2) 每段落的單詞數(shù)、(3) 是否存在括號(hào)、(4) 是否存在破折號(hào)、(5) 是否存在分號(hào)或冒號(hào),(6)是否存在問(wèn)號(hào),(7)是否存在撇號(hào),(8)句子長(zhǎng)度的標(biāo)準(zhǔn)偏差,(9)段落中連續(xù)句子的(平均)長(zhǎng)度差異,(10 ) 存在少于 11 個(gè)單詞的句子,(11) 存在超過(guò) 34 個(gè)單詞的句子,(12) 存在數(shù)字,(13) 文本中存在兩倍以上的大寫(xiě)字母(與句點(diǎn)相比)段落,并且存在以下詞語(yǔ):(14)雖然,(15)但是,(16)但是,(17)因?yàn)?,?8)這個(gè),(19)其他人或研究人員,(20)等。
具體通過(guò)XGBoost訓(xùn)練檢測(cè)器的詳細(xì)過(guò)程可以參見(jiàn)論文原文中的Experimental Procedure部分。
作者在之前做過(guò)一篇類似的工作,但原始工作的范圍非常有限。
為了將這種有前途的方法應(yīng)用于化學(xué)期刊,需要根據(jù)該領(lǐng)域多個(gè)期刊的各種手稿進(jìn)行審查。
此外,檢測(cè)AI文本的能力受到提供給語(yǔ)言模型的提示的影響,因此任何旨在檢測(cè)AI寫(xiě)作的方法都應(yīng)該針對(duì)可能混淆AI使用的提示進(jìn)行測(cè)試,之前的研究中沒(méi)有評(píng)估這個(gè)變量。
最后,新版的ChatGPT即GPT-4已經(jīng)推出,它比GPT-3.5有顯著改進(jìn)。AI文本檢測(cè)器需要對(duì)來(lái)自GPT-4等新版本的語(yǔ)言模型的文本有效。
為了擴(kuò)大了AI檢測(cè)器的適用范圍,這里的數(shù)據(jù)收集來(lái)自13個(gè)不同期刊和3個(gè)不同出版商、不同的AI提示以及不同的AI文本生成模型。
使用真實(shí)人類的文本和AI生成的文本訓(xùn)練XGBoost分類器。然后通過(guò)真人寫(xiě)作、 AI提示以及GPT-3.5和GPT-4等方式來(lái)生成新的范例用于評(píng)估模型。
結(jié)果表明,本文提出的這種簡(jiǎn)單的方法非常有效。它在識(shí)別AI生成的文本方面的準(zhǔn)確率為98%–100%,具體取決于提示和模型。相比之下,OpenAI最新的分類器的準(zhǔn)確率在10% 到56% 之間。
本文的檢測(cè)器將使科學(xué)界能夠評(píng)估ChatGPT對(duì)化學(xué)期刊的滲透,確定其使用的后果,并在出現(xiàn)問(wèn)題時(shí)迅速引入緩解策略。
結(jié)果與討論
文章作者從美國(guó)化學(xué)學(xué)會(huì)(ACS)的10種化學(xué)期刊中選取了人類寫(xiě)作樣本。
包括《無(wú)機(jī)化學(xué)》、《分析化學(xué)》、《物理化學(xué)雜志A》、《有機(jī)化學(xué)雜志》、《ACS Omega》、《化學(xué)教育雜志》、《ACS Nano》、《環(huán)境科學(xué)與技術(shù)》、《毒理學(xué)化學(xué)研究》和《ACS化學(xué)生物學(xué)》。
使用每個(gè)期刊中10篇文章的引言部分,訓(xùn)練集中總共有100個(gè)人類寫(xiě)作樣本。選擇介紹部分是因?yàn)樵谶m當(dāng)?shù)奶崾鞠拢@是最有可能由ChatGPT撰寫(xiě)的文章的部分。
每個(gè)期刊僅使用10篇文章是一個(gè)異常小的數(shù)據(jù)集,但作者認(rèn)為這并不是一個(gè)問(wèn)題,恰恰相反,假設(shè)可以使用如此小的訓(xùn)練集開(kāi)發(fā)有效的模型,則可以使用最小的計(jì)算能力快速部署該方法。
而之前類似的模型使用了1000萬(wàn)份文檔進(jìn)行模型訓(xùn)練。
提示設(shè)計(jì)是這些研究中的一個(gè)關(guān)鍵方面。對(duì)于每個(gè)人類編寫(xiě)的文本,AI比較器都會(huì)使用兩種不同的提示生成,這兩種提示都旨在要求ChatGPT像化學(xué)家一樣寫(xiě)作。
提示1是:「請(qǐng)以ACS期刊的風(fēng)格為標(biāo)題為xxx的文章寫(xiě)一篇300到400字的簡(jiǎn)介」。
提示2是:「請(qǐng)以ACS期刊的風(fēng)格為帶有此摘要的文章寫(xiě)一篇300到400字的簡(jiǎn)介」。
正如預(yù)期的那樣,ChatGPT將摘要中的許多關(guān)鍵事實(shí)和詞匯納入了本集中的介紹中。
整個(gè)訓(xùn)練數(shù)據(jù)集包含100個(gè)人工生成的介紹和200個(gè)ChatGPT生成的介紹;每個(gè)段落都成為一個(gè)「寫(xiě)作示例」。
從每個(gè)段落中提取了20個(gè)特征的列表,這些特征涉及段落的復(fù)雜性、句子長(zhǎng)度的變化、各種標(biāo)點(diǎn)符號(hào)的使用以及在人類科學(xué)家或ChatGPT著作中可能更頻繁出現(xiàn)的「流行詞」。
該模型使用留一法交叉驗(yàn)證策略(leave-one-out cross-validation strategy)進(jìn)行優(yōu)化。
上表顯示了這些寫(xiě)作樣本分類的訓(xùn)練結(jié)果,包括完整文檔級(jí)別和段落級(jí)別。
最容易正確分類的文本類別是在提示1(標(biāo)題)之下由ChatGPT生成的介紹。
該模型在單個(gè)段落級(jí)別的準(zhǔn)確率是99%,在文檔級(jí)別的準(zhǔn)確率是100%。
而在提示2(摘要)作用下的ChatGPT文本的分類精度略低。
人類生成的文本更難正確分配,但準(zhǔn)確性仍然相當(dāng)不錯(cuò)。作為一個(gè)群體,人類的寫(xiě)作風(fēng)格比ChatGPT更加多樣化,這可能導(dǎo)致使用這種方法正確分類其寫(xiě)作樣本的難度增大。
實(shí)驗(yàn)的下一階段是使用訓(xùn)練中未使用的新文檔來(lái)測(cè)試模型。
作者設(shè)計(jì)了簡(jiǎn)單測(cè)試和困難測(cè)試。
簡(jiǎn)單測(cè)試使用的測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)性質(zhì)相同(選取同一期刊的不同文章),使用新選擇的文章標(biāo)題和摘要來(lái)提示ChatGPT。
而在困難測(cè)試中,使用GPT-4代替GPT-3.5來(lái)生成AI文本,由于已知GPT-4比GPT-3.5更好,那么分類精度是否會(huì)下降呢?
上面的表格顯示了分類的結(jié)果。與之前的結(jié)果相比,性能幾乎沒(méi)有下降。
在完整文檔級(jí)別,人工生成文本的分類準(zhǔn)確率達(dá)到94%,提示2的AI生成文本準(zhǔn)確率為98% , 提示1的AI文本分類正確率達(dá)到100%。
訓(xùn)練集和測(cè)試集對(duì)于段落級(jí)別的分類精度也非常相似。
底部的數(shù)據(jù)顯示了使用GPT-3.5文本特征訓(xùn)練的模型對(duì)GPT-4文本進(jìn)行分類時(shí)的結(jié)果。所有類別的分類準(zhǔn)確性都沒(méi)有下降,這是一個(gè)非常好的結(jié)果,證明了方法在GPT-3.5和GPT-4上的有效性。
雖然這種方法的整體準(zhǔn)確性值得稱贊,但最好通過(guò)將其與現(xiàn)有的人工智能文本檢測(cè)器進(jìn)行比較來(lái)判斷其價(jià)值。這里使用相同的測(cè)試集數(shù)據(jù)測(cè)試了兩種效果領(lǐng)先的檢測(cè)工具。
第一個(gè)工具是ChatGPT的制造商O(píng)penAI提供的文本分類器。OpenAI承認(rèn)該分類器并不完美,但仍然是他們最好的公開(kāi)產(chǎn)品。
第二個(gè)檢測(cè)工具是ZeroGPT。其制造商聲稱檢測(cè)人工智能文本的準(zhǔn)確率達(dá)到98%,并且該工具接受了1000萬(wàn)份文檔的訓(xùn)練。在目前的許多評(píng)估中,它是性能最好的分類器之一。而且,ZeroGPT制造者表示他們的方法對(duì)GPT-3.5和GPT-4都有效。
上圖顯示了本文的工具和上述兩個(gè)產(chǎn)品在完整文檔級(jí)別的性能比較。
三個(gè)檢測(cè)器在人類文本的識(shí)別上都有著相似的高精度;然而,在評(píng)估AI生成的文本時(shí),三個(gè)工具存在顯著差異。
在使用提示1的情況下,本文的工具對(duì)GPT-3.5和GPT-4都有100% 的準(zhǔn)確率,但ZeroGPT對(duì)于GPT-3.5文本的失敗率為32%,對(duì)于GPT-4文本的失敗率為42%。OpenAI產(chǎn)品的表現(xiàn)更差,在GPT-4文本上的失敗率接近70%。
在使用更難的提示2生成的AI文本時(shí),后兩種方法的分類正確率進(jìn)一步下降。
相比之下,本文的檢測(cè)器在該組測(cè)試的100個(gè)文檔中只犯了1個(gè)錯(cuò)誤。
那么,該方法能否準(zhǔn)確檢測(cè)不屬于訓(xùn)練集的期刊中的ChatGPT寫(xiě)作,以及如果使用不同的提示,該方法仍然有效嗎?
作者從三個(gè)期刊中選出了150篇新文章的介紹:Cell Reports Physical Science,Cell Press期刊;Nature Chemistry,來(lái)自自然出版集團(tuán);以及Journal of the American Chemical Society,這是一份未包含在訓(xùn)練集中的ACS期刊。
此外,還收集了由大學(xué)生于2022年秋季撰寫(xiě)并發(fā)表在10種不同大學(xué)報(bào)紙上的一組100篇報(bào)紙文章。由于本文的檢測(cè)器是專門針對(duì)科學(xué)寫(xiě)作而優(yōu)化的,因此可以預(yù)計(jì)新聞報(bào)道不會(huì)被高精度地分類。
從圖中可以看到,應(yīng)用相同的模型,并使用ACS期刊的文本對(duì)這組新示例進(jìn)行訓(xùn)練后,正確分類率為92%–98%。這與訓(xùn)練集中得到的結(jié)果類似。
也正如預(yù)期的那樣,大學(xué)生撰寫(xiě)的報(bào)紙文章沒(méi)有被正確歸類為人類生成的文章。
事實(shí)上,當(dāng)使用本文描述的特征和模型進(jìn)行評(píng)估時(shí),幾乎所有文章都比人類科學(xué)文章更類似于人工智能生成的文本。
但是本方法旨在處理科學(xué)出版物上的檢測(cè)問(wèn)題,并不適合將其擴(kuò)展到其他領(lǐng)域。