自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

冒充人類作者,ChatGPT等濫用引擔(dān)憂,一文綜述AI生成文本檢測(cè)方法

人工智能 新聞
大型語(yǔ)言模型(LLM)的出現(xiàn)導(dǎo)致其生成的文本非常復(fù)雜,幾乎與人類編寫的文本難以區(qū)分。本文旨在提供現(xiàn)有大型語(yǔ)言模型生成文本檢測(cè)技術(shù)的概述,并加強(qiáng)對(duì)語(yǔ)言生成模型的控制和管理。

自然語(yǔ)言生成 (NLG) 技術(shù)的最新進(jìn)展顯著提高了大型語(yǔ)言模型生成文本的多樣性、控制力和質(zhì)量。一個(gè)值得注意的例子是 OpenAI 的 ChatGPT,它在回答問題、撰寫電子郵件、論文和代碼等任務(wù)中展示了卓越的性能。然而,這種新發(fā)現(xiàn)的高效生成文本的能力也引起了人們對(duì)檢測(cè)和防止大型語(yǔ)言模型在網(wǎng)絡(luò)釣魚、虛假信息 和學(xué)術(shù)造假等任務(wù)中濫用的擔(dān)憂。例如,由于擔(dān)心學(xué)生利用 ChatGPT 寫作業(yè),紐約公立學(xué)校全面禁止了 ChatGPT 的使用,媒體也對(duì)大型語(yǔ)言模型產(chǎn)生的假新聞發(fā)出警告。這些對(duì)大型語(yǔ)言模型 濫用的擔(dān)憂嚴(yán)重阻礙了自然語(yǔ)言生成在媒體和教育等重要領(lǐng)域的應(yīng)用。

最近關(guān)于是否可以正確檢測(cè)大型語(yǔ)言模型生成的文本以及如何檢測(cè)的討論越來越多,這篇文章對(duì)現(xiàn)有檢測(cè)方法進(jìn)行了全面的技術(shù)介紹。

圖片

  • 論文地址:https://github.com/datamllab/The-Science-of-LLM-generated-Text-Detection
  • 相關(guān)研究地址:https://github.com/datamllab/awsome-LLM-generated-text-detection/tree/main

現(xiàn)有的方法大致可分為兩類:黑盒檢測(cè)和白盒檢測(cè)。

圖片

大型語(yǔ)言模型生成文本檢測(cè)概述

  • 黑盒檢測(cè)方法對(duì)大型語(yǔ)言模型通常只有 API 級(jí)別的訪問權(quán)限。因此,這類方法依靠于收集人類和機(jī)器的文本樣本來訓(xùn)練分類模型;
  • 白盒檢測(cè),這類方法擁有對(duì)大型語(yǔ)言模型的所有訪問權(quán)限,并且可以通過控制模型的生成行為或者在生成文本中加入水?。╳atermark)來對(duì)生成文本進(jìn)行追蹤和檢測(cè)。

在實(shí)踐中,黑盒檢測(cè)器通常由第三方構(gòu)建,例如 GPTZero,而白盒檢測(cè)器通常由大型語(yǔ)言模型開發(fā)人員構(gòu)建。

圖片

大型語(yǔ)言模型生成的文本檢測(cè)分類學(xué)

黑盒檢測(cè)

黑盒檢測(cè)一般有三個(gè)步驟,分別是數(shù)據(jù)收集,特征選擇和模型建立

對(duì)于人類文本的收集,一種方法是招募專業(yè)人員進(jìn)行數(shù)據(jù)采集,但是這種方法費(fèi)時(shí)費(fèi)力,不適于大型數(shù)據(jù)集的收集,更加高效的方法是利用現(xiàn)有的人類文本數(shù)據(jù),比如從維基百科上收集各種專家編輯的詞條,或者是從媒體上收集數(shù)據(jù),例如 Reddit。

特征的選取一般分為統(tǒng)計(jì)特征,語(yǔ)言特征和事實(shí)特征。其中統(tǒng)計(jì)特征一般是用來檢查大型語(yǔ)言模型生成文本是否在一些常用的文本統(tǒng)計(jì)指標(biāo)上于人類文本不同,常用的有 TFIDF、齊夫定律等。語(yǔ)言特征一般是找一些語(yǔ)言學(xué)特征,比如詞性,依存分析,情感分析等。最后,大型語(yǔ)言模型常常會(huì)生成一些反事實(shí)的言論,因此事實(shí)驗(yàn)證也可以提供一些區(qū)分大型語(yǔ)言模型生成文本的信息。

現(xiàn)有的分類模型一般分為傳統(tǒng)的機(jī)器學(xué)習(xí)模型,例如 SVM 等。最新的研究?jī)A向于利用語(yǔ)言模型來做主干, 例如 BERT,RoBERTa, 并且取得了更高的檢測(cè)表現(xiàn)。

圖片

這兩種文本之間有明顯的不同。human-written 文本來自 Chalkbeat New York。

白盒檢測(cè)

白盒檢測(cè)一般默認(rèn)是大型語(yǔ)言模型開發(fā)人員提供的檢測(cè)。不同于黑盒檢測(cè),白盒檢測(cè)對(duì)模型擁有完全訪問權(quán)力, 因此能通過改變模型的輸出來植入水印,以此達(dá)到檢測(cè)的目的。

目前的檢測(cè)方法可以分為 post-hoc 水印和 inference time 水印

  • 其中 post-hoc 水印是在大型語(yǔ)言模型生成完文本后,再在文本中加入一些隱藏的信息用于之后的檢測(cè);
  • Inference time 水印則是改變大型語(yǔ)言模型對(duì) token 的采樣機(jī)制來加入水印,在大型語(yǔ)言模型生成每一個(gè) token 的過程中,其會(huì)根據(jù)所有 token 的概率和預(yù)設(shè)的采樣策略來選擇下一個(gè)生成的詞,這個(gè)選擇的過程就可以加入水印。

圖片

Inference time 水印

作者擔(dān)憂

(1)對(duì)于黑盒模型,數(shù)據(jù)的收集是非常關(guān)鍵的一步,但是這個(gè)過程非常容易引入偏見(biases)。例如現(xiàn)有的數(shù)據(jù)集主要集中在問答,故事生成幾個(gè)任務(wù),這就引入了主題的偏見。此外,大模型生成的文本經(jīng)常會(huì)出現(xiàn)固定的風(fēng)格或者格式。這些偏見常常會(huì)被黑盒分類器作為分類的主要特征而降低了檢測(cè)的魯棒性。

隨著大型語(yǔ)言模型能力的提升,大型語(yǔ)言模型生成的文本和人類的差距會(huì)越來越小,導(dǎo)致黑盒模型的檢測(cè)準(zhǔn)確性越來越低,因此白盒檢測(cè)是未來更有前景的檢測(cè)方式。

(2)現(xiàn)有的檢測(cè)方法默認(rèn)大型語(yǔ)言模型是被公司所有,因而所有的用戶都是通過 API 來獲得公司的大型語(yǔ)言模型服務(wù),這種多對(duì)一的關(guān)系非常有利用檢測(cè)系統(tǒng)的部署。但是如果公司開源了大型語(yǔ)言模型,這將導(dǎo)致現(xiàn)有的檢測(cè)方法幾乎全部失效。

對(duì)于黑盒檢測(cè),因?yàn)橛脩艨梢晕⒄{(diào)他們的模型,改變模型輸出的風(fēng)格或者格式,從而導(dǎo)致黑盒檢測(cè)無法找到通用的檢測(cè)特征。

白盒檢測(cè)可能是一個(gè)解決辦法,公司在開源模型之前可以給模型中加入一個(gè)水印。但是用戶同樣可以通過微調(diào)模型,改變模型 token 的采樣機(jī)制來移除水印?,F(xiàn)在還沒有一種水印技術(shù)能夠抵御用戶的這些潛在威脅。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-10 14:59:53

2023-12-26 14:12:12

人工智能機(jī)器學(xué)習(xí)Gen AI

2023-01-10 22:46:37

OpenAIChatGPT

2025-01-17 13:53:11

AI大模型檢測(cè)工具

2023-10-19 13:12:32

Open-AIAI

2017-08-07 10:08:29

深度學(xué)習(xí)分類體系信息檢索

2023-11-20 14:58:30

人工智能AI Agents

2023-02-16 10:09:01

2023-06-20 16:13:37

研究模型

2023-03-24 17:17:45

2023-05-04 07:12:02

Linuxshell人工智能

2023-05-26 15:36:56

2023-11-26 19:31:18

2023-02-06 10:12:04

人工智能文本生成工具

2023-11-08 08:38:43

2023-03-16 17:21:52

AIChatGPT

2025-03-24 08:15:00

2023-03-06 16:17:13

2023-07-18 09:00:00

ChatGPT文本轉(zhuǎn)語(yǔ)音

2023-05-04 08:24:52

ChatGPT產(chǎn)品經(jīng)理工業(yè)革命
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)