自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek R1與OpenAI模型文風(fēng)相似度高達(dá)74.2%?新研究質(zhì)疑DeepSeek訓(xùn)練數(shù)據(jù)

人工智能 新聞
這項(xiàng)研究來自 Copyleaks—— 一個(gè)專注于檢測(cè)文本中的抄襲和 AI 生成內(nèi)容的平臺(tái)。

在 DeepSeek 生成的文本中,有 74.2% 的文本在風(fēng)格上與 OpenAI 模型具有驚人的相似性?這是一項(xiàng)新研究得出的結(jié)論。

這項(xiàng)研究來自 Copyleaks—— 一個(gè)專注于檢測(cè)文本中的抄襲和 AI 生成內(nèi)容的平臺(tái)。

image.png

這家平臺(tái)表示,正如每個(gè)人都有獨(dú)特的指紋一樣,人工智能也有自己獨(dú)特的、可識(shí)別的特征。比如 DeepSeek 的文風(fēng)就有一股強(qiáng)烈的「DS 味」:意象堆得非常滿,每句話都有通感、隱喻和互文。和其他人的文字放在一起,我們很容易看出哪段話好像背后必有 DeepSeek 指點(diǎn)。

來源:http://xhslink.com/a/6n6JLYTWrM36

因此 Copyleaks 開發(fā)了一種精確的方法,能夠識(shí)別具體是哪種 AI 模型寫下了某段文字,即使該 AI 故意模仿另一種寫作風(fēng)格時(shí)也是如此。

具體來說,他們開發(fā)了一個(gè)由三個(gè)分類器組成的 LLM 檢測(cè)集成系統(tǒng),這些分類器具有不同的架構(gòu)和訓(xùn)練數(shù)據(jù)。該集成系統(tǒng)經(jīng)過訓(xùn)練,可以對(duì)四大語言模型 ——Claude、Gemini、Llama 和 OpenAI 模型 —— 生成的文本進(jìn)行分類。只有當(dāng)集成系統(tǒng)中的所有三個(gè)分類器一致同意輸出分類時(shí),他們才認(rèn)為預(yù)測(cè)是有效的。Copyleaks 宣稱,該集成系統(tǒng)在由 Claude、Gemini、Llama 和 OpenAI 模型生成的文本測(cè)試集上得到驗(yàn)證,并達(dá)到了極高的精確度(0.9988)和非常低的假陽性率(0.0004)。 

image.png

借助這個(gè)集成系統(tǒng),Copyleaks 去分析四個(gè)新模型生成的文本,包括 phi-4、Grok-1、Mixtral-8x7b-instruct-v0.1 和 DeepSeek-R1,看看這些模型生成的內(nèi)容與上述四大模型是否相似。分類器的最終輸出需要三個(gè)子分類器一致同意,否則會(huì)標(biāo)記為「無共識(shí)」(no-agreement)

結(jié)果表明,對(duì)于 phi-4 模型生成的文本(如圖 1a 所示),集成系統(tǒng)在 99.3% 的文本上沒有達(dá)成一致意見;對(duì)于 Grok-1 模型生成的文本(如圖 1b 所示),集成系統(tǒng)在 100% 的文本上都沒有達(dá)成一致意見。這意味著,集成系統(tǒng)的分類器無法認(rèn)定 phi-4 或 Grok-1 生成的文本與它所訓(xùn)練的四大語言模型家族(Claude、Gemini、Llama 和 OpenAI 模型)中的任何一個(gè)模型的寫作風(fēng)格相似。

image.png

對(duì)于 Mixtral 模型生成的文本(如圖 1c 所示),集成系統(tǒng)在 65% 的文本上沒有達(dá)成一致意見,有 26% 的文本被識(shí)別為由 OpenAI 生成,8.8% 的文本被識(shí)別為由 Llama 生成。

對(duì)于 DeepSeek 模型生成的文本(如圖 1d 所示),集成系統(tǒng)將 74.2% 的文本識(shí)別為由 OpenAI 生成,而剩下的 25.7% 的文本被標(biāo)記為「無共識(shí)」。

Copyleaks 認(rèn)為,phi-4 模型高達(dá) 99.3% 的「無共識(shí)」率以及 Grok-1 模型 100% 的「無共識(shí)」率表明,這些模型的風(fēng)格指紋與上述四大語言模型非常不同。Mixtral 模型 65% 的「無共識(shí)」率表明,該模型主要具有獨(dú)特的風(fēng)格特征,這些特征沒有被集成系統(tǒng)完全捕捉到。然而,26% 的文本被歸類為 OpenAI,8.8% 的文本被歸類為 Llama,這表明 Mixtral 與這些語言模型之間存在一定的風(fēng)格相似性。

Copyleaks 強(qiáng)調(diào),DeepSeek-R1 模型的結(jié)果令人矚目。74.2% 的文本被歸類為 OpenAI,這表明這兩個(gè)語言模型之間存在很強(qiáng)的風(fēng)格相似性。

在這份報(bào)告出爐后,福布斯聯(lián)系到了 Copyleaks 數(shù)據(jù)科學(xué)主管 Shai  Shai Nisan。Nisan 將 DeepSeek-R1 與 OpenAI 模型之間顯著的風(fēng)格相似性問題,引申為對(duì) DeepSeek 訓(xùn)練過程的質(zhì)疑,暗示其可能使用了 OpenAI 模型的輸出作為訓(xùn)練數(shù)據(jù)。

他說,「雖然這種相似性并不能明確證明 DeepSeek 是衍生產(chǎn)品,但它確實(shí)引發(fā)了人們對(duì)其開發(fā)過程的質(zhì)疑。我們的研究專注于寫作風(fēng)格,在這一領(lǐng)域,DeepSeek 與 OpenAI 的相似性是顯著的??紤]到 OpenAI 在市場(chǎng)上的領(lǐng)先地位,我們的研究結(jié)果表明,有必要對(duì) DeepSeek 的架構(gòu)、訓(xùn)練數(shù)據(jù)和開發(fā)過程進(jìn)行進(jìn)一步調(diào)查?!?/span>

image.png

不過,福布斯的文章中也指出了導(dǎo)致這種相似性的另一個(gè)可能:數(shù)據(jù)。AI 模型可能會(huì)隨著時(shí)間的推移在風(fēng)格上趨于一致,尤其是在重疊數(shù)據(jù)集上進(jìn)行訓(xùn)練的情況下。

此外,Copyleaks 用來檢測(cè)相似性的系統(tǒng)是否足夠準(zhǔn)確、客觀也是一個(gè)值得探討的問題。

自 DeepSeek R1 走紅以來,外界對(duì)于這個(gè)模型的質(zhì)疑就沒有停過,但質(zhì)疑歸質(zhì)疑,部署 DeepSeek 的機(jī)構(gòu)還是一路猛增。

image.png

并且從縮小矩陣規(guī)模到提高運(yùn)算效率,DeepSeek 上周已經(jīng)開源了方方面面提高生成式算法執(zhí)行效率的核心技術(shù),對(duì)開源精神的堅(jiān)守,是對(duì)外界質(zhì)疑的更好回應(yīng)。

接下來,我們看一看 Copyleaks 所用的檢測(cè)方法。

Copyleaks 的檢測(cè)方法

為了讓判斷更全面,Copyleaks 分別用 OpenAI 模型、Llama、Claude 和 Gemini 生成了 5 萬條英文文本來訓(xùn)練這些分類器。研究人員采用以下 5 個(gè)標(biāo)準(zhǔn)來評(píng)估分類器是否能準(zhǔn)確地識(shí)別出某段話出自哪個(gè) AI 之手:

  • 混淆矩陣
  • 精確率和召回率
  • F 值
  • 總體假陽性率 (FPR)
  • 宏平均 F 值 (β=0.5)

他們用 OpenAI、Llama、Claude 和 Gemini 這些 AI 模型生成的英文文本來訓(xùn)練這些分類器。為了保證訓(xùn)練的公平性,每個(gè)分類器都會(huì)收到相同數(shù)量來自不同 AI 模型的訓(xùn)練樣本。

每個(gè)類別 i 的假陽性率代表著有多少比例的非 i 類實(shí)例被錯(cuò)誤地分類為 i 類。簡(jiǎn)單來說,看這個(gè)值就能知道分類器有多容易把其他 AI 的文本誤判為某個(gè)特定 AI 的文風(fēng),計(jì)算公式為:

總體 FPR 則是通過對(duì)所有類別的 FPR 取平均得到的:

以下是三個(gè)分類器的成績(jī)單,從準(zhǔn)確率看,三個(gè)分類器的表現(xiàn)都不錯(cuò),接近 99%。

在得到這三位訓(xùn)練有素的「判官」之后,為了進(jìn)一步降低誤判的概率,研究人員測(cè)試了兩種交叉驗(yàn)證方法 —— 多數(shù)投票制(少數(shù)服從多數(shù))和一致同意制(必須三票贊同)—— 到底哪種更可信。

數(shù)據(jù)給出了明確答案,一致同意制的宏平均 FPR 是 0.0004,也就是三個(gè)分類器一起投票,收集全票通過的結(jié)果錯(cuò)判概率極低,這也是 Copyleaks 最終選擇的統(tǒng)計(jì)方法。

在技術(shù)報(bào)告中,Copyleaks 給出了更詳細(xì)的信息。

image.png

報(bào)告鏈接:https://copyleaks.com/wp-content/uploads/2025/03/Detecting_Stylistic_Fingerprints_of_Large_Language_Models.pdf

你覺得這個(gè)報(bào)告的結(jié)果和與之相關(guān)的推論靠譜嗎?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-20 15:32:28

2025-01-27 12:30:07

2025-02-08 14:03:25

2025-02-03 14:17:27

2025-02-03 12:07:52

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2025-02-07 13:10:06

2025-01-21 11:53:53

2025-02-17 07:35:00

DeepSeek模型數(shù)據(jù)

2025-03-06 10:14:39

2025-02-04 17:33:00

2025-02-11 08:35:30

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-03-06 09:55:49

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

2025-02-20 11:12:11

2025-03-07 08:50:03

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)