大語言模型都有哪些特質?區(qū)分度達97%!DeepSeek&ChatGPT&Claude&Grok&Gemini
論文鏈接:https://arxiv.org/pdf/2502.12150
Git鏈接:https://github.com/locuslab/llm-idiosyncrasies
亮點直擊
- 高準確率的模型區(qū)分:通過簡單的文本嵌入模型微調(diào),實現(xiàn)了高達97.1%的分類準確率,顯著高于隨機猜測的20.0%。
- 語義保留變換下的強魯棒性:即使對文本進行重寫、翻譯或總結等語義保留變換,分類準確率仍保持在90%以上,表明LLM的獨特性不僅體現(xiàn)在詞匯層面,還體現(xiàn)在語義層面。
- 開放描述生成:利用LLM作為評判者,生成每個模型獨特行為的詳細描述,為理解不同LLM的輸出模式提供了新的視角。
- 對合成數(shù)據(jù)訓練的警示:研究結果表明,使用合成數(shù)據(jù)訓練LLM時需謹慎,因為這些獨特性可能會在訓練過程中被繼承,影響模型的輸出行為。
總結速覽
解決的問題
- 區(qū)分不同LLM生成的文本:研究旨在識別和區(qū)分不同大語言模型(LLM)生成的文本,揭示各模型的獨特輸出模式。
- 理解LLM的獨特行為:通過分析LLM生成的文本,探討這些模型的獨特行為及其在語義層面的表現(xiàn)。
提出的方案
- 文本分類任務:設計一個簡單的分類任務,通過訓練分類器來預測給定文本的生成模型。
- 文本變換分析:通過對生成的文本進行隨機打亂、重寫、翻譯和總結等變換,分析這些變換對分類準確率的影響。
- 開放描述生成:利用LLM作為評判者,生成每個模型獨特行為的詳細描述。
應用的技術
- 文本嵌入模型微調(diào):對現(xiàn)有的文本嵌入模型進行微調(diào),以適應LLM生成的文本。
- 多模型分類:在多個LLM(如ChatGPT、Claude、Grok、Gemini和DeepSeek)之間進行多分類任務。
- 語義保留變換:通過重寫、翻譯和總結等技術,保留文本的語義內(nèi)容,同時觀察分類準確率的變化。
達到的效果
- 高分類準確率:在五分類任務中,分類器在驗證數(shù)據(jù)上達到了97.1%的準確率。
- 強魯棒性:即使在文本長度和格式受控的情況下,分類器仍能保持高準確率。
- 語義層面的獨特性:即使經(jīng)過語義保留的文本變換,分類準確率仍顯著高于隨機猜測,表明LLM的獨特性也體現(xiàn)在語義層面。
評估LLM的獨特性
大語言模型(LLMs)具有一些共同特征。首先,都采用了基于自注意力機制的Transformer架構。其次,它們使用自回歸目標進行訓練,即根據(jù)前面的上下文預測序列中的下一個token。最后,它們的訓練數(shù)據(jù)集有顯著的重疊,通常包含大量多樣化的來源,如Common Crawl、Wikipedia和Stack Overflow。鑒于這些相似性,自然會問:LLMs的輸出方式是否相同?如果不同,如何有效衡量它們的差異程度?
主要觀察結果
神經(jīng)網(wǎng)絡在分類LLM輸出時表現(xiàn)出驚人的高準確率。這一觀察結果在不同設置下(例如,跨模型家族和規(guī)模)都具有魯棒性。由于本文的任務本質上是一個序列分類問題,微調(diào)了一個強大的序列嵌入模型LLM2vec,并添加了一個N分類頭,報告了最終的準確率。
- 對話API("chat"類):包含GPT-4o、Claude-3.5-Sonnet、Grok-2、Gemini-1.5-Pro和DeepSeek-V3,除DeepSeek外均為閉源模型。
- 指令微調(diào)LLM("instruct"類):包含Llama3.1-8b、Gemma2-9b、Qwen2.5-7b和Mistral-v3-7b四個同規(guī)模不同家族的模型。
- 基礎LLM("base"類):指令微調(diào)LLM的基礎版本,僅通過大規(guī)模文本預訓練獲得。
每類模型生成11K文本序列(10K訓練,1K驗證)。對話API和指令微調(diào)LLM使用UltraChat數(shù)據(jù)集,基礎LLM使用FineWeb數(shù)據(jù)集生成文本。
跨模型家族分類 下表1展示了不同組合的分類結果。在二分類任務中,神經(jīng)網(wǎng)絡持續(xù)保持90%以上準確率(僅個別例外),多數(shù)組合達到99%準確率。在更具挑戰(zhàn)性的N分類任務中,分類器在三個組別均保持87.3%以上的強性能,凸顯了不同LLM間的顯著差異性。
同模型家族內(nèi)分類 當區(qū)分同家族模型時(如Qwen2.5系列的7B/14B/32B/72B模型),分類難度增加但仍顯著優(yōu)于隨機水平(二分類最高85.5%,全組合59.8%)。區(qū)分同模型的基礎版與指令微調(diào)版時,分類器可達96.8%準確率。
分布外響應泛化 分類器在四個不同來源的指令數(shù)據(jù)集(UltraChat、Cosmopedia、LmsysChat、WildChat)上展現(xiàn)出強泛化能力(下表3),表明其學習到了穩(wěn)健且可遷移的模式。
控制實驗
研究者們在多個控制設置下分析合成分類任務的行為特征(下文僅報告各組N分類準確率)。
提示層面干預 通過添加長度控制("請?zhí)峁┖啙嵒卮?,單段不超過100詞")和格式控制("請使用純文本,避免格式token")指令,發(fā)現(xiàn)分類準確率仍保持高位(下表4),表明LLM特征深度嵌入于生成文本中,不受表層約束影響。
輸入長度控制 下圖2顯示,隨著輸入token數(shù)量增加,分類性能逐步提升。值得注意的是,對話API和指令LLM僅需單個token即可獲得約50%準確率,表明首個token已包含顯著區(qū)分信號。
采樣方法分析 下表5顯示,區(qū)分同一LLM不同解碼策略(貪婪解碼、溫度采樣、top-k、top-p)生成的響應時,最高準確率僅59%。在五分類任務(不同溫度softmax采樣)中,準確率37.9%僅略高于20%基線,表明解碼策略對輸出可分性影響有限。
文本嵌入模型對比 下表6顯示,不同世代嵌入模型(ELMo、BERT、T5、GPT-2、LLM2vec)均能實現(xiàn)高準確率,其中LLM2vec性能最佳(對話API 97.1%,指令LLM 96.3%,基礎LLM 87.3%)。
訓練數(shù)據(jù)規(guī)模 下圖3表明分類性能隨訓練樣本量增加而提升,僅需10個樣本即可超越隨機基線(指令LLM 40.3%)。
LLM具體特有模式
本文使用ROUGE-1、ROUGE-L和BERTScore等指標量化LLM輸出的詞匯差異(下表7),發(fā)現(xiàn)不同LLM生成的文本相似度顯著低于同模型不同采樣結果。以下從三個維度剖析具體特有模式:
詞匯與字母
文本重組 通過去除特殊字符并進行詞匯/字母級重組(下表8),發(fā)現(xiàn):
- 去除特殊字符后分類準確率保持高位(對話API 95.1%,指令LLM 93.8%)
- 詞匯重組僅導致小幅下降,表明特征主要編碼于詞匯分布
- 字母重組使準確率接近隨機水平(49-56%),字母分布差異極?。ㄏ聢D5)
特征短語 使用TF-IDF特征訓練邏輯回歸模型(對話API 85.5%,指令LLM 83.7%),提取各模型top10特征短語(下圖6)。例如:
- ChatGPT偏好"such as"、"certainly"等過渡詞
- Claude傾向"according to"、"based on"等引用表達首詞選擇分布也呈現(xiàn)顯著差異(下圖7)。
Markdown格式
保留Markdown元素(加粗、斜體、標題等)并替換文本為"xxx"后(下表9):
- 對話API和指令LLM仍保持73.1%/77.7%準確率
- 基礎LLM接近隨機水平(25%)各模型格式使用習慣差異顯著(圖8),例如:
- Claude較少使用加粗和標題
- ChatGPT偏好結構化格式(下圖4)
語義層面
改寫測試 使用GPT-4o mini進行改寫、翻譯和摘要后(下表10):
- 改寫和翻譯文本分類準確率與原文本相當
- 摘要文本準確率下降但仍顯著優(yōu)于隨機表明語義信息對分類具有決定性作用。
開放性語言分析 使用ChatGPT作為評估者對響應進行開放性描述(下圖9),發(fā)現(xiàn):
- ChatGPT偏好詳細描述和復雜格式
- Claude側重簡潔表達和核心內(nèi)容
研究啟示
合成數(shù)據(jù)中的特有模式
在Llama3.1-8b和Gemma2-9b上使用UltraChat(ChatGPT生成)進行監(jiān)督微調(diào)后:
- 模型間分類準確率從96.5%降至59.8%
- 使用合成數(shù)據(jù)微調(diào)的模型仍保留源模型特征(準確率98.9%)表明合成數(shù)據(jù)訓練會傳播源模型特有模式。
模型相似性推斷
通過排除法訓練分類器并評估被排除模型的響應歸屬(下圖10),發(fā)現(xiàn):
- Claude、Grok、Gemini輸出常被誤判為ChatGPT
- DeepSeek和ChatGPT輸出與Phi-4關聯(lián)密切該方法為評估前沿模型相似性提供了量化工具。
結論
本文證明了大語言模型(LLMs)中存在獨特性,并研究了一種旨在量化其程度的合成任務。只需在LLM輸出上微調(diào)預訓練的文本嵌入模型,就能在預測文本來源時獲得極高的準確率。這一現(xiàn)象在不同的提示數(shù)據(jù)集、LLM組合以及其他多種設置中均持續(xù)存在。本文還明確了LLM中這些獨特性的具體形式。希望本文的工作能夠鼓勵進一步研究理解LLM中的獨特性。
本文轉自AI生成未來 ,作者:AI生成未來
