自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini

發(fā)布于 2025-2-20 10:16

瀏覽

0收藏

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2502.12150
Git鏈接：https://github.com/locuslab/llm-idiosyncrasies

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

亮點直擊

高準確率的模型區(qū)分：通過簡單的文本嵌入模型微調(diào)，實現(xiàn)了高達97.1%的分類準確率，顯著高于隨機猜測的20.0%。
語義保留變換下的強魯棒性：即使對文本進行重寫、翻譯或總結等語義保留變換，分類準確率仍保持在90%以上，表明LLM的獨特性不僅體現(xiàn)在詞匯層面，還體現(xiàn)在語義層面。
開放描述生成：利用LLM作為評判者，生成每個模型獨特行為的詳細描述，為理解不同LLM的輸出模式提供了新的視角。
對合成數(shù)據(jù)訓練的警示：研究結果表明，使用合成數(shù)據(jù)訓練LLM時需謹慎，因為這些獨特性可能會在訓練過程中被繼承，影響模型的輸出行為。

總結速覽

解決的問題

區(qū)分不同LLM生成的文本：研究旨在識別和區(qū)分不同大語言模型（LLM）生成的文本，揭示各模型的獨特輸出模式。
理解LLM的獨特行為：通過分析LLM生成的文本，探討這些模型的獨特行為及其在語義層面的表現(xiàn)。

提出的方案

文本分類任務：設計一個簡單的分類任務，通過訓練分類器來預測給定文本的生成模型。
文本變換分析：通過對生成的文本進行隨機打亂、重寫、翻譯和總結等變換，分析這些變換對分類準確率的影響。
開放描述生成：利用LLM作為評判者，生成每個模型獨特行為的詳細描述。

應用的技術

文本嵌入模型微調(diào)：對現(xiàn)有的文本嵌入模型進行微調(diào)，以適應LLM生成的文本。
多模型分類：在多個LLM（如ChatGPT、Claude、Grok、Gemini和DeepSeek）之間進行多分類任務。
語義保留變換：通過重寫、翻譯和總結等技術，保留文本的語義內(nèi)容，同時觀察分類準確率的變化。

達到的效果

高分類準確率：在五分類任務中，分類器在驗證數(shù)據(jù)上達到了97.1%的準確率。
強魯棒性：即使在文本長度和格式受控的情況下，分類器仍能保持高準確率。
語義層面的獨特性：即使經(jīng)過語義保留的文本變換，分類準確率仍顯著高于隨機猜測，表明LLM的獨特性也體現(xiàn)在語義層面。

評估LLM的獨特性

大語言模型（LLMs）具有一些共同特征。首先，都采用了基于自注意力機制的Transformer架構。其次，它們使用自回歸目標進行訓練，即根據(jù)前面的上下文預測序列中的下一個token。最后，它們的訓練數(shù)據(jù)集有顯著的重疊，通常包含大量多樣化的來源，如Common Crawl、Wikipedia和Stack Overflow。鑒于這些相似性，自然會問：LLMs的輸出方式是否相同？如果不同，如何有效衡量它們的差異程度？

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

主要觀察結果

神經(jīng)網(wǎng)絡在分類LLM輸出時表現(xiàn)出驚人的高準確率。這一觀察結果在不同設置下（例如，跨模型家族和規(guī)模）都具有魯棒性。由于本文的任務本質上是一個序列分類問題，微調(diào)了一個強大的序列嵌入模型LLM2vec，并添加了一個N分類頭，報告了最終的準確率。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

對話API（"chat"類）：包含GPT-4o、Claude-3.5-Sonnet、Grok-2、Gemini-1.5-Pro和DeepSeek-V3，除DeepSeek外均為閉源模型。
指令微調(diào)LLM（"instruct"類）：包含Llama3.1-8b、Gemma2-9b、Qwen2.5-7b和Mistral-v3-7b四個同規(guī)模不同家族的模型。
基礎LLM（"base"類）：指令微調(diào)LLM的基礎版本，僅通過大規(guī)模文本預訓練獲得。

每類模型生成11K文本序列（10K訓練，1K驗證）。對話API和指令微調(diào)LLM使用UltraChat數(shù)據(jù)集，基礎LLM使用FineWeb數(shù)據(jù)集生成文本。

跨模型家族分類 下表1展示了不同組合的分類結果。在二分類任務中，神經(jīng)網(wǎng)絡持續(xù)保持90%以上準確率（僅個別例外），多數(shù)組合達到99%準確率。在更具挑戰(zhàn)性的N分類任務中，分類器在三個組別均保持87.3%以上的強性能，凸顯了不同LLM間的顯著差異性。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

同模型家族內(nèi)分類 當區(qū)分同家族模型時（如Qwen2.5系列的7B/14B/32B/72B模型），分類難度增加但仍顯著優(yōu)于隨機水平（二分類最高85.5%，全組合59.8%）。區(qū)分同模型的基礎版與指令微調(diào)版時，分類器可達96.8%準確率。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

分布外響應泛化 分類器在四個不同來源的指令數(shù)據(jù)集（UltraChat、Cosmopedia、LmsysChat、WildChat）上展現(xiàn)出強泛化能力（下表3），表明其學習到了穩(wěn)健且可遷移的模式。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

控制實驗

研究者們在多個控制設置下分析合成分類任務的行為特征（下文僅報告各組N分類準確率）。

提示層面干預 通過添加長度控制（"請?zhí)峁┖啙嵒卮?，單段不超過100詞"）和格式控制（"請使用純文本，避免格式token"）指令，發(fā)現(xiàn)分類準確率仍保持高位（下表4），表明LLM特征深度嵌入于生成文本中，不受表層約束影響。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

輸入長度控制 下圖2顯示，隨著輸入token數(shù)量增加，分類性能逐步提升。值得注意的是，對話API和指令LLM僅需單個token即可獲得約50%準確率，表明首個token已包含顯著區(qū)分信號。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

采樣方法分析 下表5顯示，區(qū)分同一LLM不同解碼策略（貪婪解碼、溫度采樣、top-k、top-p）生成的響應時，最高準確率僅59%。在五分類任務（不同溫度softmax采樣）中，準確率37.9%僅略高于20%基線，表明解碼策略對輸出可分性影響有限。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

文本嵌入模型對比 下表6顯示，不同世代嵌入模型（ELMo、BERT、T5、GPT-2、LLM2vec）均能實現(xiàn)高準確率，其中LLM2vec性能最佳（對話API 97.1%，指令LLM 96.3%，基礎LLM 87.3%）。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

訓練數(shù)據(jù)規(guī)模 下圖3表明分類性能隨訓練樣本量增加而提升，僅需10個樣本即可超越隨機基線（指令LLM 40.3%）。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

LLM具體特有模式

本文使用ROUGE-1、ROUGE-L和BERTScore等指標量化LLM輸出的詞匯差異（下表7），發(fā)現(xiàn)不同LLM生成的文本相似度顯著低于同模型不同采樣結果。以下從三個維度剖析具體特有模式：

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

詞匯與字母

文本重組 通過去除特殊字符并進行詞匯/字母級重組（下表8），發(fā)現(xiàn)：

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

去除特殊字符后分類準確率保持高位（對話API 95.1%，指令LLM 93.8%）
詞匯重組僅導致小幅下降，表明特征主要編碼于詞匯分布
字母重組使準確率接近隨機水平（49-56%），字母分布差異極?。ㄏ聢D5）

特征短語 使用TF-IDF特征訓練邏輯回歸模型（對話API 85.5%，指令LLM 83.7%），提取各模型top10特征短語（下圖6）。例如：

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

ChatGPT偏好"such as"、"certainly"等過渡詞
Claude傾向"according to"、"based on"等引用表達首詞選擇分布也呈現(xiàn)顯著差異（下圖7）。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

Markdown格式

保留Markdown元素（加粗、斜體、標題等）并替換文本為"xxx"后（下表9）：

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

對話API和指令LLM仍保持73.1%/77.7%準確率
基礎LLM接近隨機水平（25%）各模型格式使用習慣差異顯著（圖8），例如：

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

Claude較少使用加粗和標題
ChatGPT偏好結構化格式（下圖4）

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

語義層面

改寫測試 使用GPT-4o mini進行改寫、翻譯和摘要后（下表10）：

改寫和翻譯文本分類準確率與原文本相當
摘要文本準確率下降但仍顯著優(yōu)于隨機表明語義信息對分類具有決定性作用。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

開放性語言分析 使用ChatGPT作為評估者對響應進行開放性描述（下圖9），發(fā)現(xiàn)：

ChatGPT偏好詳細描述和復雜格式
Claude側重簡潔表達和核心內(nèi)容

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

研究啟示

合成數(shù)據(jù)中的特有模式

在Llama3.1-8b和Gemma2-9b上使用UltraChat（ChatGPT生成）進行監(jiān)督微調(diào)后：

模型間分類準確率從96.5%降至59.8%
使用合成數(shù)據(jù)微調(diào)的模型仍保留源模型特征（準確率98.9%）表明合成數(shù)據(jù)訓練會傳播源模型特有模式。

模型相似性推斷

通過排除法訓練分類器并評估被排除模型的響應歸屬（下圖10），發(fā)現(xiàn)：

Claude、Grok、Gemini輸出常被誤判為ChatGPT
DeepSeek和ChatGPT輸出與Phi-4關聯(lián)密切該方法為評估前沿模型相似性提供了量化工具。

大語言模型都有哪些特質？區(qū)分度達97%！DeepSeek&ChatGPT&Claude&Grok&Gemini-AI.x社區(qū)

結論

本文證明了大語言模型（LLMs）中存在獨特性，并研究了一種旨在量化其程度的合成任務。只需在LLM輸出上微調(diào)預訓練的文本嵌入模型，就能在預測文本來源時獲得極高的準確率。這一現(xiàn)象在不同的提示數(shù)據(jù)集、LLM組合以及其他多種設置中均持續(xù)存在。本文還明確了LLM中這些獨特性的具體形式。希望本文的工作能夠鼓勵進一步研究理解LLM中的獨特性。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/3Os_qpHJAsA21vzVUZjKzg??

標簽

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關推薦

Grok多模態(tài)大模型Grok-1.5V來了！

AIGC最前線 ? 2868瀏覽 ? 0回復
ChatGPT能預測未來特定事件，準確率高達97%

Aceryt ? 2905瀏覽 ? 0回復
谷歌Gemini vs ChatGPT：Gemini比ChatGPT更勝一籌嗎？

51CTO內(nèi)容精選 ? 6682瀏覽 ? 0回復
學會區(qū)分大模型——大模型的分類，讓你更清晰的認識大模型

AI探索時代 ? 8307瀏覽 ? 0回復
谷歌發(fā)布Gemini Live：對標GPT-4o，讓每一個人都有賈維斯

Aceryt ? 2042瀏覽 ? 0回復
大模型到底需要消耗多少GPU顯存？公式和工具全都有

Syrupup ? 1.1w瀏覽 ? 1回復
先進的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復雜多文檔RAG的幻覺問題

AI博物院 ? 2301瀏覽 ? 0回復
Gemini技術報告解讀：從Google多模態(tài)大模型看后續(xù)大模型應該具備哪些能力

arnoldzhw ? 3922瀏覽 ? 0回復
Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！

老蛀蟲 ? 2074瀏覽 ? 0回復
2024時序預測都有哪些經(jīng)典工作—總結篇

海因斯DK ? 3472瀏覽 ? 0回復
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 5635瀏覽 ? 0回復
機器人ChatGPT時刻！英偉達開源世界大模型，完美模擬物理世界！

Aceryt ? 2502瀏覽 ? 0回復
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風云2002_1 ? 1.1w瀏覽 ? 0回復
奧特曼再談DeepSeek：每天醒來都有壓力

Crystalcxt ? 1396瀏覽 ? 0回復
xAI 發(fā)布地表最強大模型Grok 3，同時宣布將開源Grok2

Syrupup ? 1549瀏覽 ? 0回復
超過DeepSeek、o3，雙思維模型Claude 3.7來了

Aceryt ? 1631瀏覽 ? 0回復
Grok 3 與 DeepSeek-R1 是怎么學會思考的？

機器學習與數(shù)學 ? 2894瀏覽 ? 0回復
從Manus到Gemini，首輪Agent競賽中有哪些關鍵信號？

探索AGI ? 1377瀏覽 ? 0回復
與grok、gemini同臺打造“治愈老奶奶”，誰更強？

Syrupup ? 1279瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

熱門推薦

Seedream 3.0技術細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：開啟AI短劇新紀元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個面向AI短劇的視頻生成模型

下一篇：告別800秒魔咒！硬件級STA革新視頻DiT注意力，讓HunyuanVideo效率提升3.5倍!

社區(qū)精華內(nèi)容

目錄

<cite id="5sccj"><rp id="5sccj"></rp></cite>