自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="i4emw"></blockquote>

<blockquote id="i4emw"></blockquote>

<cite id="i4emw"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepSeek 關(guān)鍵技術(shù)詳解

作者：騰訊技術(shù)工程 2025-02-17 09:00:00

展望未來，DeepSeek 有望在很大程度上促進(jìn)大模型行業(yè)應(yīng)用的發(fā)展，這些技術(shù)不僅可以提升當(dāng)前大模型業(yè)務(wù)的效果與效率，還能提供新的解決方案思路。

作者：leaf

在今年的春節(jié)期間，DeepSeek火出了圈。憑借DeepSeek-V3與DeepSeek-R1的創(chuàng)新技術(shù)和卓越表現(xiàn)，DeepSeek迅速成為了行業(yè)內(nèi)外的焦點(diǎn)。不管是技術(shù)專家還是普通用戶，都對DeepSeek贊不絕口。我們特別準(zhǔn)備了這篇技術(shù)科普文章，期望無論你是不是技術(shù)同學(xué)，都能夠讀懂DeepSeek。

一、DeepSeek 系列模型的技術(shù)創(chuàng)新

表1. DeepSeek 關(guān)鍵技術(shù)一覽

1. DeepSeek MoE 架構(gòu)

圖1. DeepSeek MoE 框架示意圖

圖1選自DeepSeek-Moe報告[1]，展示了 DeepSeek 從傳統(tǒng) MoE 模型架構(gòu)（a）的基礎(chǔ)上，做的兩部分改進(jìn)（b）與（c）：

（a）傳統(tǒng) MoE 模塊：MoE 模塊包含個前饋神經(jīng)網(wǎng)絡(luò)（Feed-Forward Network, FFN）專家，每個專家在處理特定類型的數(shù)據(jù)上具有獨(dú)特的優(yōu)勢。MoE 模塊通過路由機(jī)制，根據(jù)輸入數(shù)據(jù)的特征動態(tài)選擇最合適的個專家進(jìn)行處理，而不是激活所有專家。所有專家的參數(shù)總和構(gòu)成了整個 MoE 模塊的參數(shù)量，在前向計(jì)算過程中，由于只激活了部分專家，實(shí)際參與計(jì)算的參數(shù)量被稱為激活參數(shù)量。例如，Mixtral 8*7B 模型包含8個專家，每次選擇其中的2個專家進(jìn)行計(jì)算，模型的總參數(shù)量為46.7B，而激活參數(shù)量為12.9B。
（b）細(xì)粒度專家劃分：不同于傳統(tǒng) MoE ，DeepSeek 把個專家做更細(xì)粒度的劃分，降低每一個專家的參數(shù)量，增大專家數(shù)量。如圖(b)，將個專家拆分為個，每一個專家的隱層維度變?yōu)樵瓉淼?，相?yīng)地激活個專家。如此 MoE 模塊的參數(shù)量以及激活參數(shù)量均保持不變，同時還可以更加靈活地組合多個專家。
（c）共享專家分離：把激活專家區(qū)分為共享專家（Shared Experts）和路由專家（Routed Experts）時，如圖(c)所示，共享專家和路由專家在數(shù)據(jù)處理流程上有顯著的區(qū)別。對于共享專家，輸入數(shù)據(jù)無需經(jīng)過路由模塊的計(jì)算，所有數(shù)據(jù)都會直接通過共享專家進(jìn)行處理。相反，對于路由專家，輸入數(shù)據(jù)會先經(jīng)過路由模塊，該模塊根據(jù)輸入數(shù)據(jù)的特征選擇最合適的專家進(jìn)行計(jì)算。在這種架構(gòu)中，路由模塊通過計(jì)算輸入數(shù)據(jù)與各個專家的匹配概率，選擇概率最高的專家進(jìn)行處理。最終，將路由專家和共享專家的計(jì)算結(jié)果相加，形成 MoE 模塊的最終輸出。通過這種方式，模型能夠在處理不同輸入數(shù)據(jù)時，既能捕捉到輸入數(shù)據(jù)的共性，也能關(guān)注到輸入數(shù)據(jù)的差異性。這種設(shè)計(jì)能夠提高模型的泛化能力和適應(yīng)性。

更進(jìn)一步地，DeepSeek-V3 針對MoE 中常見的負(fù)載不均衡問題，提出了一種新的負(fù)載均衡策略。在用于選擇專家的 Gate 模塊中引入了一個可學(xué)習(xí)的偏置項(xiàng)。在計(jì)算路由得分時，這個偏置項(xiàng)會被動態(tài)地加到每個路由專家的得分上。該方式的主要特點(diǎn)在于:

動態(tài)調(diào)整路由傾向：通過學(xué)習(xí)偏置項(xiàng)，模型可以動態(tài)地調(diào)整對不同路由專家的偏好。如果某個專家的負(fù)載過重，其對應(yīng)的偏置項(xiàng)可能會被學(xué)習(xí)為負(fù)值，從而降低其被選擇的概率。反之，對于負(fù)載較輕的專家，其偏置項(xiàng)可能會被學(xué)習(xí)為正值，提高其被選擇的概率。
無額外損耗：該偏置項(xiàng)是直接通過模型的訓(xùn)練目標(biāo)進(jìn)行優(yōu)化的，而不是通過一個獨(dú)立的負(fù)載均衡損失函數(shù)。這意味著，模型在努力提高主要任務(wù)性能的同時，也會自然而然地學(xué)習(xí)到一種更均衡的路由策略，而不會因?yàn)轭~外的負(fù)載均衡損失而影響性能。

DeepSeek 通過這些 Moe 架構(gòu)上的創(chuàng)新，直接促進(jìn)了 V3 模型的整體效果提升。

下表是部分開源 MoE 模型的對比情況：

表2. 部分開源模型 MoE 模塊配置對比

表3. DeepSeek V3 架構(gòu)核心參數(shù)

2. 群體相對策略優(yōu)化（Group Relative Policy Optimization，GRPO）

大模型訓(xùn)練大體可以分為3種模式，預(yù)訓(xùn)練（Pretraining），有監(jiān)督精調(diào)（Supervised Fine-Tuning, SFT），基于人類反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback, RLHF）。其中，SFT讓模型通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)數(shù)據(jù)分布的方式來提高模型在特定任務(wù)或指令上的表現(xiàn)，與其不同的是，RLHF使用人類反饋來定義獎勵函數(shù)，然后通過強(qiáng)化學(xué)習(xí)算法優(yōu)化模型。讓模型能生成符合人類喜好的回復(fù)。

主流的RLHF算法有PPO（Proximal Policy Optimization）、DPO（Direct Preference Optimization）以及本節(jié)介紹的GRPO等。強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論具有較高的綜合性以及深度，想要深入閱讀的同學(xué)可以參考相關(guān)資料。

在介紹GRPO之前，需要先了解PPO算法，因?yàn)镚RPO可以算作是PPO的計(jì)算效率優(yōu)化版本，在保持效果的同時，降低計(jì)算資源消耗。在強(qiáng)化學(xué)習(xí)領(lǐng)域，PPO 算法被廣泛認(rèn)為是強(qiáng)化學(xué)習(xí)中的基準(zhǔn)算法之一。PPO 采用了 Actor-Critic 架構(gòu)，這一架構(gòu)可以形象地理解為：有一個演員（actor）在舞臺上表演，而一個評論家（critic）在臺下觀看。演員的目標(biāo)是通過不斷調(diào)整自己的表演行為來獲得觀眾的認(rèn)可，并從觀眾那里獲得及時反饋。而評論家的任務(wù)則是評估演員的表演，并提供全面的建議。

在自然語言處理（NLP）生成模型的場景中，被訓(xùn)練的模型相當(dāng)于演員，其表演即為生成的回復(fù)。相應(yīng)地，會有評論家和觀眾模型來評價回復(fù)的質(zhì)量。具體來說，PPO使用了四個模型：

Policy 模型（又稱 Actor）：輸入一段上文，輸出下一個token的概率分布。該模型需要訓(xùn)練，是我們最終得到的模型。輸出下一個token即為Policy模型的“行為”。
Value 模型（又稱 Critic）：用于預(yù)估當(dāng)前模型回復(fù)的總收益。該總收益不僅局限于當(dāng)前token的質(zhì)量，還需要衡量當(dāng)前token對后續(xù)文本生成的影響。該模型需要訓(xùn)練。
Reward 模型：事先用偏好數(shù)據(jù)進(jìn)行訓(xùn)練，用于對Policy模型的預(yù)測進(jìn)行打分，評估模型對于當(dāng)前輸出的即時收益。
Reference 模型：與 Policy 模型相同，但在訓(xùn)練過程中不進(jìn)行優(yōu)化更新，用于維持模型在訓(xùn)練中的表現(xiàn)，防止在更新過程中出現(xiàn)過大偏差。

為了更直觀地理解 Value 模型的總收益和 Reward 模型的即時收益，可以用“磨刀不誤砍柴工”來舉例說明。假設(shè)現(xiàn)在有一把鈍刀，一分鐘可以劈一根柴火；如果把刀磨鋒利了，一分鐘就可以劈兩根柴火?，F(xiàn)在你可以選擇直接用鈍刀劈柴，或者先把刀磨鋒利。前者的當(dāng)前收益比后者高，但未來的收益會低。也就是說，Value 模型會對后者“磨刀”這一行為更為推崇，而 Reward 模型會給前者“直接砍柴”一個更高的分?jǐn)?shù)。

PPO 在大模型的 RLHF 階段被成功應(yīng)用，不斷提升模型回復(fù)表現(xiàn)的上限。然而，PPO 在計(jì)算成本和訓(xùn)練穩(wěn)定性方面仍然存在一定的挑戰(zhàn)。GRPO 算法對此進(jìn)行了優(yōu)化，其核心目標(biāo)是去除 Value 模型，以此來減少訓(xùn)練的計(jì)算資源。

圖2. PPO vs. GRPO

圖2選自 DeepSeekMath 報告，展示了 GRPO 相對于 PPO 的改進(jìn)。傳統(tǒng)的 PPO 使用 Value 模型來估計(jì)模型回復(fù)的總收益，這實(shí)際上是對未來模型回復(fù)各種可能性的一個平均分值估計(jì)。而 GRPO 的方法是通過，大模型根據(jù)當(dāng)前的上文輸入進(jìn)行多次采樣，生成多個預(yù)測結(jié)果，并分別使用 Reward 模型對這些預(yù)測結(jié)果進(jìn)行評分得到，最后取這些評分的平均值來替代 Value 模型的預(yù)期總收益估計(jì)。通過這種方式，GRPO 在訓(xùn)練過程中可以減少一個模型的前向和反向傳播計(jì)算，從而降低計(jì)算資源的消耗。

下表針對 SFT 以及主流的一些強(qiáng)化學(xué)習(xí)方法做了對比和總結(jié):

表4. SFT 與 RLHF 算法特點(diǎn)

3. 多頭隱式注意力（Multi-Head Latent Attention，MLA）

在標(biāo)準(zhǔn)的 Transformer 模型中，多頭注意力（Multi-Head Attention, MHA）機(jī)制通過并行計(jì)算多個注意力頭來捕捉輸入序列中的不同特征。每個注意力頭都有自己的查詢（Query, Q）、鍵（Key, K）和值（Value, V）矩陣。對于序列中的每一個 token，都需要計(jì)算各自的 QKV，進(jìn)而計(jì)算注意力。在推理過程中，當(dāng)前大模型所采用的 token by token 遞歸生成方式，上文 token 的 KV 計(jì)算不會受到后續(xù)生成 token 的影響，因此可以緩存下來，避免重復(fù)計(jì)算，提高推理效率，這就是 KV cache 的由來。也就是說，當(dāng)生成第個 token 時，可以利用之前事先算好的上文個 token 的 KV 值。同樣地，位置 token 的 KV 值計(jì)算出來后也將保存在 KV cache 中。

目前大模型對于注意力機(jī)制做的一些改進(jìn)，包括MQA （Multi-Query Attention）、GQA （Group Query Attention）都是為了想方設(shè)法減少 KV Cache。DeepSeek 提出的 MLA 的出發(fā)點(diǎn)也是如此。減少KV Cache就可以實(shí)現(xiàn)在更少的設(shè)備上推理更長的Context，或者在相同的Context長度下讓推理的batch size更大，從而實(shí)現(xiàn)更快的推理速度或者更大的吞吐總量。最終目的都是為了實(shí)現(xiàn)更低的推理成本。

圖3. MHA, MQA, GQA 與 MLA

如圖3所示，MQA 與 GQA 的辦法是通過共享 K，V 的注意力頭，降低 KV Cache的數(shù)據(jù)維度。MLA 的辦法本質(zhì)上是對原本 MHA 的 KV Cache 作低秩分解，得到一個低維的隱向量（Latent Vector）。在推理階段，MLA 只需要緩存該隱向量，由此大大降低需要緩存的數(shù)據(jù)量。

具體地，對于某一層某一個 token 的表征, MLA 通過降維映射矩陣（down-projection matrix）得到對、壓縮后的隱向量:

在前向過程中，需要對此隱向量進(jìn)行升維還原，即:

其中，與為對應(yīng)的升維映射矩陣（up-projection matrix）,可得到對應(yīng)的、向量、?？梢赃@么理解，MLA利用低秩分解的辦法，通過增加少量的模型參數(shù)變量（降維映射矩陣與升維映射矩陣），引入低維隱向量作為 KV Cache，降低 KV Cache 所帶來的顯存壓力，以此降低推理成本。

此外，DeepSeek 還將 Query 也進(jìn)行了低秩分解，能夠在訓(xùn)練過程中降低顯存占用，以此提高訓(xùn)練資源利用率。

上述方案還需要針對位置編碼RoPE（Rotary Position Embedding）進(jìn)行處理。因?yàn)槿绻陔[向量中包含RoPE，經(jīng)過升降維操作后，會對位置信息造成破壞。為了解決這個問題，MLA（Multi-Head Linear Attention）提出了“解耦RoPE”的方法。具體來說，對于隱向量，不將位置編碼包含在其中，而是專門為注意力頭的 Query 和 Key 新增向量維度，以添加 RoPE 的位置信息。

使用了 MLA 的 DeepSeek V2 （總參數(shù)量236B，激活參數(shù)量21B），和 DeepSeek 67B 相比，模型效果上顯著提升，同時節(jié)省了42.5%的訓(xùn)練成本，減少了93.3%的 KV Cache，并將最大生成吞吐量提高了5.76倍。

4. 多令牌預(yù)測（Multi-Token Prediction，MTP）

當(dāng)前主流的采用自回歸的大模型都是單 token 預(yù)測。即根據(jù)當(dāng)前上文預(yù)測下一個最可能的 token。而 MTP 的核心思想是讓模型一次性預(yù)測多個 token，以提升了模型的訓(xùn)練效率、生成質(zhì)量和推理速度。

比如現(xiàn)在上文是“今年春節(jié)的天氣”，傳統(tǒng)的單 token 預(yù)測模式會逐 token 預(yù)測“真的”、“好”、“冷”、“。”；而 MTP 會并行地預(yù)測這幾個 token 。因此，模型不僅要學(xué)習(xí)預(yù)測下一個 token 的能力，還需要同時具備預(yù)測下個token的能力。

這種方式在推理角度的好處顯而易見，一次性生成多個 tokens，減少自回歸生成的步數(shù)，達(dá)到推理加速效果。而在訓(xùn)練過程中，MTP 的訓(xùn)練目標(biāo)函數(shù)同時考慮了多個 token 的估計(jì)準(zhǔn)確性，因此被認(rèn)為可以捕捉 token 間的依賴關(guān)系，從而提升模型效果。

這里將簡單介紹 DeepSeek V3 的 MTP 模塊，與 Meta 的 MTP 模塊[6]相比，DeepSeek 采用了級聯(lián)式的結(jié)構(gòu)，使用k個串行模塊來預(yù)測k個token，保留因果語言模型（Causal Language Model）的連接關(guān)系，有利于效果的提升，如圖4所示:

圖4. DeepSeek V3 MTP 模塊結(jié)構(gòu)示意圖

圖中展示了模型用個順序的模塊，預(yù)測個 tokens。定義預(yù)測深度為的含義為，預(yù)測后續(xù)第個 token。

首先，在每一個預(yù)測深度模塊中，都共享了一個嵌入層（embedding layer），即模型除了最后負(fù)責(zé)最后預(yù)測部分的層之外，其他的所有層，用于得到 token 的 embedding。對于輸入的第個token，在第個預(yù)測深度處，模型將前一個深度的表示與第的 embedding 拼接，作為新的輸入表示。

然后通過一個預(yù)測深度專用的 Transformer 模塊，生成當(dāng)前預(yù)測深度的輸出表示，將用于下一個深度的表示計(jì)算，同時用共享的輸出層獲得 token 預(yù)測, 與訓(xùn)練樣本中計(jì)算損失。

DeepSeek V3 論文中報告了使用 MTP 模塊的效果。他們在推理過程中，不使用 MTP 模塊，只在訓(xùn)練過程中利用該模塊約束模型的優(yōu)化。實(shí)驗(yàn)結(jié)果表明，使用 MTP 模塊訓(xùn)練，能夠提升模型的回復(fù)質(zhì)量，在 MMLU, GSM8K 等公開基準(zhǔn)測試指標(biāo)均有提升。

5. 混合精度框架

DeepSeek-V3 模型使用了 FP8 訓(xùn)練，為了增強(qiáng)訓(xùn)練穩(wěn)定性以及維持訓(xùn)練效果不至于下降太多，作者提出了一種精細(xì)的量化策略，另外為了進(jìn)一步減少M(fèi)oE訓(xùn)練中的內(nèi)存和通信開銷，作者在FP8中緩存和分發(fā)激活值，同時以BF16格式存儲低精度優(yōu)化器狀態(tài)。在實(shí)驗(yàn)中，F(xiàn)P8訓(xùn)練模型與BF16基線相比，相對損失誤差始終低于0.25%，在訓(xùn)練隨機(jī)性范圍內(nèi)是可以接受的。

基于此，DeepSeek-V3 文中提出了一種 FP8 訓(xùn)練的混合精度框架。在這個框架中，大多數(shù)計(jì)算密集型操作在 FP8 中進(jìn)行，而一些關(guān)鍵操作則保持其原始數(shù)據(jù)格式，以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性。為了加速模型訓(xùn)練，主要的核心計(jì)算內(nèi)核（如General Matrix Multiplication，GEMM操作）在 FP8 精度下實(shí)現(xiàn)，這些操作接受 FP8 張量作為輸入，并生成 BF16 或 FP32 格式的輸出。所有與線性操作相關(guān)的三個 GEMM（前向傳播、激活反向傳播和權(quán)重反向傳播）都在 FP8 中執(zhí)行，這種設(shè)計(jì)理論上將計(jì)算速度提高了一倍。此外，F(xiàn)P8 權(quán)重反向傳播 GEMM 允許激活值以 FP8 格式存儲，以便在反向傳播中使用，從而顯著減少了內(nèi)存消耗。

訓(xùn)練框架在以下組件中保持了原始精度（如BF16或FP32）：Embedding 模塊、輸出頭、MoE門控模塊、歸一化算子和注意力算子等。這些高精度的保留確保了DeepSeek-V3的穩(wěn)定訓(xùn)練動態(tài)。為了進(jìn)一步保證數(shù)值穩(wěn)定性，作者將模型的主權(quán)重、權(quán)重梯度和優(yōu)化器狀態(tài)均存儲在更高的精度中。該混合精度框架示意圖可見圖5。

圖5. DeepSeek V3 混合精度框架（FP8訓(xùn)練）示意圖

除了混合精度框架之外，DeepSeek 在 AI Infra 方面做了許多工作，例如還提出了 DualPipe 算法等，提升了模型訓(xùn)練效率。這方面的工作也期待 Infra 團(tuán)隊(duì)有更細(xì)致的分享。

6. Deepseek V3 總結(jié)

DeepSeek-V3 是一個在2048 個 NVIDIA H800 GPU 的集群上進(jìn)行訓(xùn)練得到的超大型MoE架構(gòu)的大語言模型。它延續(xù)了Deepseek MoE、Deepseek V2等模型的一系列創(chuàng)新，進(jìn)一步提出了MTP，并優(yōu)化了訓(xùn)練的效率，取得比較好效果的同時，提高了訓(xùn)練的效率，節(jié)約了成本。

表5、表6展示了 DeepSeek V3 為人矚目的訓(xùn)練成本以及開源基準(zhǔn)評測效果。

表5. DeepSeek V3 訓(xùn)練成本

表6. DeepSeek V3 與其他 Chat 模型開源基準(zhǔn)評測效果

二、DeepSeek R1-Zero 和 R1

1. GPT-4、GPT-4o、o1、R1等概述

GPT-4是ChatGPT-3.5的迭代升級，在效果和性能上有了顯著提升；GPT-4o增加了多模態(tài)功能；o1專注于深度推理能力。R1跟o1類似，也是專注于深度推理能力的模型。下表是不同模型的簡單對比。

表7. DeepSeek 與 OpenAI 模型對比

(1) CoT與Long CoT

CoT指的是一種推理過程，其中模型在生成最終答案之前，先逐步推導(dǎo)出一系列的中間步驟或子目標(biāo)。這些中間步驟構(gòu)成了一個“思維鏈”，最終引導(dǎo)模型得到正確的結(jié)果。它模仿人類的推理過程，即人們往往在解決問題時不是直接得出答案，而是通過一系列的思考、分析和推理步驟。

Long-CoT（長思考/慢思考）是CoT的一種擴(kuò)展形式。傳統(tǒng)的CoT方法通過將復(fù)雜問題分解為一系列中間推理步驟來引導(dǎo)模型進(jìn)行逐步推理。而Long-CoT則進(jìn)一步擴(kuò)展了這種思路，使得思考過程和輸出的答案解耦，可以通過更長的上下文和更復(fù)雜的推理路徑（在思考過程中通過加入問題復(fù)述、思考回顧、反思、知識回憶、公式化等思考節(jié)點(diǎn)）來增強(qiáng)模型的推理能力。

DeepSeek 公開了他們 R1 的技術(shù)細(xì)節(jié)[5]，比如所采用的對話模版，如圖6所示。DeepSeek 對社區(qū)的貢獻(xiàn)還在于，他們提供的 API 展示了模型的思考過程，讓從業(yè)人員以及使用者能夠全方位地了解到 Long-CoT 的特點(diǎn)與作用。圖7展示了我使用 DeepSeek 的深度思考以及聯(lián)網(wǎng)搜索的一個示例，實(shí)實(shí)在在地感受到了模型的強(qiáng)大。

圖6. DeepSeek-R1-Zero 對話模版

圖7. DeepSeek 使用示例，開啟了深度思考與聯(lián)網(wǎng)搜索

(2) R1與o1、o3在效果、速度、價格方面的比較

R1與o1、o3的區(qū)別除了訓(xùn)練方法，還體現(xiàn)在效果、速度、價格幾個方面。在Artificial Analysis給出了具體的評測結(jié)果。

在整體的評分上來看，o3-mini 和 DeepSeek R1評分一樣，不相上下。

圖8. 主流模型Artificial Analysis評測效果-模型回復(fù)質(zhì)量評分

o3-mini模型應(yīng)該更小，主打低延遲，在輸出token推理速度上比DeepSeek R1快10倍，比o1快7倍。

圖9. 主流模型Artificial Analysis評測效果-推理速度

從整體價格上，o3-mini的價格已經(jīng)比DeepSeek-R1價格更低，比o1模型的價格便宜了13倍以上，優(yōu)化了許多。

圖10. 主流模型Artificial Analysis評測效果-價格

2. DeepSeek R1 和 R1 Zero 模型的突破

DeepSeek R1和R1 Zero模型的突破主要體現(xiàn)在以下幾個方面。

(1) 強(qiáng)大的推理能力

DeepSeek R1 和 R1 Zero模型在多個推理基準(zhǔn)測試中表現(xiàn)出色。值得注意的是，DeepSeek-R1-Zero 是第一個公開的研究，驗(yàn)證了 LLM 的推理能力可以完全通過強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）來激勵，而不需要 SFT。也表明了強(qiáng)化學(xué)習(xí)可以促進(jìn)模型自我進(jìn)化。這一里程碑式的成就，不僅突顯了該模型的創(chuàng)新基礎(chǔ)，也為以 RL 為中心的推理 AI 進(jìn)一步鋪平了道路。

表8. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理類開源基準(zhǔn)測試中的效果對比

表8截取自 DeepSeek R1 報告，展示了DeepSeek-R1-Zero 與 OpenAI o1 相媲美的效果。

(2) 可解釋性

DeepSeek R1 和 R1 Zero 模型采用 Long CoT 方法，能夠清晰地展示其推理過程（o1只能展示部分），提高了模型的可解釋性。其中給出的思考過程也是一個非常有研究價值的內(nèi)容，有助于大模型領(lǐng)域的發(fā)展。

(3) 開源和低成本

DeepSeek R1 和 R1 Zero 模型是開源的，開發(fā)者和研究人員可以自由地探索、修改和部署它們。此外，DeepSeek R1 的 API 定價也比 OpenAI o1模型更低，約為其1/10。

3. DeepSeek R1和R1 Zero模型技術(shù)介紹

DeepSeek R1 和 R1 Zero 模型的主要差異在于訓(xùn)練方法。DeepSeek R1 Zero 僅用強(qiáng)化學(xué)習(xí)就訓(xùn)練出了一個效果接近OpenAI-o1-0912的推理模型。發(fā)現(xiàn)了通過設(shè)定基于規(guī)則的 Reward 模型（要求保證答案和格式的準(zhǔn)確性），能夠在強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中不斷進(jìn)化，出現(xiàn)了“aha moment”頓悟時刻以及最終取得了出色的模型效果。

DeepSeek R1 Zero 的表現(xiàn)令人驚嘆，我們也相信這套方案還有潛力可以挖掘。不過現(xiàn)階段，R1 Zero的回復(fù)會出現(xiàn)可讀性差或語言混雜的情況。因此，DeepSeek 基于R1 Zero的成果，設(shè)計(jì)了一個多階段的訓(xùn)練策略并且添加了許多高質(zhì)量 SFT 數(shù)據(jù)。在這樣的“人工干預(yù)”下，訓(xùn)練出了一個效果更優(yōu)的模型 DeepSeek R1。

R1系列模型的訓(xùn)練流程如圖11所示:

圖11. DeepSeek-R1-Zero，DeepSeek-R1 與 DeepSeek-R1-Distill 模型訓(xùn)練流程框圖

(1) DeepSeek R1 Zero

R1-Zero 的特別之處在于，它無需經(jīng)過 SFT 訓(xùn)練集進(jìn)行訓(xùn)練就能夠在推理任務(wù)中表現(xiàn)出色。它的訓(xùn)練過程直接從一個預(yù)訓(xùn)練的基礎(chǔ)模型（DeepSeek V3 Base）開始，通過強(qiáng)化學(xué)習(xí)訓(xùn)練完成。具體地：

采用群體相對策略優(yōu)化（GRPO），節(jié)省RL的訓(xùn)練成本。
在RL訓(xùn)練過程中，采用Rule-based獎勵，主要由兩種獎勵構(gòu)成：a) Accuracy rewards：評估模型的輸出是否正確；b) Format rewards：強(qiáng)制模型將其思考過程置于指定的和之間。
設(shè)計(jì)訓(xùn)練模版，指導(dǎo)基模型在訓(xùn)練過程中遵守設(shè)定的指令，即圖7。

DeepSeek-R1-Zero 展示出了自我進(jìn)化能力，隨著強(qiáng)化學(xué)習(xí)訓(xùn)練進(jìn)程的深入，模型的思考時間在增加，并自發(fā)出現(xiàn)了諸如反思，模型重新審視和重新評估其先前步驟以及探索解決問題的替代方法等更加復(fù)雜的行為。

圖12. DeepSeek-R1-Zero平均回復(fù)長度隨訓(xùn)練迭代步數(shù)的關(guān)系曲線

圖12展示了 DeepSeek-R1-Zero 在訓(xùn)練過程中的平均回復(fù)長度，說明了隨著訓(xùn)練進(jìn)行，模型在解答推理類問題時，花了更多的時間去思考，以提高回答準(zhǔn)確率。

在DeepSeek-R1-Zero的訓(xùn)練過程中出現(xiàn)了Aha Moment（頓悟時刻），代表RL有可能在人工系統(tǒng)中解鎖新的智能水平，為未來更加自主和自適應(yīng)的模型鋪平道路。

圖13. DeepSeek-R1-Zero “Aha Moment”示例

(2) DeepSeek R1

盡管 DeepSeek-R1-Zero 展示了強(qiáng)大的推理能力，并能夠自主發(fā)展出意想不到且強(qiáng)大的推理行為，但它也面臨一些問題。例如，DeepSeek-R1-Zero 存在可讀性差和語言混雜等問題。R1 旨在成為一個更易用的模型。因此，R1 并不像 R1-Zero 那樣完全依賴于強(qiáng)化學(xué)習(xí)過程。訓(xùn)練過程分成四個階段：

圖14. DeepSeek-R1 訓(xùn)練流程

① 冷啟動：為了避免RL訓(xùn)練從基礎(chǔ)模型開始的早期不穩(wěn)定冷啟動階段，構(gòu)建并收集少量長的 CoT 數(shù)據(jù)來微調(diào) DeepSeek-V3-Base 作為 RL 的起點(diǎn)。

② 推理導(dǎo)向的強(qiáng)化學(xué)習(xí)：在冷啟動數(shù)據(jù)上微調(diào) DeepSeek-V3-Base 后，應(yīng)用與 DeepSeek-R1-Zero 中相同的 RL 方法訓(xùn)練。本階段側(cè)重于增強(qiáng)模型的推理能力，尤其是在編碼、數(shù)學(xué)、科學(xué)和邏輯推理等推理密集型任務(wù)中，這些任務(wù)涉及具有明確解決方案的明確定義的問題。當(dāng) RL 提示涉及多種語言時，CoT 經(jīng)常表現(xiàn)出語言混合現(xiàn)象。為了減輕語言混合問題，在 RL 訓(xùn)練過程中引入了一種語言一致性獎勵。

③ 拒絕抽樣和監(jiān)督微調(diào)：當(dāng)2中的RL過程趨于收斂時，利用訓(xùn)練出的臨時模型生產(chǎn)用于下一輪訓(xùn)練的SFT數(shù)據(jù)（600K推理數(shù)據(jù)）。與1中的冷啟動數(shù)據(jù)區(qū)別在于，此階段既包含用于推理能力提升的600k數(shù)據(jù)，也包含200k推理無關(guān)的數(shù)據(jù)。使用這800k樣本的精選數(shù)據(jù)集對DeepSeek-V3-Base進(jìn)行了兩個epoch的微調(diào)。

④ 適用于全場景的強(qiáng)化學(xué)習(xí)：在3中微調(diào)模型的基礎(chǔ)上，使用全場景的強(qiáng)化學(xué)習(xí)數(shù)據(jù)提升模型回復(fù)的有用性和無害性。對于推理數(shù)據(jù)，遵循 DeepSeek-R1-Zero 的方法，利用基于規(guī)則的獎勵來指導(dǎo)數(shù)學(xué)、代碼和邏輯推理領(lǐng)域的學(xué)習(xí)過程。對于一般數(shù)據(jù)，采用基于模型的獎勵來捕捉復(fù)雜和細(xì)微場景中的人類偏好。

通過上述精細(xì)的多階段訓(xùn)練，DeepSeek R1 最終得以呈現(xiàn)，達(dá)到了 OpenAI-o1-1217的水平。

表9. DeepSeek-R1在開源基準(zhǔn)測試中的效果

(3) 將R1推理能力蒸餾到小的稠密模型中

圖15. 將R1推理能力蒸餾到其他模型

為了使參數(shù)規(guī)模較小的模型也能具備像 DeepSeek-R1 這樣的推理能力，首先通過 DeepSeek-R1推理得到的800k個樣本。然后對 6 個不同參數(shù)量的開源模型進(jìn)行了直接有監(jiān)督微調(diào)。這種方式也就是直接的數(shù)據(jù)蒸餾。R1論文中表明了，通過這種方法就能夠顯著增強(qiáng)小參數(shù)規(guī)模模型的推理能力。同時也反映了 R1 模型的價值，它能夠用于激發(fā)絕大多數(shù)模型的推理能力。

表10. DeepSeek-R1-Distill 模型在推理類開源基準(zhǔn)測試中的效果

表10展示了基于1.5B-70B規(guī)模的開源模型，使用DeepSeek-R1 數(shù)據(jù)蒸餾后的推理能力評測，指標(biāo)都具有較強(qiáng)的競爭力。這實(shí)在是一件很夸張的事，這相當(dāng)于告訴了我們一個簡單直接的模型效果優(yōu)化手段，就是從 R1 模型構(gòu)造數(shù)據(jù)，然后SFT！

(4) Deepseek R1的意義

DeepSeek-R1 在全球范圍內(nèi)引發(fā)巨大轟動，不僅源于其技術(shù)突破，更在于其與 OpenAI 的對比。盡管 OpenAI 在發(fā)布 o1 模型后展現(xiàn)了強(qiáng)大實(shí)力，但由于以下三點(diǎn)原因，行業(yè)內(nèi)外用戶難以大規(guī)模采用：首先，拒絕開源；其次，隱藏了模型的深度思考過程，使其成為一個“黑箱”；最后，定價高昂，將大多數(shù)用戶拒之門外。相較之下，DeepSeek-R1 揭開了 o1 的神秘面紗，開源了這類強(qiáng)推理模型背后的關(guān)鍵技術(shù)，既促進(jìn)了行業(yè)的快速發(fā)展，也對 OpenAI 的閉源策略形成了有力沖擊。

DeepSeek-R1 的成功，本質(zhì)上是對 OpenAI 發(fā)展路徑的一次顛覆性突破。它重現(xiàn)了2023年初 ChatGPT 帶給世界的震撼，但更重要的是，它證明了在有限算力條件下，通過算法創(chuàng)新同樣能夠?qū)崿F(xiàn)技術(shù)突破。這種突破具有雙重意義：一方面，它打破了“算力至上”的神話，為AI發(fā)展開辟了新路徑；另一方面，它為中國AI產(chǎn)業(yè)提供了寶貴的經(jīng)驗(yàn)——在算力受限的情況下，通過技術(shù)創(chuàng)新依然可以實(shí)現(xiàn)彎道超車。

從技術(shù)演進(jìn)的角度來看，DeepSeek V3 和 R1 的成功為AI發(fā)展的新方向指明了道路。在追求模型性能的同時，效率優(yōu)化將成為未來競爭的關(guān)鍵。這一點(diǎn)在本文介紹的V3一系列技術(shù)中得到了清晰體現(xiàn)。

展望未來，DeepSeek 有望在很大程度上促進(jìn)大模型行業(yè)應(yīng)用的發(fā)展，這些技術(shù)不僅可以提升當(dāng)前大模型業(yè)務(wù)的效果與效率，還能提供新的解決方案思路。此外，DeepSeek 也為大模型廠商樹立了榜樣，其在2024年的一系列卓越工作展示了如何打造有價值的大模型。

責(zé)任編輯：趙寧寧來源：騰訊技術(shù)工程

DeepSeek 人工智能 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="fdt9b"></center>