一文速通 DeepSeek 家族核心技術點:從 LLM 到 R1!
DeepSeek橫空出世并迅速走紅,引發(fā)了全球科技圈的強烈震動,NVIDIA股價暴跌18%,全球科技股市市值蒸發(fā)近1萬億美元。特朗普也居然公開稱贊DeepSeek的崛起具有“積極意義”,并表示這給美國敲響了“警鐘”。Anthropic一方面肯定了DeepSeek的成就,另一方面卻呼吁美國政府加強對華芯片管制。這也表明中國的AI實力已經(jīng)不容小覷,正在改變?nèi)駻I的發(fā)展格局。
DeepSeek系列在技術創(chuàng)新的道路上不斷深耕,每一次新版本的發(fā)布,都是在原有基礎上的一次飛躍,不斷為行業(yè)注入新的活力。從最初的DeepSeek LLM到最新的DeepSeek R1,每一款模型都蘊含了獨特的創(chuàng)新點,在模型架構、訓練方法、數(shù)據(jù)集開發(fā)等多個維度上不斷突破。
本文筆者將總結梳理DeepSeek家族從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1,每一款模型都包括哪些核心技術點,看看DeepSeek采用了哪些技術構建了最先進的大模型。每一次的升級迭代都伴隨著哪些訓練數(shù)據(jù)的優(yōu)化、模型結構的升級以及優(yōu)化方式的更新,并與大家分享~
DeepSeek LLM
(1) 發(fā)布日期:2024年1月
(2) 數(shù)據(jù)&架構
- 2萬億個中英文詞元(2T Tokens)
- 調(diào)整了模型層數(shù),DeepSeek 7B是30層,DeepSeek 67B是95層。
- 使用 GQA 優(yōu)化推理成本。
(3) 訓練&Infra
- 使用多階段學習率調(diào)度器替代余弦學習率調(diào)度器,可以方便復用第一個訓練階段,在continual training時有獨特的優(yōu)勢。
- 使用內(nèi)部自研的輕量級高效訓練框架HAI-LLM來支持訓練和評估LLM。
(4) Scaling Laws
找到最優(yōu)的模型/數(shù)據(jù)規(guī)模分配比例。
(5) 性能
- 67B模型性能超越LLaMA-2 70B。
- Chat版本優(yōu)于GPT-3.5。
DeepSeek MoE
(1) 發(fā)布日期: 2024年1月
(2) 數(shù)據(jù)&架構
- 采用了創(chuàng)新的 MoE 架構,涉及兩個主要策略:細粒度專家細分和共享專家隔離。
- 在2T英文和中文token上從頭開始訓練。
(3) 性能
- DeepSeekMoE 16B的性能與DeekSeek 7B和LLaMA2 7B相當,計算量僅為40%左右。
- 16B版本可在單40GB內(nèi)存GPU上部署,通過有監(jiān)督微調(diào)構建了聊天模型,還采用專家級和設備級平衡損失緩解負載不均衡問題。
DeepSeek Math
(1) 發(fā)布日期:2024年2月
(2) 數(shù)據(jù)&架構
- 來自Common Crawl提取的120B高質(zhì)量數(shù)學網(wǎng)頁數(shù)據(jù),總數(shù)據(jù)量是開源數(shù)據(jù)集OpenWebMath的9倍。
- 引入了PPO變體的強化學習算法GRPO,丟棄了Critic Model,顯著減少了訓練顯存并提升了對齊效果。
(3) 預訓練
使用了代碼領域模型DeepSeek-Coder-v1.5初始化,可以獲得比從通用用模型初始化更好的數(shù)學能力。
(4) 性能
在中英數(shù)學基準榜單上超過Mistral 7B、Llemma-34B,逼近GPT-4能力,跟Minerva 540B效果相當。
DeepSeek V2
(1) 發(fā)布日期:2024年5月
(2) 數(shù)據(jù)&架構
- 改造注意力模塊,提出 MLA(Multi-Head Latent Attention)。
- 改進 MoE(Mixture-of-Experts)。
- 基于YaRN擴展長上下文。
(3) 訓練
設計三種輔助損失并引入Token-Dropping策略,通過多階段訓練流程提升性能。
DeepSeek V3
(1) 發(fā)布日期:2024年12月
(2) 數(shù)據(jù)&架構
- 采用無輔助損失的負載均衡策略。
- 多Token預測。
- 基于YaRN擴展長上下文。
(3) 訓練
- 使用 FP8 混合精度訓練框架。
- 使用高效通信框架。
(4) 優(yōu)化
通過知識蒸餾提升推理性能。
(5) 性能
- 在低訓練成本下性能強大。
- 基礎模型超越其他開源模型。
- 聊天版本與領先閉源模型性能相當。
DeepSeek R1
(1) 發(fā)布日期:2025年1月
(2) 數(shù)據(jù)&架構
采用多階段訓練和冷啟動數(shù)據(jù)。
(3) 性能
- DeepSeek-R1-Zero無需SFT就有卓越推理能力,與OpenAI-o1-0912在AIME上性能相當。
- DeepSeek-R1推理性能與OpenAI-o1-1217相當。
- 提煉出六個蒸餾模型,顯著提升小模型推理能力。