自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="jzwgx"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE 原創(chuàng)

發(fā)布于 2025-3-21 10:07

瀏覽

0收藏

編者按： 為什么說 DeepSeekMoE 的“共享專家隔離”設(shè)計(jì)，既能保留通用知識(shí)又能減少冗余？傳統(tǒng) MoE 的專家真的“專精”嗎？傳統(tǒng) MoE 專家易“崩潰”，DeepSeekMoE 如何通過“更細(xì)粒度的專家分割”讓每個(gè)專家專注更小領(lǐng)域，解決負(fù)載不均衡問題？
作者巧妙地用餐廳廚師的比喻，將抽象的技術(shù)概念形象化 —— 是聘用一位熟悉多種菜系的廚師，還是聘用多位各有專長(zhǎng)的廚師更明智？隨后，文章深入剖析了 DeepSeekMoE 的兩大創(chuàng)新：更細(xì)粒度的專家分割通過增加專家數(shù)量并降低單個(gè)專家的參數(shù)規(guī)模，促進(jìn)了專家的專業(yè)化；共享專家隔離則通過預(yù)留部分專家處理通用知識(shí)，減少了專家間的知識(shí)冗余。實(shí)驗(yàn)結(jié)果表明，在相同計(jì)算成本下，DeepSeekMoE不僅性能更優(yōu)，其專家的不可替代性也更強(qiáng)，知識(shí)冗余度更低。

作者 | Shirley Li

編譯 | 岳揚(yáng)

這是 DeepSeek-V3 系列的第二篇文章，本文將解析 DeepSeek[1,2,3] 模型的另一個(gè)關(guān)鍵架構(gòu)創(chuàng)新：DeepSeekMoE[4]。

具體而言，本文將解釋混合專家系統(tǒng)（Mixture-of-Experts，MoE）的工作原理、為什么該技術(shù)在 LLMs 領(lǐng)域備受青睞及其面臨的挑戰(zhàn)。我們還將探討 expert specialization（譯者注：在 MoE 架構(gòu)中，每個(gè)專家能夠獲取不重疊且聚焦的知識(shí)。）與 knowledge sharing（譯者注：指通過門控網(wǎng)絡(luò)與專家模型的協(xié)同機(jī)制，使不同專家在獨(dú)立處理特定任務(wù)的同時(shí)，仍能共享底層知識(shí)或通用特征，從而提升模型的整體性能和效率。）之間的權(quán)衡，以及 DeepSeekMoE 如何實(shí)現(xiàn)更優(yōu)的平衡。

最精彩的部分：為了讓這些概念更直觀，本文將通過餐廳這個(gè)場(chǎng)景來類比解析整個(gè)系統(tǒng)，借助廚房中廚師的角色來闡釋 MoE 的各個(gè)要素。

本文目錄：

技術(shù)背景：介紹 MoE 的工作原理、優(yōu)勢(shì)與面臨的挑戰(zhàn)，探討 expert specialization 與 knowledge sharing 之間的權(quán)衡
DeepSeekMoE 架構(gòu)：解析更細(xì)粒度的專家分割（Fine-Grained Expert Segmentation）和共享專家隔離（Shared Expert Isolation）
評(píng)估：通過多個(gè)有趣實(shí)驗(yàn)討論 DeepSeekMoE 的性能表現(xiàn)
總結(jié)
參考文獻(xiàn)

01 技術(shù)背景

1.1 MoE（混合專家系統(tǒng)）在 LLM 中的應(yīng)用

在 LLM（大語言模型）中，MoE 通常是指用 MoE 層替換 Transformer 模型中的 FFN（前饋神經(jīng)網(wǎng)絡(luò)）層，如下圖所示：

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 1. MoE 層示意圖，圖片來自 GShard 論文[5]

具體來說，左側(cè)展示的是由 N 個(gè) Transformer 層組成的堆疊結(jié)構(gòu)，每層包含一個(gè) MHA（多頭注意力）子層和一個(gè) FFN 子層。而右側(cè)展示的是由 N/2 個(gè) Transformer 層組成的堆疊結(jié)構(gòu)，其中下層 Transformer 的 FFN 子層被替換為 MoE 層。換言之，每隔一個(gè) Transformer 層，其 FFN 子層就會(huì)被 MoE 層替代。實(shí)際應(yīng)用中，可以按指定間隔將 FFN 替換為 MoE 層。

若進(jìn)一步觀察 MoE 層，會(huì)發(fā)現(xiàn)它包含一個(gè)門控（Gating）操作和一組具有相同架構(gòu)的 FFN（與標(biāo)準(zhǔn) FFN 子層一致）。這些 FFN 層在 MoE 中被稱為“專家”，門控操作通過訓(xùn)練學(xué)習(xí)選擇激活哪些專家來處理特定輸入。

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 2. 包含門控操作和多個(gè) FFN 專家的 MoE 層，圖片來自文獻(xiàn)[5]

MoE 的通用架構(gòu)可形式化描述如下（公式編號(hào)沿用自文獻(xiàn)[4]）：

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

其中：

u^l_t 和 h^l_t 分別表示第 l 層中第 t 個(gè) token 的輸入和輸出的隱藏狀態(tài)（hidden state）。
FFN_i 是 N 個(gè)專家中的第 i 個(gè)專家。
g_{i, t} 是第 t 個(gè) token 對(duì)第 i 個(gè)專家的門控值，該值通過對(duì) Softmax 的輸出應(yīng)用 TopK 操作獲得。
e^l_i 在公式 (5) 中常被稱為第 i 個(gè)專家的“質(zhì)心（centroid）”，可通過聚合歷史上路由到該專家的所有輸入 token 計(jì)算得到：

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

該公式由原文作者創(chuàng)建

公式逐步解析（從公式 (5) 到公式 (3) 反向說明）：

公式 (5)：通過計(jì)算 u^l_t 與 e^l_i 的內(nèi)積，衡量當(dāng)前輸入 token 與歷史上路由到第 i 個(gè)專家的所有輸入 token 的均值的相似度。若專家 i 處理過大量與當(dāng)前 token 相似的輸入，則其處理當(dāng)前 token 的能力更強(qiáng)。隨后對(duì)結(jié)果應(yīng)用 Softmax，將其轉(zhuǎn)換為概率分布。由于共有 N 個(gè)專家，每個(gè) token 會(huì)得到N個(gè) s_{i, t} 值。
公式 (4)：對(duì) s_{i, t} 值應(yīng)用 TopK 操作，生成稀疏的 g_{i, t} 值。
公式 (3)：利用稀疏的 g_{i, t} 值選擇 K 個(gè)專家來計(jì)算輸出的隱藏狀態(tài)。

換言之，對(duì)于第 t 個(gè) token，僅會(huì)激活 N 個(gè)專家中的 K 個(gè)（通常 K 遠(yuǎn)小于 N），導(dǎo)致門控值 g_{i，t} 呈現(xiàn)稀疏性。通過這種設(shè)計(jì)，模型的可訓(xùn)練參數(shù)總量會(huì)因增加的 FFN 而上升，但前向傳播時(shí)僅激活其中一小部分參數(shù)。

這正是采用 MoE 的 LLM 在描述模型規(guī)模時(shí)常用 “總參數(shù)量XX，其中每個(gè) token 激活 YY” 的原因 —— 例如 DeepSeek-V3 ：

“模型總參數(shù)量 2360 億，每個(gè) token 激活 210 億參數(shù)……”

那么，如果增加更多參數(shù)，MoE 有何優(yōu)勢(shì)？

1.2 MoE 的優(yōu)勢(shì)與面臨的挑戰(zhàn)

MoE 最妙的地方在于它體現(xiàn)了許多具有相似原理的現(xiàn)實(shí)場(chǎng)景，因此我們可以通過這些案例更直觀地理解它。

現(xiàn)在假設(shè)我們要為一家同時(shí)提供中餐和意大利菜的餐廳雇傭廚師，有兩種選擇：

選項(xiàng)1：雇傭一位同時(shí)精通中餐和意大利菜的廚師，這樣他/她可以獨(dú)自處理所有菜品。這類似于標(biāo)準(zhǔn) Transformer 模型，由單個(gè) FFN 子層處理所有輸入 token。
選項(xiàng)2：雇傭多位各有所長(zhǎng)的廚師（比如中餐專家和意大利菜專家），再加一位主廚根據(jù)訂單內(nèi)容指派擅長(zhǎng)該菜系的廚師處理。這類似于 MoE 方法，每個(gè)廚師充當(dāng)專家，主廚則作為門控機(jī)制（Gating）來選擇專家。

通過以上類比可以明顯看出，選項(xiàng) 2 不僅更容易招聘人才，還能保證兩種菜系都保持高水準(zhǔn)。相比之下，要找到同時(shí)精通多種菜系的單一廚師難度極大（甚至不可能），我們可能不得不降低菜品質(zhì)量要求。

回到 LLM 場(chǎng)景，構(gòu)建 MoE 的動(dòng)機(jī)部分源于“擴(kuò)展假說”（scaling hypothesis），即在大規(guī)模數(shù)據(jù)上擴(kuò)展 LLM 時(shí)更可能涌現(xiàn)出新的能力，這也是為什么我們看到現(xiàn)在 LLM 的規(guī)模越來越大的原因 —— 比如 GPT 模型已從 117M 參數(shù)擴(kuò)展到 175B 參數(shù)。

然而并非所有人都有機(jī)會(huì)訓(xùn)練如此大規(guī)模的 LLM，而 MoE 提供了一種折中方案：通過僅激活每個(gè)輸入 token 對(duì)應(yīng)的少量參數(shù)，我們可以在擴(kuò)大模型規(guī)模（增加模型容量）的同時(shí)，保持訓(xùn)練和推理成本可控。

如文獻(xiàn)[4]所示，你可以訓(xùn)練一個(gè) 2B 參數(shù)的模型僅激活 0.3B 參數(shù)，或訓(xùn)練 16B 參數(shù)模型僅激活 2.8B 參數(shù)，甚至還可以訓(xùn)練 145B 參數(shù)的模型僅激活 22.2B 參數(shù)。在每種情況下，每次僅使用總參數(shù)量的約 1/7，大大提升了訓(xùn)練和推理效率。

然而，每種設(shè)計(jì)都有其局限性，并會(huì)帶來新的挑戰(zhàn)。就 MoE 而言，其性能高度依賴門控機(jī)制的有效性 —— 因?yàn)闊o法保證門控始終將每個(gè)輸入 token 路由到最優(yōu)專家，且可能出現(xiàn)少數(shù)專家處理大部分輸入 token，而其他專家因缺乏訓(xùn)練機(jī)會(huì)無法充分發(fā)揮作用的現(xiàn)象。這通常被稱為"專家崩潰"（expert collapse）問題。

這還會(huì)導(dǎo)致其他問題，例如負(fù)載不均衡（多數(shù) token 被路由到少數(shù)專家）和不穩(wěn)定性（當(dāng) token 被路由到未經(jīng)充分訓(xùn)練的專家時(shí)效果欠佳）。

這就是為什么我們?cè)?MoE 架構(gòu)領(lǐng)域中經(jīng)常能夠看到大量關(guān)于負(fù)載均衡的討論。

DeepSeekMoE 也提出了若干負(fù)載均衡策略，但本文將聚焦其核心創(chuàng)新點(diǎn)，關(guān)于無輔助損失負(fù)載均衡（auxiliary-loss-free load balancing）[8]的深入解析將在后續(xù)文章中展開。

1.3 Knowledge Specialization vs. Knowledge Sharing

在上述餐廳案例中，我們做雇傭決策時(shí)其實(shí)也在權(quán)衡 expert specialization（譯者注：在 MoE 架構(gòu)中，每個(gè)專家能夠獲取不重疊且聚焦的知識(shí)。）與 knowledge sharing（譯者注：指通過門控網(wǎng)絡(luò)與專家模型的協(xié)同機(jī)制，使不同專家在獨(dú)立處理特定任務(wù)的同時(shí)，仍能共享底層知識(shí)或通用特征，從而提升模型的整體性能和效率。）：選項(xiàng)1追求通才但可能犧牲技能深度，選項(xiàng)2追求專精。這種權(quán)衡廣泛存在于現(xiàn)實(shí)場(chǎng)景的各類組織中（如企業(yè)、團(tuán)隊(duì)等）。

在 MoE 中這種權(quán)衡同樣存在，但呈現(xiàn)形式更為隱晦。理論上，每個(gè)專家都應(yīng)具備特定領(lǐng)域的專長(zhǎng)，因?yàn)槊總€(gè)專家僅處理部分輸入 token；同時(shí)所有專家仍會(huì)共享部分通用知識(shí)，因?yàn)樗鼈児蚕泶罅繀?shù)。與現(xiàn)實(shí)場(chǎng)景不同，我們很難界定每個(gè)專家的專精程度及他們掌握的通用知識(shí)范圍的邊界。

權(quán)衡 expert specialization 與 knowledge sharing 是 MoE 架構(gòu)設(shè)計(jì)的關(guān)鍵考量因素，因?yàn)檫^度專精與過度冗余均非理想狀態(tài)。

在前一種情況下，過度專精的專家會(huì)導(dǎo)致訓(xùn)練和推理的不穩(wěn)定，任何次優(yōu)的路由都可能顯著影響性能。同時(shí)這往往會(huì)造成模型容量利用率不足，因?yàn)楦叨葘＞膶＜抑荒芴幚順O少數(shù) token。

在后一種情況下，若專家間掌握的知識(shí)過于相似，MoE 引入的額外參數(shù)將無法帶來成比例的容量提升，這顯然是對(duì)有限計(jì)算資源的浪費(fèi)。

下一節(jié)我們將看到 DeepSeekMoE 如何實(shí)現(xiàn)兩者的更優(yōu)平衡。

02 DeepSeekMoE 架構(gòu)

DeepSeekMoE 通過兩項(xiàng)關(guān)鍵技術(shù)創(chuàng)新來平衡 MoE 中的 knowledge specialization 和 knowledge sharing，即更細(xì)粒度的專家分割（fine-grained expert segmentation）和共享專家隔離（shared expert isolation）。

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 3. DeepSeekMoE 示意圖。圖片來自文獻(xiàn)[4]。

2.1 更細(xì)粒度的專家分割

DeepSeekMoE 提出更細(xì)粒度的專家分割以促進(jìn)專家的專業(yè)化，提出該技術(shù)的想法非常簡(jiǎn)單：對(duì)于每個(gè)輸入 token，如果有更多專家被激活，那么處理該 token 所需的知識(shí)就更有可能被分解并由不同專家獲取。

在前文的餐廳案例中，就類似于將每位廚師的技能進(jìn)行專業(yè)化拆分，如下圖所示。最初，我們讓一位廚師負(fù)責(zé)所有中餐，另一位負(fù)責(zé)所有意大利菜。應(yīng)用更細(xì)粒度的專家分割（fine-grained expert segmentation）后，每種菜系所需的技能被拆分給多個(gè)專家掌握，于是我們得到一組專精中餐的廚師和另一組專精意大利菜的廚師，每位廚師只需掌握該菜系的特定技能。

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 4. 用餐廳案例說明(a)應(yīng)用前和(b)應(yīng)用更細(xì)粒度的專家分割后的對(duì)比。由原文作者供圖。

圖 3 也說明了這一點(diǎn)：子圖 (a) 中每個(gè)輸入 token 被路由到 N 個(gè)專家中的 2 個(gè)，而子圖 (b) 中每個(gè) token 被路由到 2N 個(gè)專家中的 4 個(gè)。在更一般的情況下，我們可以將專家數(shù)量從 N 增加到 mN，同時(shí)將每個(gè)專家 FFN 的中間隱藏層維度降至1/m，并為每個(gè)輸入 token 激活 m 倍的專家數(shù)量。通過這種方式，(a) 和 (b) 的總體計(jì)算成本將大致保持相同。

盡管作者未對(duì)該策略的有效性提供理論證明，但他們確實(shí)設(shè)計(jì)了實(shí)驗(yàn)來驗(yàn)證這一思路，我們將在“評(píng)估”部分詳述。

2.2 共享專家隔離

DeepSeekMoE 提出的另一項(xiàng)技術(shù)是隔離部分共享專家以減少冗余，提出該技術(shù)的核心想法在于：若預(yù)留部分共享專家來學(xué)習(xí)不同任務(wù)的通用知識(shí)，可給其他專家更多的自由來剝離此類通用知識(shí)，從而減少非共享專家間的冗余。

在前文提到的餐廳案例中，這就類似于將所有廚師進(jìn)一步劃分為兩組（如下圖所示）：上方第一組廚師掌握刀工、火候、調(diào)味等通用烹飪技能，下方第二組廚師專注于自己的特色菜品。

例如，包餃子的師傅只需專注包捏與蒸煮餃子，無需考慮擺盤技巧；意面師傅只需鉆研意面的制作，無需學(xué)習(xí)刀工。由此減少?gòu)N師間的知識(shí)冗余。

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 5. 基于圖 4 的餐廳案例，進(jìn)一步添加共享專家隔離的示意圖。由原文作者供圖。

圖3 (c) 也展示了該策略的實(shí)現(xiàn)方式：選定一個(gè)專家作為共享專家（綠色高亮標(biāo)記），所有輸入 token 均不經(jīng)路由層（Router）直接激活該專家，同時(shí)將激活的專項(xiàng)專家數(shù)量從 4 個(gè)減至 3 個(gè)，使總激活專家數(shù)量與圖 3 (b) 保持相同。

綜上，DeepSeekMoE 架構(gòu)可形式化表示為下圖右側(cè)公式（左側(cè)為傳統(tǒng) MoE 架構(gòu)作為對(duì)比）：

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 6. (左) 傳統(tǒng) MoE vs. (右) DeepSeekMoE。作者根據(jù)文獻(xiàn) [4] 中的公式繪制該圖。

其中：

式 (11) 與傳統(tǒng) MoE 的式 (5) 相同
式 (10) 與式 (4) 類似，但此處通過 TopK 從 (mN-K_s) 個(gè)專家中選擇 (mK-K_s) 個(gè)，K_s 表示共享專家數(shù)量
式 (9) 將式 (3) 的第一項(xiàng)拆分為兩個(gè)子項(xiàng)，分別對(duì)應(yīng)共享專家與路由專家

原文同樣未對(duì)該策略提供理論證明，但后續(xù)評(píng)估結(jié)果表明：引入共享專家既能提升性能，又能有效降低知識(shí)冗余。

03 Evaluation

正如前文所述，盡管兩項(xiàng)策略的直覺依據(jù)看似合理，但作者并未提供理論證明，因此我們?nèi)孕栩?yàn)證：這些策略是否真能緩解 expert specialization（譯者注：在 MoE 架構(gòu)中，每個(gè)專家能夠獲取不重疊且聚焦的知識(shí)。）與 knowledge sharing（譯者注：指通過門控網(wǎng)絡(luò)與專家模型的協(xié)同機(jī)制，使不同專家在獨(dú)立處理特定任務(wù)的同時(shí)，仍能共享底層知識(shí)或通用特征，從而提升模型的整體性能和效率。）的沖突？其有效性程度如何？

我們主要關(guān)注三個(gè)核心問題：

DeepSeekMoE 能否取得更好效果？
更細(xì)粒度的專家分割能否促進(jìn) expert specialization？其作用程度如何？
共享專家隔離能否減少冗余？其作用程度如何？

為解答這些問題，作者設(shè)計(jì)了系列實(shí)驗(yàn)，在此有必要詳述。

3.1 DeepSeekMoE能否取得更好效果？

首先驗(yàn)證該方法能否提升整體性能。作者訓(xùn)練了總參數(shù)/激活參數(shù)規(guī)模相當(dāng)?shù)亩鄠€(gè)模型，并在不同任務(wù)上評(píng)估它們的性能。主要結(jié)果如下表所示（最優(yōu)指標(biāo)用粗體標(biāo)注）：

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 7. 整體性能對(duì)比。作者根據(jù)文獻(xiàn) [4] 表 1 整理。

幾點(diǎn)啟示：

藍(lán)色高亮列對(duì)比標(biāo)準(zhǔn) Transformer（Dense）與兩種 MoE 架構(gòu)（Hash Layer [6]和Switch Transformer [7]）：在激活參數(shù)量相近時(shí)，MoE 架構(gòu)性能顯著更優(yōu)。
綠色高亮列進(jìn)一步比較了 DeepSeekMoE 與另一種 MoE 方法 GShard [5]：在激活參數(shù)量相近時(shí)，DeepSeekMoE 性能明顯更優(yōu)。

但性能提升并不直接等同于更好地平衡了 expert specialization 與 knowledge sharing 的沖突，因此仍需其他實(shí)驗(yàn)驗(yàn)證。

3.2 DeepSeekMoE 是否促進(jìn)了專家的專業(yè)化？

直接衡量專家的專業(yè)化程度較為困難，作者轉(zhuǎn)而設(shè)計(jì)了一項(xiàng)反向?qū)嶒?yàn)：禁用部分高優(yōu)先級(jí)路由專家并觀察性能變化。

從直覺上講，專家專業(yè)化程度越高時(shí)其不可替代性越強(qiáng)，因此禁用高優(yōu)先級(jí)路由專家應(yīng)該會(huì)導(dǎo)致更明顯的性能下降。

更具體一點(diǎn)，作者在 DeepSeekMoE 和 GShard x 1.5（作為 baseline）中逐步禁用高優(yōu)先級(jí)路由專家。兩種方法在未禁用專家時(shí)的 Pile loss 相當(dāng)（對(duì)應(yīng)下圖中禁用比例為 0 時(shí)的最左側(cè)數(shù)據(jù)點(diǎn)）：

「DeepSeek-V3 技術(shù)解析」：DeepSeekMoE-AI.x社區(qū)

圖 8. 禁用高優(yōu)先級(jí)路由專家時(shí) DeepSeekMoE 與 GShard x 1.5 的 Pile loss 對(duì)比。圖片來自文獻(xiàn)[4]。

隨著禁用路由專家比例的增加，DeepSeekMoE 的 Pile loss 持續(xù)高于 baseline，表明其路由專家具有更強(qiáng)的專業(yè)性，因此更難被其他專家替代。

3.3 DeepSeekMoE 是否能夠減少知識(shí)冗余？

按照類似的思路，作者還嘗試禁用共享專家并額外激活了一個(gè)路由專家，以觀察共享專家是否可被替代。

實(shí)驗(yàn)結(jié)果顯示“Pile loss 從 1.808 明顯上升，至 2.414”，這證明了共享專家學(xué)習(xí)的知識(shí)具有獨(dú)特性，而路由專家未能充分覆蓋該部分知識(shí)。換言之，路由專家具有更高專業(yè)性且冗余度更低。

04 Summary

本文通過餐廳案例進(jìn)行類比，解析了 DeepSeek-V2、DeepSeek-V3 等模型的核心架構(gòu)創(chuàng)新之一 —— DeepSeekMoE。

具體而言，本文首先介紹了通用 MoE 的工作原理、優(yōu)勢(shì)及面臨的挑戰(zhàn)，以及 expert specialization 與 knowledge sharing 之間的權(quán)衡關(guān)系。隨后重點(diǎn)解析了 DeepSeekMoE 的兩大核心設(shè)計(jì)：更細(xì)粒度的專家分割（fine-grained expert segmentation）與共享專家隔離（shared expert isolation），并通過實(shí)驗(yàn)驗(yàn)證了其有效性。

核心結(jié)論：DeepSeekMoE 在保持與通用 MoE 架構(gòu)相當(dāng)計(jì)算成本的條件下，通過促進(jìn)專家的專業(yè)化實(shí)現(xiàn)了更優(yōu)效果，從而實(shí)現(xiàn)更高的計(jì)算效率。

參考文獻(xiàn)

[1] DeepSeek（??https://www.deepseek.com/）??

[2] DeepSeek-V3 Technical Report（??https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf）??

[3] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model（??https://arxiv.org/abs/2405.04434）??

[4] DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models（??https://arxiv.org/abs/2401.06066）??

[5] GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding（??https://arxiv.org/abs/2006.16668）??

[6] Hash Layers For Large Sparse Models（??https://arxiv.org/abs/2106.04426）??

[7] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity（??https://arxiv.org/abs/2101.03961）??

[8] Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts（??https://arxiv.org/abs/2408.15664）??

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Shirley Li

I am a Machine Learning Engineer working on building multi-modality models to solve real-world problems.

END

本期互動(dòng)內(nèi)容 ??

?文章中的餐廳廚師類比是否幫助你理解了這個(gè)概念？如果讓你用身邊的例子來解釋 DeepSeekMoE 架構(gòu)，你會(huì)用什么比喻？

原文鏈接：

??https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個(gè)方面介紹大模型

AI探索時(shí)代 ? 1.4w瀏覽 ? 0回復(fù)
DeepSeek的V3，爆火了

51CTO技術(shù)棧 ? 5230瀏覽 ? 0回復(fù)
DeepSeek-V3 模型深度剖析：架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化與性能卓越

AI論文解讀 ? 9930瀏覽 ? 0回復(fù)
Kimik1.5、DeepSeek-V3 大戰(zhàn) OpenAI o1，誰能笑到最后？

智駐未來 ? 5280瀏覽 ? 0回復(fù)
DeepSeek簡(jiǎn)明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！

海因斯DK ? 7188瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

xuxiangda ? 4328瀏覽 ? 0回復(fù)
DeepSeek核心架構(gòu)-DeepSeekMoE：細(xì)粒度專家劃分與共享專家隔離技術(shù)的深度解析！

南夏的算法驛站 ? 2133瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開源了！

PaperAgent ? 1725瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關(guān)鍵技術(shù)

amei2000go ? 3875瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：多頭潛在注意力機(jī)制（MLA）

Baihai_IDP ? 1879瀏覽 ? 0回復(fù)
DeepSeek開源新版V3，再次震驚國(guó)外

Aceryt ? 1193瀏覽 ? 0回復(fù)
從FP8到安全張量，DeepSeek?V3?0324 重塑大模型生態(tài)的秘密武器

xuxiangda ? 1364瀏覽 ? 0回復(fù)
DeepSeek V3 0324：就在剛剛，DeepSeek悄悄更新，700行代碼一氣呵成！

Halo咯咯 ? 1910瀏覽 ? 0回復(fù)
免費(fèi)使用DeepSeek-V3–0324大模型，Cursor編程更上一層樓

小虎哦哦 ? 1329瀏覽 ? 0回復(fù)
DeepSeek-V3：小版本升級(jí)，大能力進(jìn)階

穿越時(shí)空111 ? 1008瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：無輔助損失函數(shù)的負(fù)載均衡

Baihai_IDP ? 962瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：多詞元預(yù)測(cè)技術(shù)（Multi-Token Prediction, MTP）

Baihai_IDP ? 889瀏覽 ? 0回復(fù)
一手實(shí)測(cè)DeepSeek-V3-0324，AI編程大躍進(jìn)

沃垠AI ? 1126瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeek-V3-Base 預(yù)訓(xùn)練階段解析

Baihai_IDP ? 713瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 8h前發(fā)布
面對(duì)開源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：「DeepSeek-V3 技術(shù)解析」：多頭潛在注意力機(jī)制（MLA）

下一篇：圖解「模型上下文協(xié)議（MCP）」：從與傳統(tǒng) API 的比較入手

社區(qū)精華內(nèi)容

目錄

<legend id="w69si"><track id="w69si"></track></legend>

<style id="w69si"></style>