「DeepSeek-V3 技術(shù)解析」:DeepSeekMoE 原創(chuàng)
編者按: 為什么說 DeepSeekMoE 的“共享專家隔離”設(shè)計(jì),既能保留通用知識(shí)又能減少冗余?傳統(tǒng) MoE 的專家真的“專精”嗎?傳統(tǒng) MoE 專家易“崩潰”,DeepSeekMoE 如何通過“更細(xì)粒度的專家分割”讓每個(gè)專家專注更小領(lǐng)域,解決負(fù)載不均衡問題?
作者巧妙地用餐廳廚師的比喻,將抽象的技術(shù)概念形象化 —— 是聘用一位熟悉多種菜系的廚師,還是聘用多位各有專長(zhǎng)的廚師更明智?隨后,文章深入剖析了 DeepSeekMoE 的兩大創(chuàng)新:更細(xì)粒度的專家分割通過增加專家數(shù)量并降低單個(gè)專家的參數(shù)規(guī)模,促進(jìn)了專家的專業(yè)化;共享專家隔離則通過預(yù)留部分專家處理通用知識(shí),減少了專家間的知識(shí)冗余。實(shí)驗(yàn)結(jié)果表明,在相同計(jì)算成本下,DeepSeekMoE不僅性能更優(yōu),其專家的不可替代性也更強(qiáng),知識(shí)冗余度更低。
作者 | Shirley Li
編譯 | 岳揚(yáng)
這是 DeepSeek-V3 系列的第二篇文章,本文將解析 DeepSeek[1,2,3] 模型的另一個(gè)關(guān)鍵架構(gòu)創(chuàng)新:DeepSeekMoE[4]。
具體而言,本文將解釋混合專家系統(tǒng)(Mixture-of-Experts,MoE)的工作原理、為什么該技術(shù)在 LLMs 領(lǐng)域備受青睞及其面臨的挑戰(zhàn)。我們還將探討 expert specialization(譯者注:在 MoE 架構(gòu)中,每個(gè)專家能夠獲取不重疊且聚焦的知識(shí)。) 與 knowledge sharing(譯者注:指通過門控網(wǎng)絡(luò)與專家模型的協(xié)同機(jī)制,使不同專家在獨(dú)立處理特定任務(wù)的同時(shí),仍能共享底層知識(shí)或通用特征,從而提升模型的整體性能和效率。) 之間的權(quán)衡,以及 DeepSeekMoE 如何實(shí)現(xiàn)更優(yōu)的平衡。
最精彩的部分:為了讓這些概念更直觀,本文將通過餐廳這個(gè)場(chǎng)景來類比解析整個(gè)系統(tǒng),借助廚房中廚師的角色來闡釋 MoE 的各個(gè)要素。
本文目錄:
- 技術(shù)背景:介紹 MoE 的工作原理、優(yōu)勢(shì)與面臨的挑戰(zhàn),探討 expert specialization 與 knowledge sharing 之間的權(quán)衡
- DeepSeekMoE 架構(gòu):解析更細(xì)粒度的專家分割(Fine-Grained Expert Segmentation)和共享專家隔離(Shared Expert Isolation)
- 評(píng)估:通過多個(gè)有趣實(shí)驗(yàn)討論 DeepSeekMoE 的性能表現(xiàn)
- 總結(jié)
- 參考文獻(xiàn)
01 技術(shù)背景
1.1 MoE(混合專家系統(tǒng))在 LLM 中的應(yīng)用
在 LLM(大語言模型)中,MoE 通常是指用 MoE 層替換 Transformer 模型中的 FFN(前饋神經(jīng)網(wǎng)絡(luò))層,如下圖所示:
圖 1. MoE 層示意圖,圖片來自 GShard 論文[5]
具體來說,左側(cè)展示的是由 N 個(gè) Transformer 層組成的堆疊結(jié)構(gòu),每層包含一個(gè) MHA(多頭注意力)子層和一個(gè) FFN 子層。而右側(cè)展示的是由 N/2 個(gè) Transformer 層組成的堆疊結(jié)構(gòu),其中下層 Transformer 的 FFN 子層被替換為 MoE 層。換言之,每隔一個(gè) Transformer 層,其 FFN 子層就會(huì)被 MoE 層替代。實(shí)際應(yīng)用中,可以按指定間隔將 FFN 替換為 MoE 層。
若進(jìn)一步觀察 MoE 層,會(huì)發(fā)現(xiàn)它包含一個(gè)門控(Gating)操作和一組具有相同架構(gòu)的 FFN(與標(biāo)準(zhǔn) FFN 子層一致)。這些 FFN 層在 MoE 中被稱為“專家”,門控操作通過訓(xùn)練學(xué)習(xí)選擇激活哪些專家來處理特定輸入。
圖 2. 包含門控操作和多個(gè) FFN 專家的 MoE 層,圖片來自文獻(xiàn)[5]
MoE 的通用架構(gòu)可形式化描述如下(公式編號(hào)沿用自文獻(xiàn)[4]):
其中:
- u^l_t 和 h^l_t 分別表示第 l 層中第 t 個(gè) token 的輸入和輸出的隱藏狀態(tài)(hidden state)。
- FFN_i 是 N 個(gè)專家中的第 i 個(gè)專家。
- g_{i, t} 是第 t 個(gè) token 對(duì)第 i 個(gè)專家的門控值,該值通過對(duì) Softmax 的輸出應(yīng)用 TopK 操作獲得。
- e^l_i 在公式 (5) 中常被稱為第 i 個(gè)專家的“質(zhì)心(centroid)”,可通過聚合歷史上路由到該專家的所有輸入 token 計(jì)算得到:
該公式由原文作者創(chuàng)建
公式逐步解析(從公式 (5) 到公式 (3) 反向說明):
- 公式 (5):通過計(jì)算 u^l_t 與 e^l_i 的內(nèi)積,衡量當(dāng)前輸入 token 與歷史上路由到第 i 個(gè)專家的所有輸入 token 的均值的相似度。若專家 i 處理過大量與當(dāng)前 token 相似的輸入,則其處理當(dāng)前 token 的能力更強(qiáng)。隨后對(duì)結(jié)果應(yīng)用 Softmax,將其轉(zhuǎn)換為概率分布。由于共有 N 個(gè)專家,每個(gè) token 會(huì)得到N個(gè) s_{i, t} 值。
- 公式 (4):對(duì) s_{i, t} 值應(yīng)用 TopK 操作,生成稀疏的 g_{i, t} 值。
- 公式 (3):利用稀疏的 g_{i, t} 值選擇 K 個(gè)專家來計(jì)算輸出的隱藏狀態(tài)。
換言之,對(duì)于第 t 個(gè) token,僅會(huì)激活 N 個(gè)專家中的 K 個(gè)(通常 K 遠(yuǎn)小于 N),導(dǎo)致門控值 g_{i,t} 呈現(xiàn)稀疏性。通過這種設(shè)計(jì),模型的可訓(xùn)練參數(shù)總量會(huì)因增加的 FFN 而上升,但前向傳播時(shí)僅激活其中一小部分參數(shù)。
這正是采用 MoE 的 LLM 在描述模型規(guī)模時(shí)常用 “總參數(shù)量XX,其中每個(gè) token 激活 YY” 的原因 —— 例如 DeepSeek-V3 :
“模型總參數(shù)量 2360 億,每個(gè) token 激活 210 億參數(shù)……”
那么,如果增加更多參數(shù),MoE 有何優(yōu)勢(shì)?
1.2 MoE 的優(yōu)勢(shì)與面臨的挑戰(zhàn)
MoE 最妙的地方在于它體現(xiàn)了許多具有相似原理的現(xiàn)實(shí)場(chǎng)景,因此我們可以通過這些案例更直觀地理解它。
現(xiàn)在假設(shè)我們要為一家同時(shí)提供中餐和意大利菜的餐廳雇傭廚師,有兩種選擇:
- 選項(xiàng)1:雇傭一位同時(shí)精通中餐和意大利菜的廚師,這樣他/她可以獨(dú)自處理所有菜品。這類似于標(biāo)準(zhǔn) Transformer 模型,由單個(gè) FFN 子層處理所有輸入 token。
- 選項(xiàng)2:雇傭多位各有所長(zhǎng)的廚師(比如中餐專家和意大利菜專家),再加一位主廚根據(jù)訂單內(nèi)容指派擅長(zhǎng)該菜系的廚師處理。這類似于 MoE 方法,每個(gè)廚師充當(dāng)專家,主廚則作為門控機(jī)制(Gating)來選擇專家。
通過以上類比可以明顯看出,選項(xiàng) 2 不僅更容易招聘人才,還能保證兩種菜系都保持高水準(zhǔn)。相比之下,要找到同時(shí)精通多種菜系的單一廚師難度極大(甚至不可能),我們可能不得不降低菜品質(zhì)量要求。
回到 LLM 場(chǎng)景,構(gòu)建 MoE 的動(dòng)機(jī)部分源于“擴(kuò)展假說”(scaling hypothesis),即在大規(guī)模數(shù)據(jù)上擴(kuò)展 LLM 時(shí)更可能涌現(xiàn)出新的能力,這也是為什么我們看到現(xiàn)在 LLM 的規(guī)模越來越大的原因 —— 比如 GPT 模型已從 117M 參數(shù)擴(kuò)展到 175B 參數(shù)。
然而并非所有人都有機(jī)會(huì)訓(xùn)練如此大規(guī)模的 LLM,而 MoE 提供了一種折中方案:通過僅激活每個(gè)輸入 token 對(duì)應(yīng)的少量參數(shù),我們可以在擴(kuò)大模型規(guī)模(增加模型容量)的同時(shí),保持訓(xùn)練和推理成本可控。
如文獻(xiàn)[4]所示,你可以訓(xùn)練一個(gè) 2B 參數(shù)的模型僅激活 0.3B 參數(shù),或訓(xùn)練 16B 參數(shù)模型僅激活 2.8B 參數(shù),甚至還可以訓(xùn)練 145B 參數(shù)的模型僅激活 22.2B 參數(shù)。在每種情況下,每次僅使用總參數(shù)量的約 1/7,大大提升了訓(xùn)練和推理效率。
然而,每種設(shè)計(jì)都有其局限性,并會(huì)帶來新的挑戰(zhàn)。就 MoE 而言,其性能高度依賴門控機(jī)制的有效性 —— 因?yàn)闊o法保證門控始終將每個(gè)輸入 token 路由到最優(yōu)專家,且可能出現(xiàn)少數(shù)專家處理大部分輸入 token,而其他專家因缺乏訓(xùn)練機(jī)會(huì)無法充分發(fā)揮作用的現(xiàn)象。 這通常被稱為"專家崩潰"(expert collapse)問題。
這還會(huì)導(dǎo)致其他問題,例如負(fù)載不均衡(多數(shù) token 被路由到少數(shù)專家)和不穩(wěn)定性(當(dāng) token 被路由到未經(jīng)充分訓(xùn)練的專家時(shí)效果欠佳)。
這就是為什么我們?cè)?MoE 架構(gòu)領(lǐng)域中經(jīng)常能夠看到大量關(guān)于負(fù)載均衡的討論。
DeepSeekMoE 也提出了若干負(fù)載均衡策略,但本文將聚焦其核心創(chuàng)新點(diǎn),關(guān)于無輔助損失負(fù)載均衡(auxiliary-loss-free load balancing)[8]的深入解析將在后續(xù)文章中展開。
1.3 Knowledge Specialization vs. Knowledge Sharing
在上述餐廳案例中,我們做雇傭決策時(shí)其實(shí)也在權(quán)衡 expert specialization(譯者注:在 MoE 架構(gòu)中,每個(gè)專家能夠獲取不重疊且聚焦的知識(shí)。) 與 knowledge sharing(譯者注:指通過門控網(wǎng)絡(luò)與專家模型的協(xié)同機(jī)制,使不同專家在獨(dú)立處理特定任務(wù)的同時(shí),仍能共享底層知識(shí)或通用特征,從而提升模型的整體性能和效率。):選項(xiàng)1追求通才但可能犧牲技能深度,選項(xiàng)2追求專精。這種權(quán)衡廣泛存在于現(xiàn)實(shí)場(chǎng)景的各類組織中(如企業(yè)、團(tuán)隊(duì)等)。
在 MoE 中這種權(quán)衡同樣存在,但呈現(xiàn)形式更為隱晦。理論上,每個(gè)專家都應(yīng)具備特定領(lǐng)域的專長(zhǎng),因?yàn)槊總€(gè)專家僅處理部分輸入 token;同時(shí)所有專家仍會(huì)共享部分通用知識(shí),因?yàn)樗鼈児蚕泶罅繀?shù)。與現(xiàn)實(shí)場(chǎng)景不同,我們很難界定每個(gè)專家的專精程度及他們掌握的通用知識(shí)范圍的邊界。
權(quán)衡 expert specialization 與 knowledge sharing 是 MoE 架構(gòu)設(shè)計(jì)的關(guān)鍵考量因素,因?yàn)檫^度專精與過度冗余均非理想狀態(tài)。
在前一種情況下,過度專精的專家會(huì)導(dǎo)致訓(xùn)練和推理的不穩(wěn)定,任何次優(yōu)的路由都可能顯著影響性能。同時(shí)這往往會(huì)造成模型容量利用率不足,因?yàn)楦叨葘>膶<抑荒芴幚順O少數(shù) token。
在后一種情況下,若專家間掌握的知識(shí)過于相似,MoE 引入的額外參數(shù)將無法帶來成比例的容量提升,這顯然是對(duì)有限計(jì)算資源的浪費(fèi)。
下一節(jié)我們將看到 DeepSeekMoE 如何實(shí)現(xiàn)兩者的更優(yōu)平衡。
02 DeepSeekMoE 架構(gòu)
DeepSeekMoE 通過兩項(xiàng)關(guān)鍵技術(shù)創(chuàng)新來平衡 MoE 中的 knowledge specialization 和 knowledge sharing,即更細(xì)粒度的專家分割(fine-grained expert segmentation)和共享專家隔離(shared expert isolation)。
圖 3. DeepSeekMoE 示意圖。圖片來自文獻(xiàn)[4]。
2.1 更細(xì)粒度的專家分割
DeepSeekMoE 提出更細(xì)粒度的專家分割以促進(jìn)專家的專業(yè)化,提出該技術(shù)的想法非常簡(jiǎn)單:對(duì)于每個(gè)輸入 token,如果有更多專家被激活,那么處理該 token 所需的知識(shí)就更有可能被分解并由不同專家獲取。
在前文的餐廳案例中,就類似于將每位廚師的技能進(jìn)行專業(yè)化拆分,如下圖所示。最初,我們讓一位廚師負(fù)責(zé)所有中餐,另一位負(fù)責(zé)所有意大利菜。應(yīng)用更細(xì)粒度的專家分割(fine-grained expert segmentation)后,每種菜系所需的技能被拆分給多個(gè)專家掌握,于是我們得到一組專精中餐的廚師和另一組專精意大利菜的廚師,每位廚師只需掌握該菜系的特定技能。
圖 4. 用餐廳案例說明(a)應(yīng)用前和(b)應(yīng)用更細(xì)粒度的專家分割后的對(duì)比。由原文作者供圖。
圖 3 也說明了這一點(diǎn):子圖 (a) 中每個(gè)輸入 token 被路由到 N 個(gè)專家中的 2 個(gè),而子圖 (b) 中每個(gè) token 被路由到 2N 個(gè)專家中的 4 個(gè)。在更一般的情況下,我們可以將專家數(shù)量從 N 增加到 mN,同時(shí)將每個(gè)專家 FFN 的中間隱藏層維度降至1/m,并為每個(gè)輸入 token 激活 m 倍的專家數(shù)量。通過這種方式,(a) 和 (b) 的總體計(jì)算成本將大致保持相同。
盡管作者未對(duì)該策略的有效性提供理論證明,但他們確實(shí)設(shè)計(jì)了實(shí)驗(yàn)來驗(yàn)證這一思路,我們將在“評(píng)估”部分詳述。
2.2 共享專家隔離
DeepSeekMoE 提出的另一項(xiàng)技術(shù)是隔離部分共享專家以減少冗余,提出該技術(shù)的核心想法在于:若預(yù)留部分共享專家來學(xué)習(xí)不同任務(wù)的通用知識(shí),可給其他專家更多的自由來剝離此類通用知識(shí),從而減少非共享專家間的冗余。
在前文提到的餐廳案例中,這就類似于將所有廚師進(jìn)一步劃分為兩組(如下圖所示):上方第一組廚師掌握刀工、火候、調(diào)味等通用烹飪技能,下方第二組廚師專注于自己的特色菜品。
例如,包餃子的師傅只需專注包捏與蒸煮餃子,無需考慮擺盤技巧;意面師傅只需鉆研意面的制作,無需學(xué)習(xí)刀工。由此減少?gòu)N師間的知識(shí)冗余。
圖 5. 基于圖 4 的餐廳案例,進(jìn)一步添加共享專家隔離的示意圖。由原文作者供圖。
圖3 (c) 也展示了該策略的實(shí)現(xiàn)方式:選定一個(gè)專家作為共享專家(綠色高亮標(biāo)記),所有輸入 token 均不經(jīng)路由層(Router)直接激活該專家,同時(shí)將激活的專項(xiàng)專家數(shù)量從 4 個(gè)減至 3 個(gè),使總激活專家數(shù)量與圖 3 (b) 保持相同。
綜上,DeepSeekMoE 架構(gòu)可形式化表示為下圖右側(cè)公式(左側(cè)為傳統(tǒng) MoE 架構(gòu)作為對(duì)比):
圖 6. (左) 傳統(tǒng) MoE vs. (右) DeepSeekMoE。作者根據(jù)文獻(xiàn) [4] 中的公式繪制該圖。
其中:
- 式 (11) 與傳統(tǒng) MoE 的式 (5) 相同
- 式 (10) 與式 (4) 類似,但此處通過 TopK 從 (mN-K_s) 個(gè)專家中選擇 (mK-K_s) 個(gè),K_s 表示共享專家數(shù)量
- 式 (9) 將式 (3) 的第一項(xiàng)拆分為兩個(gè)子項(xiàng),分別對(duì)應(yīng)共享專家與路由專家
原文同樣未對(duì)該策略提供理論證明,但后續(xù)評(píng)估結(jié)果表明:引入共享專家既能提升性能,又能有效降低知識(shí)冗余。
03 Evaluation
正如前文所述,盡管兩項(xiàng)策略的直覺依據(jù)看似合理,但作者并未提供理論證明,因此我們?nèi)孕栩?yàn)證:這些策略是否真能緩解 expert specialization(譯者注:在 MoE 架構(gòu)中,每個(gè)專家能夠獲取不重疊且聚焦的知識(shí)。) 與 knowledge sharing(譯者注:指通過門控網(wǎng)絡(luò)與專家模型的協(xié)同機(jī)制,使不同專家在獨(dú)立處理特定任務(wù)的同時(shí),仍能共享底層知識(shí)或通用特征,從而提升模型的整體性能和效率。)的沖突?其有效性程度如何?
我們主要關(guān)注三個(gè)核心問題:
- DeepSeekMoE 能否取得更好效果?
- 更細(xì)粒度的專家分割能否促進(jìn) expert specialization?其作用程度如何?
- 共享專家隔離能否減少冗余?其作用程度如何?
為解答這些問題,作者設(shè)計(jì)了系列實(shí)驗(yàn),在此有必要詳述。
3.1 DeepSeekMoE能否取得更好效果?
首先驗(yàn)證該方法能否提升整體性能。作者訓(xùn)練了總參數(shù)/激活參數(shù)規(guī)模相當(dāng)?shù)亩鄠€(gè)模型,并在不同任務(wù)上評(píng)估它們的性能。主要結(jié)果如下表所示(最優(yōu)指標(biāo)用粗體標(biāo)注):
圖 7. 整體性能對(duì)比。作者根據(jù)文獻(xiàn) [4] 表 1 整理。
幾點(diǎn)啟示:
- 藍(lán)色高亮列對(duì)比標(biāo)準(zhǔn) Transformer(Dense)與兩種 MoE 架構(gòu)(Hash Layer [6]和Switch Transformer [7]):在激活參數(shù)量相近時(shí),MoE 架構(gòu)性能顯著更優(yōu)。
- 綠色高亮列進(jìn)一步比較了 DeepSeekMoE 與另一種 MoE 方法 GShard [5]:在激活參數(shù)量相近時(shí),DeepSeekMoE 性能明顯更優(yōu)。
但性能提升并不直接等同于更好地平衡了 expert specialization 與 knowledge sharing 的沖突,因此仍需其他實(shí)驗(yàn)驗(yàn)證。
3.2 DeepSeekMoE 是否促進(jìn)了專家的專業(yè)化?
直接衡量專家的專業(yè)化程度較為困難,作者轉(zhuǎn)而設(shè)計(jì)了一項(xiàng)反向?qū)嶒?yàn):禁用部分高優(yōu)先級(jí)路由專家并觀察性能變化。
從直覺上講,專家專業(yè)化程度越高時(shí)其不可替代性越強(qiáng),因此禁用高優(yōu)先級(jí)路由專家應(yīng)該會(huì)導(dǎo)致更明顯的性能下降。
更具體一點(diǎn),作者在 DeepSeekMoE 和 GShard x 1.5(作為 baseline)中逐步禁用高優(yōu)先級(jí)路由專家。兩種方法在未禁用專家時(shí)的 Pile loss 相當(dāng)(對(duì)應(yīng)下圖中禁用比例為 0 時(shí)的最左側(cè)數(shù)據(jù)點(diǎn)):
圖 8. 禁用高優(yōu)先級(jí)路由專家時(shí) DeepSeekMoE 與 GShard x 1.5 的 Pile loss 對(duì)比。圖片來自文獻(xiàn)[4]。
隨著禁用路由專家比例的增加,DeepSeekMoE 的 Pile loss 持續(xù)高于 baseline,表明其路由專家具有更強(qiáng)的專業(yè)性,因此更難被其他專家替代。
3.3 DeepSeekMoE 是否能夠減少知識(shí)冗余?
按照類似的思路,作者還嘗試禁用共享專家并額外激活了一個(gè)路由專家,以觀察共享專家是否可被替代。
實(shí)驗(yàn)結(jié)果顯示“Pile loss 從 1.808 明顯上升,至 2.414”,這證明了共享專家學(xué)習(xí)的知識(shí)具有獨(dú)特性,而路由專家未能充分覆蓋該部分知識(shí)。換言之,路由專家具有更高專業(yè)性且冗余度更低。
04 Summary
本文通過餐廳案例進(jìn)行類比,解析了 DeepSeek-V2、DeepSeek-V3 等模型的核心架構(gòu)創(chuàng)新之一 —— DeepSeekMoE。
具體而言,本文首先介紹了通用 MoE 的工作原理、優(yōu)勢(shì)及面臨的挑戰(zhàn),以及 expert specialization 與 knowledge sharing 之間的權(quán)衡關(guān)系。隨后重點(diǎn)解析了 DeepSeekMoE 的兩大核心設(shè)計(jì):更細(xì)粒度的專家分割(fine-grained expert segmentation)與共享專家隔離(shared expert isolation),并通過實(shí)驗(yàn)驗(yàn)證了其有效性。
核心結(jié)論:DeepSeekMoE 在保持與通用 MoE 架構(gòu)相當(dāng)計(jì)算成本的條件下,通過促進(jìn)專家的專業(yè)化實(shí)現(xiàn)了更優(yōu)效果,從而實(shí)現(xiàn)更高的計(jì)算效率。
參考文獻(xiàn)
[1] DeepSeek(??https://www.deepseek.com/)??
[2] DeepSeek-V3 Technical Report(??https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)??
[3] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model(??https://arxiv.org/abs/2405.04434)??
[4] DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models(??https://arxiv.org/abs/2401.06066)??
[5] GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding(??https://arxiv.org/abs/2006.16668)??
[6] Hash Layers For Large Sparse Models(??https://arxiv.org/abs/2106.04426)??
[7] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(??https://arxiv.org/abs/2101.03961)??
[8] Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts(??https://arxiv.org/abs/2408.15664)??
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
Shirley Li
I am a Machine Learning Engineer working on building multi-modality models to solve real-world problems.
END
本期互動(dòng)內(nèi)容 ??
?文章中的餐廳廚師類比是否幫助你理解了這個(gè)概念?如果讓你用身邊的例子來解釋 DeepSeekMoE 架構(gòu),你會(huì)用什么比喻?
原文鏈接:
??https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1??
