自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="nvk5a"></tfoot>

<style id="nvk5a"><kbd id="nvk5a"></kbd></style>

<style id="nvk5a"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么原創(chuàng) 精華

九歌AI大模型

發(fā)布于 2025-3-13 12:48

瀏覽

0收藏

你有沒有想過，為什么當(dāng)紅炸子雞DeepSeek這樣的大語言模型能夠又快又好地回答各種問題，而且成本又那么低？秘密之一就在于它使用的"混合專家"（Mixture of Experts，簡(jiǎn)稱MoE）架構(gòu)。本文將用通俗易懂的語言，解釋MoE是什么，它如何工作，以及為什么它如此重要。

MoE是什么？

想象一下一所大學(xué)：

傳統(tǒng)模型就像一位超級(jí)教授，必須精通所有學(xué)科，從文學(xué)到物理，從歷史到計(jì)算機(jī)科學(xué)。每個(gè)問題都由這位教授獨(dú)自解答。
MoE模型則像一所設(shè)有多個(gè)系的大學(xué)，有文學(xué)教授、物理教授、歷史教授等。每當(dāng)有問題來臨，先由"導(dǎo)師"(Router)決定該問問哪個(gè)或哪幾個(gè)教授，然后綜合他們的答案。

這就是MoE的核心思想：分工合作，各盡所長(zhǎng)。

MoE架構(gòu)的基本組成

MoE架構(gòu)主要由三部分組成：

專家網(wǎng)絡(luò)：多個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)，每個(gè)專注于處理特定類型的任務(wù)
路由器：決定將輸入分配給哪些專家處理
組合器：將選中專家的答案加權(quán)組合成最終輸出

一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么-AI.x社區(qū)

下面用一個(gè)簡(jiǎn)單的Python代碼來描述這個(gè)結(jié)構(gòu)：

import torch
import torch.nn as nn


# 一個(gè)簡(jiǎn)單的專家網(wǎng)絡(luò)
class SimpleExpert(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleExpert, self).__init__()
        self.network = nn.Sequential(
            nn.Linear(input_size, hidden_size),
            nn.ReLU(),
            nn.Linear(hidden_size, output_size)
        )


    def forward(self, x):
        return self.network(x)


# 簡(jiǎn)化版的MOE模型
class SimpleMOE(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, num_experts=4):
        super(SimpleMOE, self).__init__()


        # 創(chuàng)建多個(gè)專家
        self.experts = nn.ModuleList([
            SimpleExpert(input_size, hidden_size, output_size) 
            for _ in range(num_experts)
        ])


        # 路由器：決定用哪個(gè)專家
        self.router = nn.Linear(input_size, num_experts)


    def forward(self, x):
        # 1. 路由器計(jì)算每個(gè)專家的權(quán)重
        router_outputs = torch.softmax(self.router(x), dim=-1)


        # 2. 獲取權(quán)重最高的兩位專家
        top_k_weights, top_k_indices = torch.topk(router_outputs, k=2, dim=-1)


        # 3. 歸一化權(quán)重，使它們的和為1
        top_k_weights = top_k_weights / top_k_weights.sum(dim=-1, keepdim=True)


        # 4. 初始化最終輸出
        final_output = torch.zeros_like(x)


        # 5. 對(duì)于每個(gè)樣本
        for i in range(x.shape[0]):
            # 6. 計(jì)算并組合所選專家的輸出
            for j in range(2):  # 兩位專家
                expert_idx = top_k_indices[i, j]
                weight = top_k_weights[i, j]


                # 獲取專家輸出
                expert_output = self.experts[expert_idx](x[i:i+1])


                # 加權(quán)組合
                final_output[i:i+1] += weight * expert_output


        return final_output

MoE的工作流程

讓我們用一個(gè)就醫(yī)的例子來解釋MoE的工作流程：

你來到醫(yī)院（輸入數(shù)據(jù)進(jìn)入模型）
前臺(tái)接待（路由器）詢問你的癥狀
前臺(tái)決定將你轉(zhuǎn)診給心臟科醫(yī)生和肺科醫(yī)生（選擇適合的專家）
兩位醫(yī)生分別給出診斷（專家處理信息）
綜合考慮兩位醫(yī)生的意見，前臺(tái)給你最終的治療方案（組合專家輸出）

在DeepSeek中，這個(gè)過程是這樣的：

文本輸入模型
路由器分析每個(gè)詞（token）應(yīng)該交給哪些專家處理
被選中的專家（通常是2個(gè)）處理這個(gè)詞
組合器將專家的輸出按權(quán)重合并
形成最終的表示，繼續(xù)后續(xù)處理

為什么MoE這么厲害？

1. 更高效的計(jì)算

假設(shè)有一個(gè)具有8個(gè)專家的MOE模型，每次只用2個(gè)專家：

普通模型：處理1個(gè)詞 = 使用100%的計(jì)算資源
MOE模型：處理1個(gè)詞 = 使用約25%的計(jì)算資源（2/8）

這意味著同樣的計(jì)算資源，MOE模型可以處理更多信息或使用更大的模型！

2. 更大的模型容量

傳統(tǒng)模型增加參數(shù)量必然增加計(jì)算量，而MoE可以增加大量參數(shù)而只小幅增加計(jì)算量。例如：

8個(gè)專家，每次用2個(gè) = 參數(shù)量是普通模型的4倍，但計(jì)算量只增加約50%

這就像擁有8本厚厚的專業(yè)書，但每次只需查閱其中2本，既有龐大的知識(shí)庫，又能快速找到答案。

MoE的關(guān)鍵技術(shù)挑戰(zhàn)及解決方案

挑戰(zhàn)1：專家不平衡問題

問題：有些專家可能總是被選中，有些卻幾乎不用。就像醫(yī)院里心臟科醫(yī)生忙得不可開交，而皮膚科醫(yī)生卻無人問津。

解決方案：負(fù)載均衡。DeepSeek使用一種特殊的訓(xùn)練目標(biāo)，鼓勵(lì)路由器平均分配任務(wù)：

def simple_load_balancing(router_probs, num_experts):
    """簡(jiǎn)單的負(fù)載均衡計(jì)算"""
    # 計(jì)算每個(gè)專家實(shí)際使用頻率
    expert_usage = router_probs.sum(dim=0) / router_probs.shape[0]


    # 理想情況下每個(gè)專家使用率相等
    ideal_usage = torch.ones_like(expert_usage) / num_experts


    # 計(jì)算實(shí)際與理想的差距作為損失
    balance_loss = ((expert_usage - ideal_usage) ** 2).sum()


    return balance_loss

挑戰(zhàn)2：通信開銷

在大型分布式系統(tǒng)中，專家可能分布在不同機(jī)器上，數(shù)據(jù)傳輸會(huì)成為瓶頸。

解決方案：DeepSeek對(duì)數(shù)據(jù)進(jìn)行批量處理，減少傳輸次數(shù)，就像醫(yī)院會(huì)集中安排同類患者在特定時(shí)段就診，而不是隨到隨診。

DeepSeek-MoE架構(gòu)

在DeepSeek模型中，MoE主要用在Transformer的前饋網(wǎng)絡(luò)(FFN)部分。簡(jiǎn)單來說：

保留標(biāo)準(zhǔn)的自注意力機(jī)制不變
將原來的單一前饋網(wǎng)絡(luò)替換為多個(gè)專家網(wǎng)絡(luò)
添加路由機(jī)制決定使用哪些專家
其他部分（如注意力層、層歸一化等）保持不變

這種設(shè)計(jì)讓模型在不改變整體架構(gòu)的情況下獲得MoE的好處。

# 簡(jiǎn)化版的DeepSeek MOE架構(gòu)
class SimpleDeepSeekMOELayer(nn.Module):
def __init__(self, hidden_size, num_experts=8, k=2):
        super(SimpleDeepSeekMOELayer, self).__init__()


# 自注意力層（保持不變）
        self.attention = nn.MultiheadAttention(hidden_size, num_heads=8)
        self.norm1 = nn.LayerNorm(hidden_size)


# MOE替代標(biāo)準(zhǔn)FFN
        self.moe = SimpleMOE(
            input_size=hidden_size,
            hidden_size=hidden_size*4,
            output_size=hidden_size,
            num_experts=num_experts
        )
        self.norm2 = nn.LayerNorm(hidden_size)


def forward(self, x):
# 自注意力部分
        residual = x
        x = self.attention(x, x, x)[0]
        x = self.norm1(x + residual)


# MOE部分
        residual = x
        x = self.moe(x)
        x = self.norm2(x + residual)


return x

MoE的實(shí)際優(yōu)勢(shì)

規(guī)模效益：DeepSeek能夠建立更大的模型而不增加太多計(jì)算成本
專業(yè)分工：不同專家可以專注于不同類型的知識(shí)，提高模型處理多樣化任務(wù)的能力
推理加速：通過只激活部分網(wǎng)絡(luò)，大大加快了響應(yīng)速度
靈活擴(kuò)展：可以輕松添加更多專家來擴(kuò)充模型能力

結(jié)論

MoE架構(gòu)就像是一個(gè)高效的團(tuán)隊(duì)合作系統(tǒng)，它讓DeepSeek能夠擁有龐大的知識(shí)庫和處理能力，同時(shí)保持響應(yīng)迅速。通過"專家分工"，MOE模型解決了大型語言模型面臨的計(jì)算效率與模型容量之間的矛盾，代表了未來AI發(fā)展的重要方向。

相比讓一個(gè)人掌握所有知識(shí)，讓一群專家各司其職，并在需要時(shí)協(xié)作解決問題，這才是更聰明、更高效的方式。這正是DeepSeek采用MOE架構(gòu)的核心思想。

本文轉(zhuǎn)載自公眾號(hào)九歌AI大模型作者：九歌AI

原文鏈接：??https://mp.weixin.qq.com/s/lC29mMhgqJXwGzcLCZASBg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

MoE架構(gòu)

已于2025-3-13 12:49:53修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

我們要的到底是什么

ermulong ? 3080瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 6970瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 2915瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

AI探索時(shí)代 ? 7503瀏覽 ? 0回復(fù)
一文讀懂OpenGVLab帶來的最新視覺預(yù)訓(xùn)練框架

魯班模錘1 ? 1995瀏覽 ? 0回復(fù)
一文讀懂：從RAG到多模態(tài)RAG

kede96 ? 3714瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 3223瀏覽 ? 0回復(fù)
一文讀懂LLMs的幻覺問題和對(duì)策

數(shù)字化助推器 ? 2285瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

xuxiangda ? 4323瀏覽 ? 0回復(fù)
被 DeepSeek 帶火的蒸餾到底是啥

芝士AI吃魚 ? 4920瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1：大語言模型推理能力進(jìn)化的秘密武器

十一月雨_55 ? 4881瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
一文讀懂 PPO 與 GRPO：LLM 訓(xùn)練的關(guān)鍵算法

鴻煊的學(xué)習(xí)筆記 ? 5276瀏覽 ? 0回復(fù)
一文讀懂AI智能體的原理類型、功能優(yōu)勢(shì)和最常見使用場(chǎng)景

數(shù)字化助推器 ? 4523瀏覽 ? 0回復(fù)
別慌一文讀懂AI智能體常見的九種設(shè)計(jì)模式

數(shù)字化助推器 ? 2139瀏覽 ? 0回復(fù)
一文讀懂 RAG 中的 embedding model

鴻煊的學(xué)習(xí)筆記 ? 2370瀏覽 ? 0回復(fù)
一文讀懂AI智能體融合與數(shù)據(jù)隱私安全問題

數(shù)字化助推器 ? 1084瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 1440瀏覽 ? 0回復(fù)
一文了解：大模型 Agent 開發(fā)框架有哪些？它們的區(qū)別是什么？

AI小新 ? 126瀏覽 ? 0回復(fù)

九歌AI大模型

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

如何在Dify工作流節(jié)點(diǎn)中使用Coze的插件商店 5天前發(fā)布
我悟了！論MCP Server與工作流在智能體開發(fā)場(chǎng)景中的作用和區(qū)別 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：極簡(jiǎn)LangChain智能體開發(fā)入門指南

下一篇：大模型時(shí)代的知識(shí)工程：企業(yè)級(jí)智能知識(shí)庫構(gòu)建與增強(qiáng)指南

社區(qū)精華內(nèi)容

目錄

<cite id="1nhsg"><track id="1nhsg"></track></cite>

<sub id="1nhsg"></sub>