自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<rt id="r1l3u"></rt>

<thead id="r1l3u"><tbody id="r1l3u"></tbody></thead><pre id="r1l3u"><dfn id="r1l3u"></dfn></pre>

<cite id="r1l3u"><rp id="r1l3u"><form id="r1l3u"></form></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

騰訊二面真題：DeepSeek對(duì)MoE架構(gòu)做了哪些改進(jìn)？

丁師兄大模型

發(fā)布于 2025-4-18 06:00

瀏覽

0收藏

DeepSeek 對(duì) MoE 架構(gòu)做了哪些改進(jìn)？跟 Mixtral 的 MoE 有什么不同？這個(gè)是我的學(xué)員最近面試某個(gè)大模型獨(dú)角獸遇到的一道面試題。

1.面試官心理分析

這篇文章，我們就從面試官的角度來(lái)分析一下，如果你在面試現(xiàn)場(chǎng)被問(wèn)到這個(gè)題目，應(yīng)該如何作答？

面試官問(wèn)這個(gè)問(wèn)題，它其實(shí)是想考你什么？

第一，Mixtral 大模型采用的 MoE 架構(gòu)長(zhǎng)什么樣？
第二，就是 DeepSeek 的 MoE 做了哪些改進(jìn)，這樣改進(jìn)的動(dòng)機(jī)是什么？

2.面試題解析

要回答 DeepSeek 的 MoE 改進(jìn)，我們先來(lái)看看，最原始的 MoE 網(wǎng)絡(luò)長(zhǎng)什么樣子？以及它是怎么工作的？

這張圖是 Mixtral 8x7B 的 MoE 架構(gòu)：

騰訊二面真題：DeepSeek對(duì)MoE架構(gòu)做了哪些改進(jìn)？-AI.x社區(qū)

其核心思想很直觀，它實(shí)際上用了 8 個(gè)7B的“專家”模型，當(dāng) MoE 與Transformer 相結(jié)合時(shí)，會(huì)用稀疏 MoE 層替換掉某些前饋層。

MoE 層包含了一個(gè)路由網(wǎng)絡(luò)，用于選擇將輸入 token 分派給哪些專家處理，Mixtral 模型為每個(gè)詞元選擇 top-K 個(gè)專家，那在圖中是選擇兩個(gè)。

因?yàn)槊看沃患せ畈糠值膶＜?，所以其解碼速度能做到與 14B 模型相當(dāng)，也就極大的提高了模型的推理效率。

好，了解了最原始的 MoE 架構(gòu)，我們?cè)賮?lái)看看，DeepSeek 是怎么改進(jìn)的？

看這張圖，其實(shí) DeepSeek 的主要改動(dòng)點(diǎn)，就是把專家分成了兩撥，分別是 Shared Expert 和 Routed Expert。

騰訊二面真題：DeepSeek對(duì)MoE架構(gòu)做了哪些改進(jìn)？-AI.x社區(qū)

通俗來(lái)講，就好比學(xué)校的常駐教授和客座教授，常駐教授是一直在的，而客座教授則經(jīng)常會(huì)變，不同的教學(xué)主題，有不同的客座教授。

在 DeepSeek 的 MoE 中，Shared Expert 是一直激活的，也就是輸入的 token 會(huì)被 Shared Expert 計(jì)算，Routed Expert 和普通的 MoE 一樣，要先計(jì)算相似度，也就是專家的得分，再選擇 top-k 進(jìn)行推理。

但是我們分析 DeepSeek 的源碼可以發(fā)現(xiàn)，代碼實(shí)際在計(jì)算 top-k 時(shí)，會(huì)先將 N 個(gè) Expert 進(jìn)行分組 n_groups，將每個(gè)組中 top-2 個(gè)專家的相似度得分加起來(lái)，算出得分最高的那些 top_k_group 組，然后在這些組里選擇 top-k 個(gè)專家。

最后將所有的 Shared Expert 輸出和 Routed Expert 輸出做加權(quán)相加，得到 MoE 層的最終輸出。

這里 Deepseek-v3 和 Deepseek-R1 采用了 256 個(gè) Routed Expert 和 1個(gè) Shared Expert，并在 Router 中選出 8 個(gè)來(lái)，參數(shù)量是 671B，而實(shí)際激活的參數(shù)量只有 37B。

好，現(xiàn)在我們答出了 DeepSeek 對(duì) MoE 架構(gòu)的改進(jìn)點(diǎn)，面試官可能會(huì)繼續(xù)追問(wèn)：那它為什么要這樣改進(jìn)呢？這樣改進(jìn)有什么好處？

實(shí)際上這種設(shè)計(jì)主要是基于以下兩點(diǎn)考慮：

第一，原始的 MoE 會(huì)產(chǎn)生較多的冗余，一個(gè)想法就是抽取一個(gè) Shared Expert 出來(lái)處理通用知識(shí)，其他的 Routed Expert 來(lái)處理差異性的知識(shí)。

通過(guò)隔離 Shared Expert，以減輕 Routed Expert 所需要學(xué)習(xí)的知識(shí)量，從而減少路由專家之間的冗余。

第二個(gè)考慮是高效計(jì)算的層面，MoE 模型在訓(xùn)練的時(shí)候，會(huì)花費(fèi)大量的時(shí)候來(lái)做通訊，因?yàn)?expert 會(huì)分散到不同的設(shè)備上，從而降低巨大的總參數(shù)量帶來(lái)的顯存消耗。

一種解決思路是：在通訊流處在工作狀態(tài)的時(shí)候，同時(shí)用計(jì)算流進(jìn)行后續(xù)的運(yùn)算，從而隱藏掉部分通訊時(shí)間。

Shared Expert 的計(jì)算與 Routed Expert 通訊是不依賴的，因此可以使用通訊隱藏，從而比普通的 MoE 結(jié)構(gòu)計(jì)算更高效。

?本文轉(zhuǎn)載自???丁師兄大模型??，作者：丁師兄

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

如何借助假設(shè)文檔嵌入改進(jìn)語(yǔ)義搜索？

51CTO內(nèi)容精選 ? 3129瀏覽 ? 0回復(fù)
多模態(tài)CoT思維鏈架構(gòu)來(lái)了，現(xiàn)已開源｜來(lái)自廈大&騰訊優(yōu)圖

Crystalcxt ? 3008瀏覽 ? 0回復(fù)
AI編碼，真需求還是噱頭？

51CTO技術(shù)棧 ? 2776瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 2919瀏覽 ? 0回復(fù)
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 2429瀏覽 ? 0回復(fù)
DeepSeek-VL2開源，VLM邁入MoE時(shí)代！

xuxiangda ? 2811瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告

歐米伽未來(lái)研究所 ? 6056瀏覽 ? 0回復(fù)
DeepSeek 驚艷背后的技術(shù)架構(gòu)創(chuàng)新剖析

玄姐聊AGI ? 8209瀏覽 ? 0回復(fù)
DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？

輕薄滴假象 ? 1780瀏覽 ? 0回復(fù)
聊聊DeepSeek大模型對(duì)AI Agent的影響

王吉偉自頻道 ? 1827瀏覽 ? 0回復(fù)
秒開率從 18% 到 64%，我們對(duì)小程序模擬器做了什么？

快手技術(shù) ? 1623瀏覽 ? 0回復(fù)
接入 Deepseek 能讓百度文庫(kù)煥發(fā)第二春?jiǎn)幔?/a>

老蛀蟲 ? 1529瀏覽 ? 0回復(fù)
中國(guó)第二個(gè)DeepSeek，Manus發(fā)布通用AI Agent，震驚國(guó)外

Aceryt ? 1898瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 2006瀏覽 ? 0回復(fù)
DeepSeek 模型架構(gòu)的特殊選擇

amei2000go ? 1361瀏覽 ? 0回復(fù)
AI浪潮下，對(duì)DeepSeek發(fā)展的哲學(xué)新思考

51CTO內(nèi)容精選 ? 1202瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)演進(jìn)：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計(jì)實(shí)現(xiàn)

玄姐聊AGI ? 3512瀏覽 ? 0回復(fù)
騰訊Hunyuan-T1來(lái)襲：Mamba架構(gòu)重塑語(yǔ)言模型推理能力

Halo咯咯 ? 895瀏覽 ? 0回復(fù)
突破傳統(tǒng)“非此即彼”，真靈魂P(guān)圖！騰訊最新FlexIP黑科技：身份保持和個(gè)性化我都要！

angel ? 879瀏覽 ? 0回復(fù)

丁師兄大模型

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek如何用MTP逆天改命？ 10h前發(fā)布
寫給大模型新人的經(jīng)驗(yàn)，刷到少走三年彎路！ 2025-02-03 13:29:25發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：寫給大模型新人的經(jīng)驗(yàn)，刷到少走三年彎路！

下一篇： DeepSeek如何用MTP逆天改命？

社區(qū)精華內(nèi)容

目錄

<thead id="byyle"></thead>