自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="tpt0g"></sub>

<sub id="tpt0g"><p id="tpt0g"></p></sub>

^{<blockquote id="tpt0g"></blockquote>}

<legend id="tpt0g"><abbr id="tpt0g"><dfn id="tpt0g"></dfn></abbr></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大模型面經(jīng)——MoE混合專家模型總結原創(chuàng)

發(fā)布于 2024-10-17 11:31

瀏覽

0收藏

?本篇將介紹MoE（Mixture of Experts，混合專家模型）相關面試題。

以下是一個快捷目錄：

一、MoE介紹

二、MoE出現(xiàn)的背景

三、有哪些MoE模型

四、介紹稀疏 MoE 層

五、介紹門控網(wǎng)絡或路由

六、為什么門控網(wǎng)絡要引入噪聲呢

七、如何均衡專家間的負載

八、“專家”指什么

九、專家的數(shù)量對預訓練有何影響？

十、什么是topK門控

十一、MoE模型的主要特點

十二、MoE和稠密模型的對比

十三、MoE的優(yōu)勢

十四、MoE的挑戰(zhàn)

十五、微調MoE的方法

十六、MoE的并行計算

回答

一、MoE介紹

"Mixture of Experts"（MoE）是一種機器學習模型，特別是在深度學習領域中，它屬于集成學習的一種形式。MoE模型由多個專家（experts）和一個門控網(wǎng)絡（gating network）組成。每個專家負責處理輸入數(shù)據(jù)的不同部分或不同特征，而門控網(wǎng)絡則負責決定每個輸入應該由哪個專家來處理。

例如，在下圖中，“More”這個 token 被發(fā)送到第二個專家，而“Parameters”這個 token 被發(fā)送到第一個專家。

大模型面經(jīng)——MoE混合專家模型總結-AI.x社區(qū)

二、MoE出現(xiàn)的背景

本質上來說就是一種高效的 scaling 技術，用較少的 compute 實現(xiàn)更大的模型規(guī)模，從而獲得更好的性能。

三、有哪些MoE模型

Switch Transformers、Mixtral、GShard、DBRX、Jamba DeepSeekMoE 等等。

以Mixtral為例

Mixtral 是一個稀疏的專家混合網(wǎng)絡。它是一個decoder-only的模型，其中前饋塊從一組 8 個不同的參數(shù)組中選擇。在每一層，對于每個令牌，路由器網(wǎng)絡選擇其中兩個組（“專家”）來處理令牌并附加地組合他們的輸出。

大模型面經(jīng)——MoE混合專家模型總結-AI.x社區(qū)

混合專家層

這種技術在控制成本和延遲的同時增加了模型的參數(shù)數(shù)量，因為模型只使用每個令牌總參數(shù)集的一小部分。具體來說，Mixtral 總共有 46.7B 個參數(shù)，但每個令牌只使用 12.9B 個參數(shù)。因此，它以與 12.9B 型號相同的速度和相同的成本處理輸入和生成輸出。

Mixtral 基于從開放 Web 中提取的數(shù)據(jù)進行預訓練——同時培訓專家和路由器。

四、介紹稀疏 MoE 層

稀疏 MoE 層一般用來替代傳統(tǒng) Transformer 模型中的前饋網(wǎng)絡 (FFN) 層。MoE 層包含若干“專家”(例如 8 個)，每個專家本身是一個獨立的神經(jīng)網(wǎng)絡。在實際應用中，這些專家通常是前饋網(wǎng)絡 (FFN)，但它們也可以是更復雜的網(wǎng)絡結構，甚至可以是 MoE 層本身，從而形成層級式的 MoE 結構。

五、介紹門控網(wǎng)絡或路由

門控網(wǎng)絡接收輸入數(shù)據(jù)并執(zhí)行一系列學習的非線性變換。這一過程產(chǎn)生了一組權重，這些權重表示了每個專家對當前輸入的貢獻程度。通常，這些權重經(jīng)過softmax等函數(shù)的處理，以確保它們相加為1，形成了一個概率分布。這樣的分布表示了在給定輸入情境下每個專家被激活的概率。一個典型的門控函數(shù)通常是一個帶有 softmax 函數(shù)的簡單的網(wǎng)絡。

六、為什么門控網(wǎng)絡要引入噪聲呢

為了專家間的負載均衡。也即防止一句話中的大部分token都只有一個專家來處理，剩下的七個專家（假設一共八個專家）“無所事事”。

七、如何均衡專家間的負載

引入噪聲、引入輔助損失（鼓勵給予所有專家相同的重要性）、引入隨機路由、設置一個專家能處理的token數(shù)量上限

八、“專家”指什么

一個“專家”通常是前饋網(wǎng)絡 (FFN)。數(shù)據(jù)經(jīng)過門控網(wǎng)絡選擇后進入每個專家模型，每個專家根據(jù)其設計和參數(shù)對輸入進行處理。每個專家產(chǎn)生的輸出是對輸入數(shù)據(jù)的一種表示，這些表示將在后續(xù)的步驟中進行加權聚合?；蛘咄ㄟ^單個專家模型進行處理。

九、專家的數(shù)量對預訓練有何影響？

增加更多專家可以提升處理樣本的效率和加速模型的運算速度，但這些優(yōu)勢隨著專家數(shù)量的增加而遞減 (尤其是當專家數(shù)量達到 256 或 512 之后更為明顯)。同時，這也意味著在推理過程中，需要更多的顯存來加載整個模型。值得注意的是，Switch Transformers 的研究表明，其在大規(guī)模模型中的特性在小規(guī)模模型下也同樣適用，即便是每層僅包含 2、4 或 8 個專家。

十、什么是topK門控

選擇前k個專家。為什么不僅選擇最頂尖的專家呢？最初的假設是，需要將輸入路由到不止一個專家，以便門控學會如何進行有效的路由選擇，因此至少需要選擇兩個專家。

十一、MoE模型的主要特點：

靈活性：每個專家可以是不同類型的模型，例如全連接層、卷積層或者遞歸神經(jīng)網(wǎng)絡。
可擴展性：通過增加專家的數(shù)量，模型可以處理更復雜的任務。
并行處理：不同的專家可以并行處理數(shù)據(jù)，這有助于提高模型的計算效率。
動態(tài)權重分配：門控網(wǎng)絡根據(jù)輸入數(shù)據(jù)的特點動態(tài)地為每個專家分配權重，這樣模型可以更加靈活地適應不同的數(shù)據(jù)。
容錯性：即使某些專家表現(xiàn)不佳，其他專家的表現(xiàn)也可以彌補，從而提高整體模型的魯棒性。

十二、moe和稠密模型的對比

1、預訓練

相同計算資源，MoE 模型理論上可以比密集模型更快達到相同的性能水平。

2、推理

moe：高顯存，高吞吐量；

稠密模型：低顯存，低吞吐量

十三、moe的優(yōu)勢

1、訓練優(yōu)勢：預訓練速度更快；

2、推理優(yōu)勢：推理速度更快

十四、moe的挑戰(zhàn)

1、訓練挑戰(zhàn)：微調階段，泛化能力不足，容易過擬合

2、推理挑戰(zhàn)：對顯存的要求更高

十五、微調moe的方法

1、凍結所有非專家層的權重，專門只訓練專家層

2、只凍結moe層參數(shù)，訓練其它層的參數(shù)

十六、moe的并行計算

大模型面經(jīng)——MoE混合專家模型總結-AI.x社區(qū)

圖片來源：b站算法豬立業(yè)

參考資料

??https://blog.csdn.net/2201_75499313/article/details/136412787??

??https://www.zhihu.com/question/634844209/answer/3467132890??

??https://zhuanlan.zhihu.com/p/674698482??

???https://b23.tv/jCL0r4N??

?

文轉載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/b_FeWWHcwXPxAC_SL6ABfg???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

Mixtral：數(shù)據(jù)流中的生成式稀疏專家混合模型

51CTO內容精選 ? 2882瀏覽 ? 0回復
【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型

sbf_2000 ? 3398瀏覽 ? 0回復
32專家MoE大模型免費商用！性能全面對標Llama3，單token推理消耗僅5.28%

Crystalcxt ? 2544瀏覽 ? 0回復
為什么最新的LLM使用混合專家(MoE)架構

51CTO內容精選 ? 2919瀏覽 ? 0回復
大模型面經(jīng)——以醫(yī)療領域為例，整理RAG基礎與實際應用中的痛點

shizhi02 ? 2619瀏覽 ? 0回復
大模型面經(jīng)——LoRA最全總結

shizhi02 ? 2434瀏覽 ? 0回復
大模型面經(jīng)——Langchain總結

shizhi02 ? 2004瀏覽 ? 0回復
大模型面經(jīng)—RAG工程實踐經(jīng)驗總結

shizhi02 ? 2234瀏覽 ? 0回復
大模型面經(jīng)—分布式訓練指南

shizhi02 ? 1934瀏覽 ? 0回復
史上參數(shù)最大，開源專家混合模型

Aceryt ? 1810瀏覽 ? 0回復
「混合專家模型」可視化指南：A Visual Guide to MoE

Baihai_IDP ? 3062瀏覽 ? 0回復
大模型面經(jīng)—如何評估顯卡利用率及顯卡運用優(yōu)化方法

shizhi02 ? 2466瀏覽 ? 0回復
漫畫混合專家（MoE）

sulu637 ? 1455瀏覽 ? 0回復
掰細了講混合專家模型MoE的內部結構

智駐未來 ? 2493瀏覽 ? 0回復
大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 1890瀏覽 ? 0回復
KIMI 月之暗面提出（MoBA）大模型長文本處理新解法：塊注意力混合

AI論文解讀 ? 2591瀏覽 ? 0回復
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 2209瀏覽 ? 0回復
大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設計最優(yōu)解決方案？

shizhi02 ? 1099瀏覽 ? 0回復
騰訊二面真題：DeepSeek對MoE架構做了哪些改進？

丁師兄大模型 ? 913瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設計最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布
ZeroHSI-一種零樣本的四維人類-場景交互合成方法 2025-03-24 13:12:04發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：多模態(tài)大模型中，多模態(tài)融合后怎樣知道最終結果受哪種模態(tài)影響更大？

下一篇： Ultralytics新作-YOLOv11

社區(qū)精華內容

目錄

<style id="c389e"></style>

<sub id="c389e"><rt id="c389e"></rt></sub>

<sub id="c389e"><i id="c389e"></i></sub>

<sub id="c389e"></sub>

<legend id="c389e"><track id="c389e"></track></legend>

<blockquote id="c389e"><p id="c389e"></p></blockquote>

<cite id="c389e"><rp id="c389e"><form id="c389e"></form></rp></cite>