自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="7vvfx"></meter>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepSeek 開源第二彈 DeepEP，但它究竟是個啥？（終于懂了...）

作者：58沈劍 2025-02-27 09:40:00

繼Flash-MLA之后，開源了第二彈DeepEP。但它究竟是個啥？今天我們就來聊一聊。

deepseek開源周，繼Flash-MLA之后，開源了第二彈DeepEP。

畫外音：上一頓還沒消化完，新的大餐又來了。

今天簡單聊聊：

吃瓜：DeepEP是干嘛的？
技術(shù)：DeepEP是怎么做到的？
普通人有什么用：對寫提示詞有什么啟示？

一、DeepEP是干嘛的？

DeepEP，Distributed Expert Parallel Communication Library，是為混合專家MOE與并行專家EP量身定制（tailored）的通信庫（communication library）。

1. DeepEP通訊庫能達到什么效果？

降低延時；
提升吞吐量；

其背后就是：訓(xùn)練/計算更快，成本更低，模型迭代更快。

二、它是怎么做到的？

核心思路：優(yōu)化MOE混合專家節(jié)點間的數(shù)據(jù)分發(fā)與合并。

1. 什么是混合專家MOE？

混合專家，Mixture of Experts，該模型思路不再追求大而全，轉(zhuǎn)而追求多而專精。它會將任務(wù)動態(tài)路由給各個領(lǐng)域?qū)＜?，并將各個領(lǐng)域?qū)＜业妮敵鲞M行組合。

舉個容易理解的例子。

大而全模型：全棧工程師。
混合專家模型：Java，F(xiàn)E，QA，DBA，OP工程師...

2. 有了MOE之后，對LLM的架構(gòu)有什么影響？

(1) 學(xué)習(xí)與訓(xùn)練階段

之前：追求多參數(shù)

如今：訓(xùn)練多專家Expert（例如：1萬個專家，每個專家單一職責(zé)SRP）

(2) 計算與執(zhí)行階段

之前：收到提示詞input，一上來就干

如今：

先判斷，需要幾個專家（分類任務(wù)，很容易）；
動態(tài)路由（需要一個門控網(wǎng)絡(luò)作為協(xié)調(diào)者，Gating Network），分發(fā)任務(wù)給專家，專家并行計算；
組合專家輸出，協(xié)調(diào)者再統(tǒng)籌輸出；

新的模式，不管是訓(xùn)練階段還是執(zhí)行階段，專家節(jié)點之間都需要進行大量的通訊，而DeepEP就好比節(jié)點間的智能物流：

NVLink優(yōu)化，好比建成城際高鐵，負責(zé)同一節(jié)點內(nèi)專家高速通訊，交換數(shù)據(jù)，帶寬高達160GB/s，接近硬件極限；
RDMA優(yōu)化，好比建成跨城磁懸浮，負責(zé)跨節(jié)點專家高速通訊，跨節(jié)點直接訪問內(nèi)存，帶寬高達50GB/s；
FP8優(yōu)化，低精度運算，好比貨物壓縮，更省空間，能交換更多信息；

這些優(yōu)化對deepseek非常的重要：

專家分發(fā)（Dispatch）：數(shù)據(jù)快速精準分配給多個專家；
數(shù)據(jù)合并（Combine）：匯總各個專家的處理結(jié)果，統(tǒng)籌形成最終數(shù)據(jù)；

三、對我們普通人寫提示詞有什么啟示？

為了充分發(fā)揮deepseek的混合專家MOE的最大潛力，可以顯性告訴它，你希望它扮演哪些專家角色來回復(fù)問題。

(1) bad case：如何設(shè)計高并發(fā)高可用系統(tǒng)？

這樣的提示詞，你會得到一個泛泛而談的回答。

(2) good case：假設(shè)你是由以下專家組成的團隊：

分布式領(lǐng)域系統(tǒng)架構(gòu)師
電商領(lǐng)域業(yè)務(wù)架構(gòu)師
資深DBA

請分別從各自領(lǐng)域提出5項技術(shù)選型建議，并組合設(shè)計方案滿足每秒10萬次交易，數(shù)據(jù)滿足最終一致性，故障恢復(fù)時間小于30秒的系統(tǒng)。

沒錯，你不止可以讓deepseek扮演一個角色，你甚至可以讓他扮演專家團的多個角色。此時處理時間并不會顯著增長，但輸出質(zhì)量會顯著提高。

節(jié)省訓(xùn)練資源，縮短回復(fù)時間，提升回答質(zhì)量，多個專家還能夠交叉驗證（大而全模型可能過擬合），deepseek創(chuàng)新性使用MOE之后，很快就得到了業(yè)界的廣泛認可與復(fù)制。

稍作總結(jié)：

DeepEP，是為混合專家MOE量身定制的通信庫；
DeepEP的核心思路是：優(yōu)化MOE混合專家節(jié)點間的數(shù)據(jù)分發(fā)與合并；
提示詞層面：通過讓deepseek顯示扮演專家團的多個角色，能充分發(fā)揮deepseek的混合專家MOE機制，不會顯著增加處理時間，但能顯著提升輸出質(zhì)量；

一切的一切，提示詞只有適配了AI的認知模式，才能最高效的發(fā)揮最大的作用。

知其然，知其所以然。

思路比結(jié)論更重要。

責(zé)任編輯：趙寧寧來源：架構(gòu)師之路

DeepSeek AI 開源

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="ac95f"></cite>