DeepSeek 開源第二彈 DeepEP,但它究竟是個啥?(終于懂了...)
deepseek開源周,繼Flash-MLA之后,開源了第二彈DeepEP。
畫外音:上一頓還沒消化完,新的大餐又來了。
今天簡單聊聊:
- 吃瓜:DeepEP是干嘛的?
- 技術(shù):DeepEP是怎么做到的?
- 普通人有什么用:對寫提示詞有什么啟示?
一、DeepEP是干嘛的?
DeepEP,Distributed Expert Parallel Communication Library,是為混合專家MOE與并行專家EP量身定制(tailored)的通信庫(communication library)。
1. DeepEP通訊庫能達到什么效果?
- 降低延時;
- 提升吞吐量;
其背后就是:訓(xùn)練/計算更快,成本更低,模型迭代更快。
二、它是怎么做到的?
核心思路:優(yōu)化MOE混合專家節(jié)點間的數(shù)據(jù)分發(fā)與合并。
1. 什么是混合專家MOE?
混合專家,Mixture of Experts,該模型思路不再追求大而全,轉(zhuǎn)而追求多而專精。它會將任務(wù)動態(tài)路由給各個領(lǐng)域?qū)<?,并將各個領(lǐng)域?qū)<业妮敵鲞M行組合。
舉個容易理解的例子。
- 大而全模型:全棧工程師。
- 混合專家模型:Java,F(xiàn)E,QA,DBA,OP工程師...
2. 有了MOE之后,對LLM的架構(gòu)有什么影響?
(1) 學(xué)習(xí)與訓(xùn)練階段
之前:追求多參數(shù)
如今:訓(xùn)練多專家Expert(例如:1萬個專家,每個專家單一職責(zé)SRP)
(2) 計算與執(zhí)行階段
之前:收到提示詞input,一上來就干
如今:
- 先判斷,需要幾個專家(分類任務(wù),很容易);
- 動態(tài)路由(需要一個門控網(wǎng)絡(luò)作為協(xié)調(diào)者,Gating Network),分發(fā)任務(wù)給專家,專家并行計算;
- 組合專家輸出, 協(xié)調(diào)者再統(tǒng)籌輸出;
新的模式,不管是訓(xùn)練階段還是執(zhí)行階段,專家節(jié)點之間都需要進行大量的通訊,而DeepEP就好比節(jié)點間的智能物流:
- NVLink優(yōu)化,好比建成城際高鐵,負責(zé)同一節(jié)點內(nèi)專家高速通訊,交換數(shù)據(jù),帶寬高達160GB/s,接近硬件極限;
- RDMA優(yōu)化,好比建成跨城磁懸浮,負責(zé)跨節(jié)點專家高速通訊,跨節(jié)點直接訪問內(nèi)存,帶寬高達50GB/s;
- FP8優(yōu)化,低精度運算,好比貨物壓縮,更省空間,能交換更多信息;
這些優(yōu)化對deepseek非常的重要:
- 專家分發(fā)(Dispatch):數(shù)據(jù)快速精準分配給多個專家;
- 數(shù)據(jù)合并(Combine):匯總各個專家的處理結(jié)果,統(tǒng)籌形成最終數(shù)據(jù);
三、對我們普通人寫提示詞有什么啟示?
為了充分發(fā)揮deepseek的混合專家MOE的最大潛力,可以顯性告訴它,你希望它扮演哪些專家角色來回復(fù)問題。
(1) bad case:如何設(shè)計高并發(fā)高可用系統(tǒng)?
這樣的提示詞,你會得到一個泛泛而談的回答。
(2) good case:假設(shè)你是由以下專家組成的團隊:
- 分布式領(lǐng)域系統(tǒng)架構(gòu)師
- 電商領(lǐng)域業(yè)務(wù)架構(gòu)師
- 資深DBA
請分別從各自領(lǐng)域提出5項技術(shù)選型建議,并組合設(shè)計方案滿足每秒10萬次交易,數(shù)據(jù)滿足最終一致性,故障恢復(fù)時間小于30秒的系統(tǒng)。
沒錯,你不止可以讓deepseek扮演一個角色,你甚至可以讓他扮演專家團的多個角色。此時處理時間并不會顯著增長,但輸出質(zhì)量會顯著提高。
節(jié)省訓(xùn)練資源,縮短回復(fù)時間,提升回答質(zhì)量,多個專家還能夠交叉驗證(大而全模型可能過擬合),deepseek創(chuàng)新性使用MOE之后,很快就得到了業(yè)界的廣泛認可與復(fù)制。
稍作總結(jié):
- DeepEP,是為混合專家MOE量身定制的通信庫;
- DeepEP的核心思路是:優(yōu)化MOE混合專家節(jié)點間的數(shù)據(jù)分發(fā)與合并;
- 提示詞層面:通過讓deepseek顯示扮演專家團的多個角色,能充分發(fā)揮deepseek的混合專家MOE機制,不會顯著增加處理時間,但能顯著提升輸出質(zhì)量;
一切的一切,提示詞只有適配了AI的認知模式,才能最高效的發(fā)揮最大的作用。
知其然,知其所以然。
思路比結(jié)論更重要。