自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<wbr id="iyfk6"></wbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepSeek今日連開3源！針對優(yōu)化的并行策略，梁文鋒本人參與開發(fā)

作者：量子位 2025-02-27 13:10:00

人工智能開源

DualPipe從時間上優(yōu)化了計算與通信的調(diào)度，EPLB從空間上平衡利用計算資源，Profiling Data則提供了前兩者在實(shí)際應(yīng)用中效果的可視化證據(jù)。

按時整活！

DeepSeek開源周第四天，直接痛快「1日3連發(fā)」，且全都圍繞一個主題：

優(yōu)化并行策略。

DualPipe：一種創(chuàng)新的雙向流水線并行算法，能夠完全重疊前向和后向計算-通信階段，并減少“流水線氣泡”。它通過對稱的微批次調(diào)度，優(yōu)化了并行計算效率。
Expert Parallelism Load Balancer (EPLB)：用于MoE的負(fù)載均衡算法，通過復(fù)制高負(fù)載專家并智能地分配專家到不同GPU上，確保計算資源的均衡利用。它包含兩種政策：層次化負(fù)載均衡和全局負(fù)載均衡。
Profiling Data：訓(xùn)練和推理框架的性能分析數(shù)據(jù)，展示了通信-計算重疊策略和底層實(shí)現(xiàn)細(xì)節(jié)。

這三者中，DualPipe從時間上優(yōu)化了計算與通信的調(diào)度，EPLB從空間上平衡利用計算資源，Profiling Data則提供了前兩者在實(shí)際應(yīng)用中效果的可視化證據(jù)。

且DualPipe的開發(fā)團(tuán)隊中包括梁文鋒本人。

發(fā)布后10分鐘不到，3者在GitHub上的星標(biāo)已經(jīng)破300了，且其中DualPipe的星標(biāo)飆升最快。

而DeepSeek一發(fā)推，網(wǎng)友的留言也排山倒海一般撲面而來，幾乎都是不吝溢美之詞：

好活！令人興奮！
優(yōu)化策略可以重新定義行業(yè)的性能。

Day 4，直接1日3連發(fā)

DualPipe

DualPipe是在DeepSeek-V3中首次出現(xiàn)雙向流水線并行算法，現(xiàn)在代碼完全開源。

它實(shí)現(xiàn)了前向與后向計算-通信階段的完全重疊，還減少了流水線氣泡（即某些設(shè)備在某些時刻空閑等待）。

DualPipe采用了雙向微批次調(diào)度策略，其核心特點(diǎn)是：

對稱設(shè)計：反向方向的微批次與前向方向?qū)ΨQ排列，形成一種幾何平衡的調(diào)度結(jié)構(gòu)
計算-通信重疊：兩個共享黑色邊框的單元格表示相互重疊的計算和通信過程
雙向并行：同時在兩個方向上推進(jìn)微批次，最大化硬件利用率

傳統(tǒng)流水線并行方法如1F1B（one-forward-one-backward）在處理多GPU場景時會產(chǎn)生大量氣泡。

DualPipe通過重新安排微批次執(zhí)行順序，和對稱結(jié)構(gòu)緩解這個問題。

EPLB

EPLB適用于V3/R1的專家并行負(fù)載均衡器，解決MoE模型在分布式訓(xùn)練和推理中的負(fù)載不平衡問題。

在MoE架構(gòu)中，不同的輸入會激活不同的專家，可能導(dǎo)致某些專家過載，進(jìn)一步造成不同GPU的利用率不平衡。

EPLB采用“redundant experts”（冗余專家）策略：

識別高負(fù)載專家→復(fù)制多個副本分配到不同GPU→在推理時動態(tài)分配輸入到負(fù)載較輕的專家副本。

并帶有兩種普通的策略：

分層負(fù)載平衡，專家并行較小的預(yù)填充階段使用。
全局負(fù)載平衡，在專家并行規(guī)模較大的解碼階段采用。

V3/R1中的計算通信重疊分析數(shù)據(jù)

開源第四彈的part 3，DeepSeek公開分享了來自訓(xùn)練和推理框架的分析數(shù)據(jù)，以幫助社區(qū)更好地了解通信計算重疊策略和低級實(shí)現(xiàn)細(xì)節(jié)。

GitHub上注明，分析數(shù)據(jù)是使用PyTorch Profiler捕獲的。

下載后，開發(fā)者可以通過導(dǎo)航到Chrome瀏覽器中的chrome://tracing（或Edge瀏覽器中的edge://tracing）將它進(jìn)行可視化。

Attention please——DeepSeek模擬了一個絕對平衡的MoE路由策略進(jìn)行分析。

首先，訓(xùn)練階段。

訓(xùn)練配置文件數(shù)據(jù)演示了DeepSeek在DualPipe中，對一對單獨(dú)的向前和向后數(shù)據(jù)塊的重疊策略。

每個數(shù)據(jù)塊包含4個MoE 層。

并行配置與DeepSeek-V3預(yù)訓(xùn)練設(shè)置一致EP64、TP1具有4K序列長度。

為簡單起見，在profilng期間不包括PP通信。

其次，推理階段。

1）預(yù)填充。

對于預(yù)填充，配置文件使用EP32和TP1（與DeepSeek V3/R1的實(shí)際在線部署一致），提示長度設(shè)置為4K，每個GPU的批量大小為16Ktokens。

在預(yù)填充階段，DeepSeek利用兩個微批次來重疊計算和多對多通信，同時確保注意力計算負(fù)載在兩個微批次之間平衡

——這意味著相同的提示可以在它們之間分配。

2）解碼。

（注：相關(guān)數(shù)據(jù)尚未準(zhǔn)備就緒，將于稍后發(fā)布）

解碼方面，該配置文件采用了EP128、TP1和4K的提示長度（與實(shí)際在線部署配置非常匹配），每個GPU的批量大小為128個請求。

與預(yù)填充類似，解碼還利用兩個微批處理進(jìn)行重疊計算和多對多通信。

但與預(yù)填充不同的是，解碼期間的all-to-all通信不會占用GPU SM：

發(fā)出RDMA消息后，所有GPU SM都會被釋放，系統(tǒng)在計算完成后等待all-to-all通信完成。

有關(guān)all-to-all實(shí)現(xiàn)的更多信息，請參考開源周第二彈DeepEP。

One More Thing

“大放異彩！”

對于第四彈的開源內(nèi)容，網(wǎng)友是這么感慨的。

目前看來，DeepSeek開源周的前4天，都挺令追更群眾們滿意。

尤其是這次開源周全部瞄準(zhǔn)大模型的Infra層。

追更看客們表示：

更好的團(tuán)隊合作不僅是團(tuán)隊管理優(yōu)化的一部分，更是實(shí)現(xiàn)頂級AI性能的秘訣。
DeepSeek正在創(chuàng)建新的標(biāo)準(zhǔn)，大規(guī)模訓(xùn)練的未來就在咱們眼前！

好了，DeepSeek開源周，明天就是最后一天了，不知道會有什么壓軸登場？

責(zé)任編輯：張燕妮來源：量子位

DeepSeek 開源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="xs3z8"><p id="xs3z8"></p></blockquote>

^{<blockquote id="xs3z8"></blockquote>}^{<blockquote id="xs3z8"></blockquote>}

<p id="xs3z8"><li id="xs3z8"><pre id="xs3z8"></pre></li></p>

<blockquote id="xs3z8"><i id="xs3z8"></i></blockquote>

<sub id="xs3z8"><s id="xs3z8"></s></sub>

<cite id="xs3z8"><rp id="xs3z8"><form id="xs3z8"></form></rp></cite>

<style id="xs3z8"></style>