自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

DeepSeek 開源 V3/R1 架構(gòu)設計思路，原來 545% 的利潤率，它也只是被逼無奈？

作者：架構(gòu)師之路 2025-03-20 09:00:00

開發(fā) 架構(gòu) 人工智能

如果所有tokens全部按照R1的定價計算，理論上DeepSeek一天的總收入為$562,027，成本利潤率545%。

開源周的最后一天，DeepSeek分享了DeepSeek-V3/R1的架構(gòu)設計思路，讓大家能夠更系統(tǒng)更全面的了解其推理系統(tǒng)的設計過程，以及更深刻的理解之前開源的6個項目。

DeepSeek-V3/R1推理系統(tǒng)的核心目標是什么？

通過軟件架構(gòu)的優(yōu)化，達到：

更高的吞吐量；
更低的延時；

為什么DeepSeek要走這一條路？

曾經(jīng)AI技術(shù)發(fā)展，GPU就是瓶頸。

GPU是瓶頸的時候，有兩條路可走：

其一，水平擴展scale out：囤卡，堆GPU；
其二，垂直擴展scale up：GPU升級換代；

但這兩條路，都被死死的卡在漂亮國的手里。

卡，限制你，不讓你囤。

先進的卡，不賣給你，誰叫你你落后5年。

為了突破瓶頸，DeepSeek被逼無奈的走出了第三條路：通過軟件優(yōu)化架構(gòu)優(yōu)化。

為了達成目標，DeepSeek的核心方案是啥？

大規(guī)模的跨節(jié)點專家并行EP，Expert Parallelism。

通過提升專家并行EP的數(shù)量（batch size），提升GPU矩陣乘法的效率，提高吞吐；與此同時，多專家分散在不同的GPU，每個GPU只需要計算更少的專家，訪問更少的數(shù)據(jù)，從而降低延遲。

大規(guī)模的跨節(jié)點專家并行EP，會對軟件架構(gòu)帶來什么新的挑戰(zhàn)？

EP跨節(jié)點傳輸，要解決傳輸與計算并行的問題；
EP多節(jié)點聯(lián)動，要解決數(shù)據(jù)分發(fā)匯總，負載均衡等問題；

大規(guī)模的跨節(jié)點專家并行EP的部署與策略是怎么樣的？

由于V3/R1的專家數(shù)量眾多，并且每層256個專家中僅激活其中8個，DeepSeek采用多機多卡間的專家并行策略來達到以下目的：

Prefill預填充階段：路由專家EP-32、MLA和共享專家DP-32，一個部署單元是4節(jié)點，32個冗余路由專家，每張卡9個路由專家和1個共享專家；
Decode解碼階段：路由專家EP-144、MLA和共享專家DP-144，一個部署單元是18節(jié)點，32個冗余路由專家，每張卡2個路由專家和1個共享專家；

這兩個階段的負載均衡策略各不相同。

如何解決計算與傳輸并行的問題？

多機多卡的專家并行會引入比較大的通信開銷，所以DeepSeek使用雙向通道，提高整體吞吐。

預填充階段：計算和通信交錯進行，一個通道計算的時候，另一個通道通信。

解碼階段類似：計算與通訊交錯進行，通過流水線來實現(xiàn)計算和通信的重疊。

如何最大程度的負載均衡？

由于采用了很大規(guī)模的數(shù)據(jù)并行與專家并行，如果某個GPU的計算或通信負載過重，單個長尾將成為整個系統(tǒng)的瓶頸。與此同時其他GPU因為等待而空轉(zhuǎn)，造成整體資源利用率下降。因此必須盡可能地為每個GPU平均分配計算負載、通信負載。

預填充階段（prefilling stage）：

專家組分配到節(jié)點，保證節(jié)點負載均衡；
節(jié)點內(nèi)復制專家；
專家分配到GPUs，保證GPUs負載均衡；

解碼階段（decoding stage）：

全局復制專家，不管專家在哪個組；
專家分配到GPUs，保證GPUs負載均衡；

總而言之，保證負載均衡，充分發(fā)揮GPUs的潛力，提升訓練效率，縮短訓練時間。

其整體架構(gòu)如下：

V3/R1的所有GPU均使用H800 GPU：

矩陣計算，分發(fā)：采用FP8格式；
核心注意力計算，合并：采用BF16格式；

同時兼顧效率與質(zhì)量。

另外，由于白天的服務負荷高，晚上的服務負荷低，因此DeepSeek實現(xiàn)了一套機制：

在白天負荷高的時候，所有節(jié)點部署推理服務；
晚上負荷低的時候，減少推理節(jié)點，以用來做研究和訓練；

綜上所述，如果所有tokens全部按照R1的定價計算，理論上DeepSeek一天的總收入為$562,027，成本利潤率545%。

到這里，DeepSeek開源周的所有7個項目就寫完了，最后再來個匯總：

1. 《FlashMLA：GPU告訴解碼器》

2. 《DeepEP：MOE與EP通訊庫》

3. 《DeepGEMM：FP8通用矩陣乘法庫》

4. 《DualPipe：雙向管道并行算法》

5. 《EPLB：EP動態(tài)負載均衡算法》

6. 《3FS：高性能分布式文件系統(tǒng)》

7. 《V3/R1架構(gòu)設計思路（本文）》

補充閱讀材料：https://github.com/deepseek-ai/

官方git，可參考。

責任編輯：趙寧寧來源：架構(gòu)師之路

DeepSeek 架構(gòu)V3/R1

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<p id="ivunn"><li id="ivunn"><pre id="ivunn"></pre></li></p>

<sub id="ivunn"></sub>

<sub id="ivunn"><p id="ivunn"><li id="ivunn"></li></p></sub>