自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek 開源進(jìn)度 2/5:首個用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 DeepEP

人工智能 開源
DeepSeek 的“開源周”活動今日已經(jīng)來到第二天,今天發(fā)布的是首個開源的用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 ——DeepEP。

2 月 25 日消息,DeepSeek 的“開源周”活動今日已經(jīng)來到第二天,今天發(fā)布的是首個開源的用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 ——DeepEP。

IT之家附開源地址:https://github.com/deepseek-ai/DeepEP

官方表示其具備如下特征:

  • 高效優(yōu)化的全到全通信方式
  • 支持節(jié)點(diǎn)內(nèi)外通信,兼容 NVLink 和 RDMA 技術(shù)
  • 提供高吞吐量的內(nèi)核,提升訓(xùn)練和推理前期填充效率
  • 提供低延遲內(nèi)核,優(yōu)化推理解碼速度
  • 完全支持 FP8 數(shù)據(jù)格式調(diào)度
  • 提供靈活的 GPU 資源管理,支持計(jì)算與通信的重疊執(zhí)行

詳細(xì)介紹的大意如下:

DeepEP 是一款專為混合專家(MoE)和專家并行(EP)設(shè)計(jì)的通信庫,提供了高吞吐量和低延遲的 all-to-all GPU 內(nèi)核,常用于 MoE 派發(fā)和合并操作。該庫還支持低精度計(jì)算,包括 FP8。

為了與 DeepSeek-V3 論文中提出的組限制門控算法兼容,DeepEP 提供了一些針對不對稱帶寬轉(zhuǎn)發(fā)優(yōu)化的內(nèi)核,比如將數(shù)據(jù)從 NVLink 域轉(zhuǎn)發(fā)到 RDMA 域。這些優(yōu)化的內(nèi)核能夠提供高吞吐量,適合用于訓(xùn)練和推理的預(yù)填充任務(wù),同時支持 SM(流式多處理器)數(shù)量控制。

對于延遲敏感型的推理解碼任務(wù),DeepEP 提供了一套低延遲內(nèi)核,采用純 RDMA 技術(shù)以最大程度減少延遲。此外,該庫還采用了一種基于 Hook 的通信與計(jì)算重疊方法,不會占用任何 SM 資源。

需求:

  • Hopper GPUs (may support more architectures or devices later)
  • Python 3.8 及以上版本
  • CUDA 12.3 及以上版本
  • PyTorch 2.1 及以上版本
  • 使用 NVLink 進(jìn)行節(jié)點(diǎn)間通信
  • 基于 RDMA 網(wǎng)絡(luò)的節(jié)點(diǎn)間通信
責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2025-02-25 12:08:26

2025-02-25 18:41:39

2025-02-27 09:06:34

2025-02-07 14:04:44

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-02-17 03:00:00

LLMsMoELLM

2024-05-07 08:04:09

代碼格式化工具

2025-03-19 09:20:00

2018-12-06 10:07:49

微軟機(jī)器學(xué)習(xí)開源

2024-01-12 17:25:45

MoE模型開源人工智能

2025-04-30 09:19:32

2025-02-25 14:46:59

2025-03-11 08:37:42

2025-02-27 09:40:00

2024-05-07 11:42:54

MoE模型GPT-4

2025-03-07 09:57:01

2024-05-07 13:07:03

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號