自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià) 精華

發(fā)布于 2025-2-27 12:40
瀏覽
0收藏

DeepSeek 的開(kāi)源周已經(jīng)進(jìn)行到了第四天(前三天報(bào)道見(jiàn)文末「相關(guān)閱讀」)。今天這家公司一口氣發(fā)布了兩個(gè)工具和一個(gè)數(shù)據(jù)集:DualPipe、EPLB 以及來(lái)自訓(xùn)練和推理框架的分析數(shù)據(jù)。


DeepSeek 表示,DualPipe 曾在 V3/R1 的訓(xùn)練中使用,是一種用于計(jì)算 - 通信重疊的雙向 pipeline 并行算法。


EPLB 是為 V3/R1 打造的專(zhuān)家 - 并行負(fù)載均衡器。


而公布訓(xùn)練和推理框架的分析數(shù)據(jù)是為了幫助社區(qū)更好地理解通信 - 計(jì)算重疊策略和底層實(shí)現(xiàn)細(xì)節(jié)。


DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

  • DualPipe 鏈接:https://github.com/deepseek-ai/DualPipe
  • EPLB 鏈接:https://github.com/deepseek-ai/eplb
  • 計(jì)算分析鏈接:https://github.com/deepseek-ai/profile-data


值得一提的是,在 DualPipe 的 GitHub 上,DeepSeek 創(chuàng)始人梁文鋒位列開(kāi)發(fā)者行列之中。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

技術(shù)語(yǔ)言可能不好理解,我們來(lái)看一下網(wǎng)友給出的比喻:


想象一下,訓(xùn)練一個(gè)龐大的語(yǔ)言模型就像指揮一個(gè)交響樂(lè)團(tuán)。每個(gè) GPU 就像一位音樂(lè)家,執(zhí)行其分配的計(jì)算任務(wù),而訓(xùn)練框架則充當(dāng)指揮,保持一切完美同步。在典型設(shè)置中,音樂(lè)家們可能需要等待彼此,造成尷尬的停頓。這些延遲,被稱(chēng)為流水線氣泡,會(huì)減慢整個(gè)過(guò)程。


DualPipe 通過(guò)允許不同部分并行工作來(lái)消除這些低效,就像弦樂(lè)部演奏的同時(shí)銅管部也在排練。這種努力的重疊確保沒(méi)有停機(jī)時(shí)間。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

有網(wǎng)友評(píng)價(jià)說(shuō),「DualPipe 不僅僅是另一種流水線并行實(shí)現(xiàn)。它解決的根本問(wèn)題是標(biāo)準(zhǔn)流水線并行中固有的低效率。傳統(tǒng)方法如 1F1B(一次前向,一次后向)甚至 Zero Bubble(ZB1P)都存在流水線氣泡 —— 即各計(jì)算單元等待數(shù)據(jù)時(shí)的空閑時(shí)間。DualPipe 旨在實(shí)現(xiàn)前向和后向計(jì)算 - 通信階段的完全重疊,最大限度地減少了這些氣泡?!?/p>

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

而關(guān)于 EPLB,我們可以這么理解:傳統(tǒng)的數(shù)據(jù)并行就像給每個(gè)人一份整個(gè)項(xiàng)目的副本 —— 既浪費(fèi)又緩慢。專(zhuān)家并行(EP),即每個(gè)專(zhuān)家駐留在不同的 GPU 上,如果可以平衡負(fù)載,則效率要高得多。EPLB 就是為了解決這種專(zhuān)家失衡問(wèn)題而設(shè)計(jì)的。這不僅僅是分配專(zhuān)家;它是關(guān)于智能地分配它們,以最大限度地提高 GPU 利用率和最小化通信開(kāi)銷(xiāo)。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

到現(xiàn)在為止,DeepSeek 似乎已經(jīng)把發(fā)布 V3、R1 模型時(shí)未公布的很多訓(xùn)練、部署細(xì)節(jié)也公開(kāi)了出來(lái)。人們不僅可以在此基礎(chǔ)上更好地使用 DeepSeek 模型,在使用其他大模型時(shí)也能獲得助益。


明天周五,是開(kāi)源周的最后一天,DeepSeek 有可能用 R2 來(lái)收尾嗎?

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

讓我們先來(lái)看看今天開(kāi)源的三個(gè)項(xiàng)目。

DualPipe

DualPipe 是在 DeepSeek-V3 技術(shù)報(bào)告中引入的一種創(chuàng)新的雙向流水線并行算法。它實(shí)現(xiàn)了前向和后向計(jì)算 - 通信階段的完全重疊,同時(shí)減少了流水線氣泡。有關(guān)計(jì)算 - 通信重疊的詳細(xì)信息,請(qǐng)參閱配置文件數(shù)據(jù):https://github.com/deepseek-ai/profile-data

調(diào)度

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

DualPipe 調(diào)度示例:8 個(gè) 流水線并行(PP)級(jí)別和 20 個(gè)雙向 micro-batch。反向的 micro-batch 與前向的 micro-batch 對(duì)稱(chēng),因此圖中省略了它們的 batch ID 。被共享的黑色邊框包圍的兩個(gè)單元格具有相互重疊的計(jì)算和通信。


有網(wǎng)友制作了 DualPipe 與其他兩種方法 ——1F1B and ZB1P 的對(duì)比圖:    


DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

Pipeline 氣泡和內(nèi)存使用情況比較

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

?? 表示前向數(shù)據(jù)塊的執(zhí)行時(shí)間,?? 表示完整后向數(shù)據(jù)塊的執(zhí)行時(shí)間,?? 表示「權(quán)重后向」數(shù)據(jù)塊的執(zhí)行時(shí)間,??&?? 表示兩個(gè)相互重疊的前向和后向數(shù)據(jù)塊的執(zhí)行時(shí)間。


DualPipe由Jiashi Li、Chengqi Deng、梁文鋒創(chuàng)建和開(kāi)發(fā)。更多信息請(qǐng)參見(jiàn)GitHub代碼庫(kù)。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

EPLB

在使用專(zhuān)家并行(Expert Parallelism,EP)時(shí),不同的專(zhuān)家被分配到不同的 GPU 上。由于不同專(zhuān)家的負(fù)載可能會(huì)根據(jù)當(dāng)前工作負(fù)載而變化,保持不同 GPU 之間的負(fù)載平衡非常重要。正如 DeepSeek-V3 論文中所描述的,工程師們采用了冗余專(zhuān)家策略,復(fù)制高負(fù)載的專(zhuān)家。然后,DeepSeek 通過(guò)啟發(fā)式方法將這些復(fù)制的專(zhuān)家打包到 GPU 上,以確保不同 GPU 之間的負(fù)載平衡。


此外,得益于 DeepSeek-V3 中使用的組限制專(zhuān)家路由(group-limited expert routing),DeepSeek 工程師還盡可能地將同一組的專(zhuān)家放置在同一節(jié)點(diǎn)上,以減少節(jié)點(diǎn)間的數(shù)據(jù)傳輸。


為了便于復(fù)現(xiàn)和部署,DeepSeek 在 eplb.py 中開(kāi)源了部署的 EP 負(fù)載平衡算法。該算法根據(jù)估計(jì)的專(zhuān)家負(fù)載計(jì)算出一個(gè)平衡的專(zhuān)家復(fù)制和放置方案。請(qǐng)注意,預(yù)測(cè)專(zhuān)家負(fù)載的確切方法超出了本倉(cāng)庫(kù)的范圍。一種常見(jiàn)的方法是使用歷史統(tǒng)計(jì)數(shù)據(jù)的移動(dòng)平均值。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

DeepSeek Infra 中的數(shù)據(jù)分析

DeepSeek 公開(kāi)分享了自身的訓(xùn)練和推理框架分析數(shù)據(jù),以幫助社區(qū)更好地了解通信計(jì)算重疊策略和低級(jí)實(shí)現(xiàn)細(xì)節(jié)。該分析數(shù)據(jù)是使用 PyTorch Profiler 捕獲的。下載后,人們可以通過(guò)在 Chrome 瀏覽器中導(dǎo)航到 chrome://tracing(或在 Edge 瀏覽器中導(dǎo)航到 edge://tracing)來(lái)直接對(duì)其進(jìn)行可視化。


DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

訓(xùn)練配置文件數(shù)據(jù)展示了 DeepSeek 在 DualPipe 中針對(duì)一對(duì)單獨(dú)的前向和后向塊的重疊策略。每個(gè)塊包含 4 個(gè) MoE(專(zhuān)家混合)層。并行配置與 DeepSeek-V3 預(yù)訓(xùn)練設(shè)置一致:EP64、TP1 具有 4K 序列長(zhǎng)度。并且為簡(jiǎn)單起見(jiàn),在分析過(guò)程中不包括 PP 通信。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

在推理上,對(duì)于預(yù)填充,該配置文件采用 EP32 和 TP1(與 DeepSeek V3/R1 的實(shí)際在線部署一致),提示長(zhǎng)度設(shè)置為 4K,每 GPU 的批大小為 16K 個(gè) token。在預(yù)填充階段,DeepSeek 使用兩個(gè) micro-batch 來(lái)重疊計(jì)算和全對(duì)全通信,同時(shí)確保注意力計(jì)算負(fù)載在兩個(gè)微批次之間保持平衡 —— 這意味著同一個(gè)提示可以在它們之間拆分。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

對(duì)于解碼,該配置文件采用 EP128、TP1 和 4K 的提示長(zhǎng)度(與實(shí)際的在線部署配置非常接近),每個(gè) GPU 的批處理大小為 128 個(gè)請(qǐng)求。與預(yù)填充類(lèi)似,解碼也利用兩個(gè) micro-batch 進(jìn)行重疊計(jì)算和全對(duì)全通信。但是,與預(yù)填充不同,解碼期間的全對(duì)全通信不占用 GPU SM:發(fā)出 RDMA 消息后,所有 GPU SM 都被釋放,系統(tǒng)等待計(jì)算完成后全對(duì)全通信完成。

DeepSeek 錯(cuò)峰優(yōu)惠,半夜跑 AI 更省錢(qián)

除了持續(xù)開(kāi)源,DeepSeek 這兩天還宣布了一些重要消息:一是恢復(fù) API 開(kāi)放平臺(tái)充值;二是北京時(shí)間每日 00:30 至 08:30 的夜間空閑時(shí)段,推出錯(cuò)峰優(yōu)惠活動(dòng)。在此期間,API 調(diào)用價(jià)格大幅下調(diào):DeepSeek-V3 降至原價(jià)的 50%,DeepSeek-R1 更低至 25%。這一使用方式被網(wǎng)友稱(chēng)為「峰谷 token」。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

有人利用峰谷電特點(diǎn)半夜洗碗、烘衣服,自然也有人半夜跑 AI 任務(wù)。有用戶表示,「一些批量的任務(wù)可以到晚上讓它自動(dòng)運(yùn)行了」「DeepSeek 是懂年輕人的」。


而在大洋彼岸,需要 DeepSeek 的打工人正常時(shí)段就可以享受到優(yōu)惠,美國(guó)打工人高呼「真香」。

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

所以,現(xiàn)在壓力給到了其他 API 供應(yīng)商,這波降價(jià)潮,其他家跟不跟?  

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目,還有梁文鋒親自參與,昨晚API大降價(jià)-AI.x社區(qū)

本文轉(zhuǎn)自 機(jī)器之心  ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/aeK5eJMwqNuqJaZczKrhgQ??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦