DeepSeek開(kāi)源DeepEP,公開(kāi)大模型訓(xùn)練效率暴漲秘訣!
DeepSeek開(kāi)啟了本周連續(xù)5天技術(shù)分享的第2天,開(kāi)源了專為混合專家模型(MoE)訓(xùn)練和推理設(shè)計(jì)的開(kāi)源EP通信庫(kù)——DeepEP。
值得一提的是,DeepSeek昨天開(kāi)源的FlashMLA已經(jīng)超過(guò)7000顆星,成為github霸榜項(xiàng)目。今天這個(gè)已經(jīng)破1000顆星啦。
開(kāi)源地址:https://github.com/deepseek-ai/DeepEP
通常在MoE模型中,不同的GPU節(jié)點(diǎn)往往需要分工合作處理數(shù)據(jù),而All-to-All通信是一種常見(jiàn)的模式,用來(lái)實(shí)現(xiàn)GPU之間數(shù)據(jù)的互相交換。
DeepEP通過(guò)高效且優(yōu)化的All-to-All通信機(jī)制,支持節(jié)點(diǎn)內(nèi)部和節(jié)點(diǎn)之間的通信,分別利用NVLink和RDMA實(shí)現(xiàn)。
例如,假設(shè)你有4個(gè)GPU,每個(gè)GPU專注于處理部分“專家模塊”,通過(guò)All-to-All通信,GPU1需要將部分?jǐn)?shù)據(jù)發(fā)給GPU2,同時(shí)也從GPU3接收數(shù)據(jù)。DeepEP優(yōu)化了這種通信方式,讓數(shù)據(jù)交換更快更高效。
同時(shí),DeepEP還支持高吞吐量和低延遲內(nèi)核。高吞吐量?jī)?nèi)核適用于訓(xùn)練中的數(shù)據(jù)批量處理階段,比如預(yù)填充大批量數(shù)據(jù)時(shí),能夠顯著提升訓(xùn)練速度。而低延遲內(nèi)核則針對(duì)推理解碼階段,低延遲的計(jì)算能夠讓生成結(jié)果更快。
例如,推理時(shí),如果GPT模型正在完成一句話生成,低延遲內(nèi)核會(huì)減少每個(gè)單詞生成的等待時(shí)間。
DeepEP原生支持FP8分發(fā)。FP8是一種更低精度的計(jì)算格式,相比于傳統(tǒng)的FP16或FP32,更節(jié)省顯存和計(jì)算資源,同時(shí)還能保持一定的精度。例如,在使用超大MoE模型生成文本時(shí),使用FP8可以顯著減少計(jì)算成本,DeepEP天生支持這種低精度操作。
此外,DeepEP還實(shí)現(xiàn)了計(jì)算與通信的重疊。在深度學(xué)習(xí)中,通信(傳輸數(shù)據(jù))和計(jì)算往往是分階段進(jìn)行的,而DeepEP可以讓這兩者同時(shí)進(jìn)行,進(jìn)一步提升整體效率。例如,在訓(xùn)練過(guò)程中,一個(gè)GPU可以在等待通信完成的同時(shí),繼續(xù)處理其他計(jì)算任務(wù),從而避免浪費(fèi)時(shí)間。
網(wǎng)友表示,DeepSeek 對(duì)混合專家模型的優(yōu)化程度令人矚目,這類模型因其規(guī)模和復(fù)雜性而極難處理。DeepEP利用 NVLink 和 RDMA 等前沿硬件,如此精準(zhǔn)地應(yīng)對(duì)挑戰(zhàn)并支持 FP8 數(shù)據(jù)格式,實(shí)在是太厲害了。
更多 CUDA 內(nèi)核!又是出色的成果!
DeepEP來(lái)了,它將給 AI 模型訓(xùn)練帶來(lái)革命性變化!
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
