DeepSeek開(kāi)源通用矩陣乘法庫(kù)，300行代碼加速V3、R1，R2被曝五月前問(wèn)世

作者：機(jī)器之心 2025-02-26 11:13:51

適用于常規(guī) AI 模型和 MoE。

DeepSeek 的開(kāi)源周已經(jīng)進(jìn)行到了第三天（前兩天報(bào)道見(jiàn)文末「相關(guān)閱讀」）。今天開(kāi)源的項(xiàng)目名叫 DeepGEMM，是一款支持密集型和專(zhuān)家混合（MoE）GEMM 的 FP8 GEMM 庫(kù)，為 V3/R1 的訓(xùn)練和推理提供了支持，在 Hopper GPU 上可以達(dá)到 1350+ FP8 TFLOPS 的計(jì)算性能。

具體來(lái)說(shuō)，DeepGEMM 是一個(gè)旨在實(shí)現(xiàn)簡(jiǎn)潔高效的 FP8 通用矩陣乘法（GEMM）的庫(kù)，它采用了 DeepSeek-V3 中提出的細(xì)粒度 scaling 技術(shù)。該庫(kù)支持普通 GEMM 以及專(zhuān)家混合（MoE）分組 GEMM。該庫(kù)采用 CUDA 編寫(xiě)，在安裝過(guò)程中無(wú)需編譯，而是通過(guò)一個(gè)輕量級(jí)的 Just-In-Time（JIT）模塊在運(yùn)行時(shí)編譯所有內(nèi)核。

目前，DeepGEMM 僅支持英偉達(dá) Hopper 張量核心。為了解決 FP8 張量核心累加不精確的問(wèn)題，它采用了 CUDA 核心的兩級(jí)累加（提升）機(jī)制。盡管它借鑒了 CUTLASS 和 CuTe 的一些概念，但避免了對(duì)其模板或代數(shù)的重度依賴(lài)。相反，該庫(kù)的設(shè)計(jì)注重簡(jiǎn)潔性，僅包含一個(gè)核心內(nèi)核函數(shù)，代碼量?jī)H為 300 行。這使其成為學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化技術(shù)的一個(gè)簡(jiǎn)潔且易于獲取的資源。

盡管設(shè)計(jì)輕量，DeepGEMM 在各種矩陣形狀上的性能與專(zhuān)家調(diào)優(yōu)的庫(kù)相當(dāng)，甚至在某些情況下更優(yōu)。

開(kāi)源地址：https://github.com/deepseek-ai/DeepGEMM

早期試用者評(píng)價(jià)說(shuō)，「DeepGEMM 聽(tīng)起來(lái)就像是數(shù)學(xué)界的超級(jí)英雄。它比高速計(jì)算器還快，比多項(xiàng)式方程還強(qiáng)大。我試著用了一下，現(xiàn)在我的 GPU 都在炫耀它的 1350+ TFLOPS，仿佛已經(jīng)準(zhǔn)備好參加 AI 奧賽了！」

這個(gè)計(jì)算性能如果加上高質(zhì)量的數(shù)據(jù)，沒(méi)準(zhǔn)兒能貢獻(xiàn)更大的驚喜？

除了性能，「300 行代碼的性能超越了專(zhuān)家調(diào)優(yōu)的內(nèi)核」同樣讓不少人感到驚訝，有人認(rèn)為「要么 DeepSeek 破解了 GPU 矩陣的奧秘，要么我們剛剛見(jiàn)證了最高等級(jí)的編譯器魔法?！?/span>

看來(lái)，DeepSeek 團(tuán)隊(duì)里有一批掌握編譯器神秘技巧的頂級(jí) GPU 工程師。

還有人評(píng)價(jià)說(shuō)，「DeepGEMM 正在改變我們使用 FP8 GEMM 庫(kù)的方式，它簡(jiǎn)潔、快速且開(kāi)源。這正是 AI 計(jì)算的未來(lái)?！?/span>

在項(xiàng)目的貢獻(xiàn)者列表中，有人發(fā)現(xiàn)了一個(gè)姓 Liang 的工程師，難道是 DeepSeek 創(chuàng)始人梁文鋒（真實(shí)性有待考證）？

性能

DeepSeek 在 H800 上使用 NVCC 12.8 測(cè)試了 DeepSeek-V3/R1 推理中可能使用的所有形狀（包括預(yù)填充和解碼，但不包括張量并行），最高可以實(shí)現(xiàn) 2.7 倍加速。所有加速指標(biāo)均基于內(nèi)部精心優(yōu)化的 CUTLASS 3.6 實(shí)現(xiàn)。

但根據(jù)項(xiàng)目介紹，DeepGEMM 在某些形狀上表現(xiàn)不佳。

快速啟動(dòng)

首先需要這些配置

Hopper 架構(gòu)的 GPU，必須支持 sm_90a；
Python 3.8 或更高版本；
CUDA 12.3 或更高版本，但為了獲得最佳性能，DeepSeek 強(qiáng)烈推薦使用 12.8 或更高版本；
PyTorch 2.1 或更高版本；
CUTLASS 3.6 或更高版本（可通過(guò) Git 子模塊克?。?。

配置完成后，就是部署：

# Submodule must be cloned
git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git
# Make symbolic links for third-party (CUTLASS and CuTe) include directories
python setup.py develop
# Test JIT compilation
python tests/test_jit.py
# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py

然后是安裝：

python setup.py install

最后在你的 Python 項(xiàng)目中導(dǎo)入 deep_gem，就可以使用了。

更多信息請(qǐng)參見(jiàn) GitHub 開(kāi)源庫(kù)。

路透社：DeepSeek R2 大模型又提前了，5 月之前發(fā)布

就在 DeepSeek 緊鑼密鼓地開(kāi)源的同時(shí)，人們也在四處探尋該公司下一代大模型的信息。昨天晚上，路透社突然爆料說(shuō) DeepSeek 可能會(huì)在 5 月之前發(fā)布下一代 R2 模型，引發(fā)了關(guān)注。

據(jù)多位知情人士透露，DeepSeek 正在加速推出 R1 強(qiáng)推理大模型的后續(xù)版本。其中有兩人表示，DeepSeek 原本計(jì)劃在 5 月初發(fā)布 R2，但現(xiàn)在希望盡早發(fā)布。DeepSeek 希望新模型擁有更強(qiáng)大的代碼生成能力，并能夠推理除英語(yǔ)以外的語(yǔ)言。

可見(jiàn)在 Grok 3、Claude 3.7、Qwen 2.5-Max 等競(jìng)品面世之后，DeepSeek 又加快了技術(shù)演進(jìn)的步伐。

值得一提的是，媒體也介紹了該公司的一些情況。DeepSeek 在北京開(kāi)設(shè)的辦公室距離清華、北大很近（步行可至）。據(jù)兩名前員工稱(chēng)，梁文鋒經(jīng)常會(huì)與工程師們深入研究技術(shù)細(xì)節(jié)，并樂(lè)于與實(shí)習(xí)生、應(yīng)屆畢業(yè)生一起工作。他們還描述了通常在協(xié)作氛圍中每天工作八小時(shí)的情況。

據(jù)三位了解 DeepSeek 薪酬情況的人士稱(chēng)，這幻方量化與 DeepSeek 都以薪酬豐厚而聞名。有人表示在幻方的高級(jí)數(shù)據(jù)科學(xué)家年薪 150 萬(wàn)元人民幣并不罕見(jiàn)，而競(jìng)爭(zhēng)對(duì)手的薪酬很少超過(guò) 80 萬(wàn)元。

幻方是 AI 交易的早期先驅(qū)，一位該公司高管早在 2020 年表示將「All in」人工智能，將公司 70% 的收入投資于人工智能研究。該公司在 2020 年和 2021 年斥資 12 億元人民幣建設(shè)了兩個(gè)超級(jí)計(jì)算 AI 集群。第二個(gè)集群 Fire-Flyer II 由約一萬(wàn)塊英偉達(dá) A100 芯片組成，主要用于訓(xùn)練 AI 模型。

在 DeepSeek V3、R1 模型推出之后，全世界對(duì)于 AI 技術(shù)的期待已經(jīng)進(jìn)入了高點(diǎn)?？萍脊径荚谙?DeepSeek 提出的新技術(shù)，修正發(fā)展方向，消費(fèi)者們則紛紛開(kāi)始嘗試各類(lèi)生成式 AI 應(yīng)用。

或許下一次 DeepSeek 的發(fā)布，會(huì)是 AI 行業(yè)的又一次關(guān)鍵時(shí)刻。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心