自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek開源周,第三彈, DeepGEMM來襲!

發(fā)布于 2025-2-26 13:47
瀏覽
0收藏

今天開源了deepseek-v3中提到的的FP8 GEMM內(nèi)核。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

300行代碼的暴力cuda美學,看不太懂,但是每天都可以打個醬油~

支持普通的矩陣乘法以及 Mix-of-Experts 分組矩陣乘法。使用 CUDA 編寫,安裝時無需編譯,所有內(nèi)核在運行時通過輕量級的即時編譯(JIT)模塊動態(tài)編譯。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

DeepGEMM設計,避免了對CUTLASS和CuTe的過度依賴,采用了更簡潔的設計,核心代碼只有大約300行。整個庫就是非?!拜p量化”,但同時性能又很強大,甚至超過了專家調(diào)優(yōu)的庫。在某些場景下的加速比達到了2.7倍。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

使用這個倉庫,需要支持Hopper架構的GPU、Python 3.8及以上版本、CUDA 12.3及以上版本。

項目地址:https://github.com/deepseek-ai/DeepGEMM/blob/main/README.md

貢獻者似乎包含梁文峰。

DeepSeek開源周,第三彈, DeepGEMM來襲!-AI.x社區(qū)

本文轉載自 ??NLP前沿??,作者: NLP前沿

收藏
回復
舉報
回復
相關推薦