DeepSeek開源周,第三彈, DeepGEMM來襲!
今天開源了deepseek-v3中提到的的FP8 GEMM內(nèi)核。
300行代碼的暴力cuda美學,看不太懂,但是每天都可以打個醬油~
支持普通的矩陣乘法以及 Mix-of-Experts 分組矩陣乘法。使用 CUDA 編寫,安裝時無需編譯,所有內(nèi)核在運行時通過輕量級的即時編譯(JIT)模塊動態(tài)編譯。
DeepGEMM設計,避免了對CUTLASS和CuTe的過度依賴,采用了更簡潔的設計,核心代碼只有大約300行。整個庫就是非?!拜p量化”,但同時性能又很強大,甚至超過了專家調(diào)優(yōu)的庫。在某些場景下的加速比達到了2.7倍。
使用這個倉庫,需要支持Hopper架構的GPU、Python 3.8及以上版本、CUDA 12.3及以上版本。
項目地址:https://github.com/deepseek-ai/DeepGEMM/blob/main/README.md
貢獻者似乎包含梁文峰。
本文轉載自 ??NLP前沿??,作者: NLP前沿
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦