自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="w1vez"></style>

^{<blockquote id="w1vez"><i id="w1vez"></i></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

DeepSeek開源周，第三彈， DeepGEMM來襲！

發(fā)布于 2025-2-26 13:47

瀏覽

0收藏

今天開源了deepseek-v3中提到的的FP8 GEMM內(nèi)核。

DeepSeek開源周，第三彈， DeepGEMM來襲！-AI.x社區(qū)

300行代碼的暴力cuda美學，看不太懂，但是每天都可以打個醬油~

支持普通的矩陣乘法以及 Mix-of-Experts 分組矩陣乘法。使用 CUDA 編寫，安裝時無需編譯，所有內(nèi)核在運行時通過輕量級的即時編譯（JIT）模塊動態(tài)編譯。

DeepSeek開源周，第三彈， DeepGEMM來襲！-AI.x社區(qū)

DeepGEMM設計，避免了對CUTLASS和CuTe的過度依賴，采用了更簡潔的設計，核心代碼只有大約300行。整個庫就是非?！拜p量化”，但同時性能又很強大，甚至超過了專家調(diào)優(yōu)的庫。在某些場景下的加速比達到了2.7倍。

DeepSeek開源周，第三彈， DeepGEMM來襲！-AI.x社區(qū)

使用這個倉庫，需要支持Hopper架構的GPU、Python 3.8及以上版本、CUDA 12.3及以上版本。

項目地址：https://github.com/deepseek-ai/DeepGEMM/blob/main/README.md

貢獻者似乎包含梁文峰。

DeepSeek開源周，第三彈， DeepGEMM來襲！-AI.x社區(qū)

本文轉載自 ??NLP前沿??，作者： NLP前沿

標簽

贊

收藏

回復

舉報

回復

相關推薦

3DitScene：通過語言引導的解耦 Gaussian Splatting開源來襲！

angel ? 3303瀏覽 ? 0回復
Jamba前生今世：1.5開源來襲

魯班模錘1 ? 2313瀏覽 ? 0回復
3DitScene：通過語言引導的解耦 Gaussian Splatting開源來襲！

angel ? 2265瀏覽 ? 0回復
SDM: 第三代神經(jīng)網(wǎng)絡和擴散模型強強聯(lián)合！FID最多超基線12倍，能耗省60%，實力SOTA！

angel ? 3058瀏覽 ? 0回復
圖像生成，編輯，翻譯三合一！全能視覺助手PixWizard來襲！

angel ? 2638瀏覽 ? 0回復
關于調(diào)用第三方大模型服務商接口的感受

AI探索時代 ? 2066瀏覽 ? 0回復
AI Video Composer：Qwen2.5-Coder 賦能，簡易開源視頻創(chuàng)作神器來襲

穿越時空111 ? 3106瀏覽 ? 0回復
DeepSeek開源周“第一刀”砍向算力！重磅開源FlashMLA，挑戰(zhàn)H800算力極限，網(wǎng)友直呼：極致的工程設計！

51CTO技術棧 ? 1687瀏覽 ? 0回復
DeepSeek開源DeepGEMM，僅300行代碼

Aceryt ? 1907瀏覽 ? 0回復
DeepSeek開源第3彈：DeepGEMM炸場，算力焦慮終結者？

智駐未來 ? 1676瀏覽 ? 0回復
外網(wǎng)夸爆DeepSeek開源周！今天一口氣開源3個重磅！壓軸戲期待拉滿，R2、V4、被提名

51CTO技術棧 ? 1857瀏覽 ? 0回復
如何安全地使用第三方應用程序訪問DeepSeek

51CTO內(nèi)容精選 ? 1998瀏覽 ? 0回復
DeepSeek的三種接入使用方法

一起AI技術 ? 2662瀏覽 ? 0回復
ChatGPT周活用戶數(shù)據(jù)翻倍到2億！一文梳理OpenAI的流量暴漲之路。DeepSeek緊隨其后！

51CTO技術棧 ? 1891瀏覽 ? 0回復
基于秘密共享重構 DeepSeek DeepGEMM Kernel 的安全高效 MPC-GEMM 方案

上堵吟1 ? 1813瀏覽 ? 0回復
剛剛，OpenAI 開源了兩個 Agent 項目，手搓 Manus 時代來襲

玄姐聊AGI ? 1833瀏覽 ? 0回復
第三方算力租賃：AI企業(yè)的算力博弈與最優(yōu)解

AI算力補給站 ? 1463瀏覽 ? 0回復
Llama 4三大模型來襲，開源免費還超能打

Halo咯咯 ? 1586瀏覽 ? 0回復
內(nèi)部評估作用有限：通用人工智能需要第三方缺陷披露機制

上堵吟1 ? 832瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：這個開源項目厲害了：一鍵部署DeepSeek R1！

下一篇：微軟LongRoPE v2：幾乎無損的上下文擴展！

社區(qū)精華內(nèi)容

目錄

<sub id="bw9dz"><p id="bw9dz"></p></sub>

<style id="bw9dz"></style>