自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek 開源周首日:開源 FlashMLA,AI 推理速度再進化!

人工智能 新聞
簡單來說,F(xiàn)lashMLA就是一個為了讓 英偉達Hopper架構(gòu) GPU跑得更快更溜的?MLA 解碼加速器!

DeepSeek 開源周day1 推出 FlashMLA! 專為Hopper 架構(gòu) GPU打造的 超高效 MLA (Multi-Layer Attention) 解碼內(nèi)核,現(xiàn)在已經(jīng)正式開源啦!??


什么是 FlashMLA???

簡單來說,F(xiàn)lashMLA就是一個為了讓 英偉達Hopper架構(gòu) GPU跑得更快更溜的 MLA 解碼加速器! 它主要針對 變長序列 (variable-length sequences) 的場景進行了深度優(yōu)化,尤其是在大模型推理服務(wù)中,效率提升簡直肉眼可見!??

根據(jù)官方介紹,F(xiàn)lashMLA 目前已經(jīng) 在生產(chǎn)環(huán)境中使用,穩(wěn)定性杠杠的!

FlashMLA 有啥亮點? ?

  • ? BF16 精度支持: 緊跟潮流,支持最新的 BF16 精度,性能與效率兼得!
  • ? Paged KV Cache (頁式鍵值緩存): 采用頁式 KV 緩存,塊大小為 64,更精細的內(nèi)存管理,效率更高!
  • ?? 極致性能: 在 H800 SXM5 GPU 上,內(nèi)存受限場景下可達 3000 GB/s 的驚人速度,計算受限場景也能達到 580 TFLOPS 的算力! 而且,這一切都基于 CUDA 12.6 實現(xiàn)的!

快速上手,體驗飛一般的感覺! ??

DeepSeek AI 也非常貼心地給出了快速上手指南,只需簡單幾步,就能體驗 FlashMLA 的強大!

安裝:

python setup.py install

復(fù)制

跑個 Benchmark 試試水:

python tests/test_flash_mla.py


?? GitHub 倉庫傳送門: https://github.com/deepseek-ai/FlashMLA

技術(shù)細節(jié) & 引用

FlashMLA 的背后,離不開對 FlashAttention 2&3 以及 cutlass 等優(yōu)秀項目的學習和借鑒。DeepSeek AI 在這些基礎(chǔ)上進行了創(chuàng)新和優(yōu)化,才有了今天的 FlashMLA。

寫在最后

溫馨提示: FlashMLA 需要 Hopper 架構(gòu) GPU、CUDA 12.3 及以上 以及 PyTorch 2.0 及以上 版本支持哦! 使用前請確保你的環(huán)境滿足要求!

責任編輯:張燕妮 來源: AI寒武紀
相關(guān)推薦

2025-02-26 00:02:59

2025-02-24 12:22:13

DeepSeek開源模型

2025-02-25 14:07:25

2025-03-07 09:57:01

2025-03-14 11:56:52

2025-02-24 12:52:46

2025-02-24 11:32:57

2025-02-18 10:34:36

2020-10-24 07:30:05

開源字節(jié)跳動模型

2025-04-15 08:50:01

DeepSeek模型AI

2023-10-30 16:02:20

區(qū)塊鏈元宇宙

2025-02-17 10:36:00

微軟開源模型

2025-02-24 11:31:33

2020-12-30 14:03:29

騰訊AI人工智能

2025-01-21 11:53:53

2024-10-28 10:30:00

AI開源模型

2018-06-28 22:04:25

智能體華為云人工智能

2024-11-21 14:00:00

模型AI

2025-02-25 12:08:26

點贊
收藏

51CTO技術(shù)棧公眾號