DeepSeek 開源周第一彈:FlashMLA — 大模型推理的“渦輪增壓器”
2025 年 2 月 24日,中國 AI 領(lǐng)域明星公司 DeepSeek 正式啟動“開源周”,并甩出首張技術(shù)王炸 —— FlashMLA。這款專為 NVIDIA Hopper GPU 優(yōu)化的高效解碼內(nèi)核,針對多頭潛注意力(MLA)進(jìn)行了深度優(yōu)化,尤其在處理變長序列的大型語言模型(LLM)推理場景中表現(xiàn)出色。
圖片
FlashMLA 是什么?
FlashMLA 是 DeepSeek 為 Hopper 架構(gòu) GPU(如英偉達(dá) H100/H800)量身打造的多層注意力機(jī)制(MLA)解碼內(nèi)核。其核心目標(biāo)是通過動態(tài)內(nèi)存調(diào)度與并行計算優(yōu)化,顯著提升大語言模型(LLM)的推理效率,尤其在處理可變長度序列時表現(xiàn)突出。
FlashMLA 性能有多強(qiáng)?
FlashMLA 在 H800 SXM5 GPU 上展現(xiàn)了驚艷的性能,基于 CUDA 12.6 測試數(shù)據(jù)如下:
- 內(nèi)存受限場景:處理速度高達(dá) 3000 GB/s。
- 計算受限場景:算力達(dá)到 580 TFLOPS。
FlashMLA 的工作原理
FlashMLA 在處理可變長度序列方面表現(xiàn)出色,這是自然語言處理和生成式 AI 等任務(wù)中常見的挑戰(zhàn)。傳統(tǒng)的解碼內(nèi)核通常難以應(yīng)對這種不規(guī)則的數(shù)據(jù),從而導(dǎo)致性能瓶頸。FlashMLA 通過在 Hopper GPU 上優(yōu)化內(nèi)存使用和計算,解決了這一問題,確保無論輸入大小如何,都能實(shí)現(xiàn)流暢高效的性能。
FlashMLA 真正的創(chuàng)新在于對 BF16 的支持以及具有塊大小為 64 的分頁 KV 緩存。這些特性最大程度地減少了內(nèi)存開銷并降低了延遲,使 FlashMLA 成為實(shí)時 AI 應(yīng)用的理想選擇。對于開發(fā)者而言,這意味著更快的模型訓(xùn)練和推理,尤其適用于復(fù)雜且動態(tài)的數(shù)據(jù)集。
Deepseek 還借鑒了 FlashAttention 2&3 和 CUTLASS 等項(xiàng)目的經(jīng)驗(yàn),并將這些最佳實(shí)踐融入 FlashMLA 中。
FlashMLA 的優(yōu)勢
- 專為 Hopper GPU 優(yōu)化性能FlashMLA 針對 NVIDIA Hopper GPU(如 H800)量身打造,利用其先進(jìn)的 Tensor Cores 和 Transformer Engines,實(shí)現(xiàn) 3000 GB/s 的內(nèi)存帶寬和 580 TFLOPS 的計算性能。這種優(yōu)化讓它能高效處理 LLM 等 AI 應(yīng)用的高強(qiáng)度計算需求。
- 支持變長序列處理FlashMLA 針對變長序列進(jìn)行了優(yōu)化,非常適合自然語言處理(NLP)任務(wù)。無論是句子還是文檔,輸入長度變化無常,它都能靈活應(yīng)對,使其成為聊天機(jī)器人、翻譯系統(tǒng)和文本生成等現(xiàn)實(shí)應(yīng)用的理想選擇。
- 高效的內(nèi)存管理通過塊大小為 64 的分頁 KV 緩存,F(xiàn)lashMLA 提升了內(nèi)存效率并減少了解碼時的延遲。這種分頁方式將數(shù)據(jù)拆分為易管理的塊,尤其對內(nèi)存受限的大型模型表現(xiàn)優(yōu)異,避免了性能瓶頸。
- BF16 精度的高效支持FlashMLA 采用 BF16 格式,在保持足夠精度的同時降低內(nèi)存使用并加速計算。相比 FP32,這種緊湊格式特別適合在資源有限的硬件上部署 LLM 或擴(kuò)展至更大模型。
- 助力更大規(guī)模 AI 模型通過優(yōu)化數(shù)據(jù)傳輸和內(nèi)存使用,F(xiàn)lashMLA 支持推理超出 GPU DRAM 容量兩倍的模型,速度提升顯著(CPU 上 4-5 倍,GPU 上 20-25 倍)。這意味著無需昂貴硬件升級即可運(yùn)行超大規(guī)模 LLM。
FlashMLA 對 AI 的影響
FlashMLA 誕生于人工智能發(fā)展的關(guān)鍵時刻。2025 年初,xAI 將發(fā)布 Grok 語音模式,這將為實(shí)時人工智能交互設(shè)定新的基準(zhǔn),而 FlashMLA 則優(yōu)化了后端基礎(chǔ)設(shè)施,以應(yīng)對日益增長的對人工智能模型速度和效率的需求。
醫(yī)療保健和金融等行業(yè)將從中受益匪淺。想象一下實(shí)時分析患者數(shù)據(jù)或高頻交易算法,速度以毫秒計算。FlashMLA 的高性能可以徹底改變這些領(lǐng)域,推動創(chuàng)新和效率的提升。
Deepseek 的開源策略也促進(jìn)了人工智能的道德發(fā)展。像 FlashMLA 這樣的工具能夠平衡競爭環(huán)境,使小型團(tuán)隊(duì)能夠與大型公司競爭,尤其是在世界范圍內(nèi)推動人工智能開發(fā)透明化的背景下。
總結(jié)
FlashMLA 僅僅是個開始。Deepseek 的開源周預(yù)示著一系列創(chuàng)新發(fā)布即將到來。我們可以看到針對其他 GPU 架構(gòu)的改進(jìn)、擴(kuò)展的 BF16 支持以及與新興 AI 框架的集成。接下來的開源周會帶來什么?讓我們拭目以待。
參考資料
- deepseek-ai/FlashMLA:https://github.com/deepseek-ai/FlashMLA