自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="oopr5"><table id="oopr5"></table></abbr>

<sub id="oopr5"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

DeepSeek NSA & Moonshot MoBA 的見解

發(fā)布于 2025-2-24 11:18

瀏覽

0收藏

一、背景

最近幾天 DeepSeek 的 NSA 以及 Moonshot 的 MoBA 受到廣泛關(guān)注，我也在第一時間看了相關(guān)論文。由于最近 DeepSeek 的火爆，各大平臺上也出現(xiàn)了非常多對這兩篇文章的介紹，這里不再贅述其襲擊，只是簡單陳述一下我的一些思考和看法。

在看這兩篇論文的時候，我們可以發(fā)現(xiàn)其很多觀點和手段都似曾相識，其他在之前的 Quest、SeerAttention（之前也分享過）等論文都有相關(guān)介紹。不過，其在工業(yè)落地方面提供了更多的可能性，比如 Moonshot 已經(jīng)將 MoBA 應(yīng)用到其生產(chǎn)系統(tǒng)中。

二、關(guān)鍵結(jié)論

首先，它們在很大程度上解決了我們在之前分享的 Token 稀疏化文章中提到的問題：

以前的很多方案往往針對特定場景，不夠通用。比如，RaaS 受限于特定的 Long Reasoning 場景。
實現(xiàn)不夠高效，工業(yè)落地存在挑戰(zhàn)。很多方案采用 Token 粒度的稀疏化方式，難以充分發(fā)揮 GPU 的算力；也有些工作，比如 RaaS 雖然也采用了 Block 粒度的稀疏化方式，但是并沒有進(jìn)行高效的實現(xiàn)。

除此之外，這幾篇論文也進(jìn)一步促進(jìn)了一些共識：

在長序列場景（Long Prefill 或 Long Decoding），Attention 是高度稀疏化的，也是高度動態(tài)化的。
固定 Pattern 的稀疏化方式往往很難保持精度，可學(xué)習(xí) Sparse Pattern 會是通用化且高精度的有效方案。
Token 粒度的稀疏化很難充分發(fā)揮 GPU 算力，Block 粒度稀疏化是精度和性能（稀疏度、計算量）的良好平衡，基于此的高效 Block Sparse Attention 也成為標(biāo)配，類似 GitHub - mit-han-lab/Block-Sparse-Attention [4]。
當(dāng)前常見的 LLM 通常會采用 GQA，也要充分結(jié)合 GQA 的特性來設(shè)計稀疏化方案，不然可能會影響整體的稀疏化程度。
在進(jìn)行 Block 選擇時并不需要使用 Block 內(nèi)所有的 KV Cache，選擇一個代表性的“聚類中心”即可，比如取 Avg 或者 Max，MoBA 中使用 Mean Pooling，在 SeerAttention 中也有相應(yīng)消融實驗。
不要隨意永久性丟棄 Token，由于 LLM 的自回歸特性，很難推測在后續(xù)的生成中是不是一定不需要某個 Token。這也就是為什么在 NSA 和 MOBA 中并不會節(jié)約 KV Cache 的存儲空間。

三、對訓(xùn)練的影響

最后，這幾個文章都是非常好的工作，對于 Inference 的成本（長序列）節(jié)約非常有幫助；但其對于 Training 成本節(jié)約非常有限。主要是因為當(dāng)前 Training 的主要成本是在 PreTraining 階段，而 PreTraining 階段的序列不會很長，常見的還是 4K。此時稀疏度不會很高，Attention 的占比也并不大，可能不到 10%。如下圖 Table 1 所示，DeepSeek V3 Training 成本中 PreTraining 占到了 95% 以上：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區(qū)

雖然 DeepSeek NSA 中進(jìn)行了 PreTraining 實驗，并且 Loss 甚至低于 Full Attention，但其中的訓(xùn)練速度實際對比的是長序列下 Attention Kernel 的速度，并不是 PreTraining 端到端的速度，如下圖 Figure 6：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區(qū)

而 Moonshot 的 MoBA 中也是聚焦在 SFT 階段：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區(qū)

我們會發(fā)現(xiàn)，Block 粒度的稀疏化執(zhí)行的是 Block Sparse Attention，而我們之前介紹的一系列 Sample Packing 的方案也是 Block Sparse Attention，只不過 Sample Packing 中可以根據(jù)輸入數(shù)據(jù)預(yù)先知道 Block 的位置?；谶@個思路，可以把 PreTraining 中的 Sample Packing 看成是 Block 粒度稀疏化的特例。如下圖所示，每種顏色的 Block 代表一個 Sample：

DeepSeek NSA & Moonshot MoBA 的見解-AI.x社區(qū)

直觀感覺，在 PreTraining 中采用 Sample Packing 對應(yīng)的 Block Sparse Attention 很有必要也很高效，然而實際的 PreTraining 中卻比較少采用。一方面是 PreTraining 中 Attention 占比不高，另一方面是負(fù)載均衡問題進(jìn)一步降低性能收益；此外，也有多個工作驗證 Sample Packing 對預(yù)訓(xùn)練的效果影響也很小，比如 LLaMA 3 的技術(shù)報告有介紹，忽略 Sample Packing 中的 Sparse Attention Mask，對效果沒什么影響。

當(dāng)然，如果是長序列的 PreTraining 也許上述 Block Sparse Attention 能帶來一些收益，但長序列的 PreTraining 是否有必要也另當(dāng)別論。

四、參考鏈接

??https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf??
??https://arxiv.org/abs/2502.11089??
??https://arxiv.org/pdf/2410.13276??
??https://github.com/mit-han-lab/Block-Sparse-Attention??

本文轉(zhuǎn)載自 ??AI閑談??，作者： AI閑談

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級碼力”！

AI.x社區(qū)官方賬號 ? 33.0w瀏覽 ? 148回復(fù)
“大模型+知識圖譜”雙輪驅(qū)動的見解、技術(shù)和評估 - 英偉達(dá)的GraphRAG

知識圖譜科技 ? 2434瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-V3 技術(shù)報告

xuxiangda ? 4323瀏覽 ? 0回復(fù)
10分鐘讓W(xué)PS接入DeepSeek，實現(xiàn)AI賦能

AI取經(jīng)路 ? 4163瀏覽 ? 0回復(fù)
DeepSeek 爆了，普通人如何3小時完全從0訓(xùn)練自己的大模型

玄姐聊AGI ? 6084瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 4217瀏覽 ? 0回復(fù)
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。?！

玄姐聊AGI ? 6134瀏覽 ? 0回復(fù)
DeepSeek全新注意力機(jī)制NSA發(fā)布，超快速長文訓(xùn)練與推理

PaperAgent ? 2012瀏覽 ? 0回復(fù)
KIMI 月之暗面提出（MoBA）大模型長文本處理新解法：塊注意力混合

AI論文解讀 ? 2591瀏覽 ? 0回復(fù)
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 6920瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會思考的？

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 2870瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 2603瀏覽 ? 0回復(fù)
企業(yè)部署DeepSeek的AI基礎(chǔ)設(shè)施方案建議

夜行神魚 ? 2138瀏覽 ? 0回復(fù)
DeepSeek的三種接入使用方法

一起AI技術(shù) ? 2662瀏覽 ? 0回復(fù)
基于秘密共享重構(gòu) DeepSeek DeepGEMM Kernel 的安全高效 MPC-GEMM 方案

上堵吟1 ? 1813瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開發(fā)大模型之復(fù)現(xiàn)DeepSeek的aha moment

周末程序猿 ? 1630瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 2006瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

MCP（Model Context Protocol）的理解和快速實踐 8天前發(fā)布
萬字綜述 LLM 訓(xùn)練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案 2025-04-09 06:48:28發(fā)布

熱門推薦

MCP（Model Context Protocol）的理解和快速實踐 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論

下一篇：綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關(guān)鍵技術(shù)

社區(qū)精華內(nèi)容

目錄