自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

DeepSeek中的多頭潛在注意力（MLA）淺嘗原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-2-11 11:03

瀏覽

0收藏

MLA是MHA的變體，因此先來看看MHA。

MHA（多頭注意力）

MHA通過將輸入向量分割成多個并行的注意力“頭”，每個頭獨立地計算注意力權重并產(chǎn)生輸出，然后將這些輸出通過拼接和線性變換進行合并以生成最終的注意力表示。

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區(qū)

Transformer 編碼器塊內(nèi)的縮放點積注意力機制和多頭注意力機制

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區(qū)

MHA計算過程

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區(qū)

MHA 能夠理解輸入不同部分之間的關系。然而，這種復雜性是有代價的——對內(nèi)存帶寬的需求很大，尤其是在解碼器推理期間。主要問題的關鍵在于內(nèi)存開銷。在自回歸模型中，每個解碼步驟都需要加載解碼器權重以及所有注意鍵和值。這個過程不僅計算量大，而且內(nèi)存帶寬也大。隨著模型規(guī)模的擴大，這種開銷也會增加，使得擴展變得越來越艱巨。

MLA（多頭潛在注意力）

概念：

多頭注意力機制：Transformer 的核心模塊，能夠通過多個注意力頭并行捕捉輸入序列中的多樣化特征。
潛在表示學習：通過將高維輸入映射到低維潛在空間，可以提取更抽象的語義特征，同時有效減少計算復雜度。

問題：

1.效率問題：傳統(tǒng)多頭注意力的計算復雜度為O(n²d),即隨著序列長度的增長，鍵值（Key-Value，KV）緩存的大小也會線性增加，這給模型帶來了顯著的內(nèi)存負擔。） 2.表達能力瓶頸：難以充分捕捉復雜全局依賴。MLA 通過在潛在空間中執(zhí)行注意力計算，有效降低復雜度，同時提升建模能力。

MLA 的提出：MLA 將多頭注意力機制與潛在表示學習相結合，解決MHA在高計算成本和KV緩存方面的局限性。

MLA的具體做法（創(chuàng)新點）：采用低秩聯(lián)合壓縮鍵值技術，優(yōu)化了鍵值（KV）矩陣，顯著減少了內(nèi)存消耗并提高了推理效率。

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區(qū)

如上圖，在MHA、GQA中大量存在于keys values中的KV緩存——帶陰影表示，到了MLA中時，只有一小部分的被壓縮Compressed的Latent KV了。

并且，在推理階段，MHA需要緩存獨立的鍵（Key）和值（Value）矩陣，這會增加內(nèi)存和計算開銷。而MLA通過低秩矩陣分解技術，顯著減小了存儲的KV（Key-Value）的維度，從而降低了內(nèi)存占用。

MLA的核心步驟：

輸入映射->潛在空間

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區(qū)

潛在空間中的多頭注意力計算

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區(qū)

映射回原始空間
將多頭注意力結果從潛在空間映射回原始空間：

DeepSeek中的多頭潛在注意力（MLA）淺嘗-AI.x社區(qū)

參考文獻：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/CSK1t9o82un5QDphhOP6fQ??

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

大語言模型

自然語言處理

贊

收藏

回復

舉報

回復

相關推薦

基于多級注意力機制的并行預測模型

Tang_Lan ? 4167瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 2975瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 2766瀏覽 ? 0回復
聊聊組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 2678瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3710瀏覽 ? 0回復
即插即用 | 時間編碼+LSTM+全局注意力

Tang_Lan ? 3680瀏覽 ? 0回復
LLM基礎模型系列：深入注意力機制

魯班模錘1 ? 2836瀏覽 ? 0回復
聊聊 KAN、KAN 卷積結合注意力機制！

Tang_Lan ? 4745瀏覽 ? 0回復
注意力機制的變體之MLA

shizhi02 ? 6285瀏覽 ? 0回復
【技術前沿】FlashAttention-2：深度學習中的高效注意力機制新突破

sword_hero ? 2306瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2292瀏覽 ? 0回復
【深度探索】FlashAttention-3：深度學習注意力機制的再進化

sword_hero ? 2276瀏覽 ? 0回復
大模型神經(jīng)網(wǎng)絡之注意力機制——attention

AI探索時代 ? 1795瀏覽 ? 0回復
從《你所需要的就是注意力》到《你所需要的就是多頭潛在注意力》，TransMLA開啟AI技術新篇章

xuxiangda ? 1835瀏覽 ? 0回復
高效注意力機制與硬件優(yōu)化：硬件優(yōu)化的稀疏注意力，長上下文建模

AI研究前瞻 ? 1743瀏覽 ? 0回復
DeepSeek全新注意力機制NSA發(fā)布，超快速長文訓練與推理

PaperAgent ? 2015瀏覽 ? 0回復
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進大總結

大模型自然語言處理 ? 2324瀏覽 ? 0回復
一文吃透自注意力機制

人工智能訓練營 ? 2962瀏覽 ? 0回復
「DeepSeek-V3 技術解析」：多頭潛在注意力機制（MLA）

Baihai_IDP ? 1874瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結構、訓練方法、訓練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：英偉達ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法

下一篇：簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR

社區(qū)精華內(nèi)容

目錄

<sub id="dmwmy"></sub><style id="dmwmy"></style>