自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ol id="0wiy6"><source id="0wiy6"><dl id="0wiy6"></dl></source></ol>

<blockquote id="0wiy6"><i id="0wiy6"><tr id="0wiy6"></tr></i></blockquote><blockquote id="0wiy6"><p id="0wiy6"><th id="0wiy6"></th></p></blockquote>

<s id="0wiy6"></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)

南夏的算法驛站

發(fā)布于 2025-2-13 12:01

瀏覽

0收藏

?DeepSeek的基本架構(gòu)仍然在Transformer框架內(nèi)，每個(gè)Transformer模塊由一個(gè)注意力模塊和一個(gè)前饋網(wǎng)絡(luò)組成。為實(shí)現(xiàn)更高效的推理和更經(jīng)濟(jì)的訓(xùn)練，在注意力和前饋網(wǎng)絡(luò)部分，設(shè)計(jì)并使用了創(chuàng)新的MLA（Multi-Head Latent Attention）和DeepSeekMoE 架構(gòu)。

本文將從MLA的提出背景、技術(shù)原理、解耦RoPE策略及MHA與MLA的緩存對(duì)比方面進(jìn)行詳細(xì)闡述。

DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)-AI.x社區(qū)

MLA是對(duì)多頭自注意力機(jī)制（MHA）的改進(jìn)，其核心是對(duì)鍵（Keys）和值（Values）進(jìn)行低秩聯(lián)合壓縮，生成壓縮的潛在向量，以降低推理階段的KV緩存。

1.MHA

（1）MHA的詳細(xì)原理。

（2）在自注意力機(jī)制中，每個(gè)位置的查詢Q需要與序列中所有位置的鍵（K）進(jìn)行相似度計(jì)算得到注意力分?jǐn)?shù)，然后加權(quán)值（V）獲得最終的輸出值。Transformer模型生成序列時(shí)采用自回歸方式，即在生成當(dāng)前Token時(shí)需依賴所有之前生成的Token。因此，對(duì)于每個(gè)時(shí)間步，都需要與之前所有Token進(jìn)行注意力計(jì)算。為避免重復(fù)計(jì)算之前所有Token的鍵和值，從而需要緩存所有的鍵和值來加速計(jì)算。

（3）MHA在推理過程中需要緩存所有的KV來加速推理，但是在模型部署中，這種量級(jí)的KV緩存帶來了高顯存占用問題，限制了最大Batch size的大小和序列長度。

2.MLA原理

（1）MLA的完整計(jì)算公式和維度變化示意圖如下，可對(duì)照查看。

DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)-AI.x社區(qū) 圖片

DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)-AI.x社區(qū)

3.解耦RoPE策略詳解

DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)-AI.x社區(qū)

備注：矩陣吸收計(jì)算是指利用矩陣乘法的結(jié)合律或低秩分解等線性代數(shù)技巧，重新組合某些矩陣因子，使原本需要獨(dú)立計(jì)算的矩陣乘積合并在一起，從而降低計(jì)算復(fù)雜度和內(nèi)存開銷的過程。

DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)-AI.x社區(qū)

04|MHA與MLA的緩存對(duì)比

DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)-AI.x社區(qū)

本文轉(zhuǎn)載自 ??南夏的算法驛站??，作者：南夏的算法驛站

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型推理優(yōu)化實(shí)踐：KV cache復(fù)用與投機(jī)采樣

wx5bbef785639a1 ? 6000瀏覽 ? 0回復(fù)
一文詳解視覺Transformer模型壓縮和加速策略(量化/低秩近似/蒸餾/剪枝)

angel ? 4977瀏覽 ? 0回復(fù)
AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

AIGC觀察者 ? 3274瀏覽 ? 0回復(fù)
給 ?大模型初學(xué)者? 的 LLaMA 3 核心技術(shù)剖析

Baihai_IDP ? 2874瀏覽 ? 0回復(fù)
LLM 推理的 Attention 計(jì)算和 KV Cache 優(yōu)化：PagedAttention、vAttention 等

amei2000go ? 7817瀏覽 ? 0回復(fù)
大模型技術(shù)細(xì)節(jié)——大模型之文本生成與文檔總結(jié)

AI探索時(shí)代 ? 5623瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 2974瀏覽 ? 0回復(fù)
文字秒變視頻，附技術(shù)細(xì)節(jié)

云原生AI百寶箱 ? 1987瀏覽 ? 0回復(fù)
DeepSeek-V3 模型深度剖析：架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化與性能卓越

AI論文解讀 ? 9932瀏覽 ? 0回復(fù)
MHA -> GQA：提升 LLM 推理效率

amei2000go ? 1994瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek 驚艷背后的技術(shù)架構(gòu)創(chuàng)新剖析

玄姐聊AGI ? 8238瀏覽 ? 0回復(fù)
GoRA: 基于梯度驅(qū)動(dòng)的自適應(yīng)低秩微調(diào)方法

頓數(shù)AI ? 1858瀏覽 ? 0回復(fù)
DeepSeek核心架構(gòu)-DeepSeekMoE：細(xì)粒度專家劃分與共享專家隔離技術(shù)的深度解析！

南夏的算法驛站 ? 2133瀏覽 ? 0回復(fù)
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進(jìn)大總結(jié)

大模型自然語言處理 ? 2351瀏覽 ? 0回復(fù)
DeepSeek開源優(yōu)化并行策略，提升訓(xùn)練和通信效率

Aceryt ? 1938瀏覽 ? 0回復(fù)
多模態(tài)大模型Ovis核心技術(shù)點(diǎn)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 1578瀏覽 ? 0回復(fù)
Manus 技術(shù)架構(gòu)設(shè)計(jì)剖析和復(fù)刻落地實(shí)現(xiàn)

玄姐聊AGI ? 1470瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)深度剖析

玄姐聊AGI ? 1335瀏覽 ? 0回復(fù)

南夏的算法驛站

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里ESMM模型解析：解決樣本偏差與數(shù)據(jù)稀疏的全空間建模！ 2025-04-16 07:25:40發(fā)布
剖析Transformer模型時(shí)間復(fù)雜度：從矩陣乘法到自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的全解析 2025-04-03 07:17:10發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

下一篇： DeepSeek核心架構(gòu)-DeepSeekMoE：細(xì)粒度專家劃分與共享專家隔離技術(shù)的深度解析！

社區(qū)精華內(nèi)容

目錄

<sub id="kas84"></sub>

<cite id="kas84"><track id="kas84"></track></cite>