自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

MLKV：跨層 KV Cache 共享，降低內(nèi)存占用

發(fā)布于 2024-6-17 10:03

瀏覽

0收藏

一、背景

LLM 中 KV Cache 占據(jù)的顯存越來越大，有很多方案開始嘗試跨層共享 K 和 V，比如我們之前介紹的 YOCO、CLA 以及 Layer-Condensed KV Cache 等，本文介紹的方案也極其類似。

對應(yīng)的論文為：[2406.09297] MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

對應(yīng)的代碼庫為：??https://github.com/zaydzuhri/pythia-mlkv??

PS：感覺本文創(chuàng)新度明顯不足，相關(guān)實驗也非常少，只在一個 160M 模型測試，甚至沒有測試 7B 模型。

二、摘要

Transformer 模型的自回歸推理因為 KV Cache 的存在可以大幅降低計算量，但隨著模型、Batch Size 以及序列長度的增長，KV Cache 大幅增加，導(dǎo)致可能存在內(nèi)存瓶頸。本文中，作者引入了多層 KV（Multi-Layer Key-Value，MLKV）Cache，可以跨 Transformer Layer 實現(xiàn) KV Cache 共享，以減少內(nèi)存占用，甚至可以比 MQA 和 GQA 節(jié)約更多的內(nèi)存占用。作者使用經(jīng)過訓(xùn)練的 Pythia-160M 變體，針對各種 NLP 基準和推理能力的指標(biāo)進行評估，表明 MLKV 可以以最小的性能損失顯著降低內(nèi)存使用量（???），與 MQA 相比，可以將 KV Cache 大小減少 6 倍。這些結(jié)果凸顯了 MLKV 在部署大規(guī)模 LLM 模型方面的潛力。

三、方法

如下圖 Figure 2 所示，其思路很簡單，也和我們之前介紹過的幾個工作很類似，主要區(qū)別如下：

MHA：原始的 Multi Head Attention，每一層的每一個 Head 都有獨立的 K 和 V。
MQA：Multi Query Attention，每一層的所有 Head 共享 K 和 V.
GQA：Grouped Query Attention，MHA 和 MQA 的折衷，每一層的 Head 分為多組，每一組共享 K 和 V.
MLKV：多個層共享 K 和 V，并且可以與上述 MQA 和 GQA 兼容。?

MLKV：跨層 KV Cache 共享，降低內(nèi)存占用-AI.x社區(qū)

如下圖 Table 2 所示為不同配置下總共 KV Head 的個數(shù)，參數(shù)量，以及 Loss：

MLKV：跨層 KV Cache 共享，降低內(nèi)存占用-AI.x社區(qū)

四、結(jié)果

如下圖所示為不同配置下在各種評估任務(wù)上的結(jié)果，可以看出在同等配置下是弱于 GQA 的，甚至弱于 MQA：

MLKV：跨層 KV Cache 共享，降低內(nèi)存占用-AI.x社區(qū)

如下圖是相應(yīng)的顯存占用，同樣 Head 數(shù)的方案內(nèi)存占用相同，Head 越少，內(nèi)存占用越少：

MLKV：跨層 KV Cache 共享，降低內(nèi)存占用-AI.x社區(qū)

如下圖 Figure 5 所示，同樣 Head 下 MLKV 的速度會更快一些，不過差距都不大：

MLKV：跨層 KV Cache 共享，降低內(nèi)存占用-AI.x社區(qū)

四、參考鏈接

[2406.09297] MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
???https://github.com/zaydzuhri/pythia-mlkv???

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

大模型推理優(yōu)化實踐：KV cache復(fù)用與投機采樣

wx5bbef785639a1 ? 6000瀏覽 ? 0回復(fù)
跨模型的Function_Calling來了

ermulong ? 4213瀏覽 ? 0回復(fù)
MiniCache 和 PyramidInfer 等 6 種優(yōu)化 LLM KV Cache 的最新工作

amei2000go ? 8386瀏覽 ? 0回復(fù)
麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存

Aceryt ? 3323瀏覽 ? 0回復(fù)
ICML 2024高分論文 | 零階優(yōu)化器微調(diào)大模型，大幅降低內(nèi)存

輕薄滴假象 ? 2565瀏覽 ? 0回復(fù)
LLM 推理的 Attention 計算和 KV Cache 優(yōu)化：PagedAttention、vAttention 等

amei2000go ? 7805瀏覽 ? 0回復(fù)
一文剖析AI大模型技術(shù)架構(gòu)的全景視圖：從基礎(chǔ)實施層、云原生層、模型層、應(yīng)用技術(shù)層、能力層、到應(yīng)用層

玄姐聊AGI ? 3818瀏覽 ? 0回復(fù)
解讀 “Flash Cache” ：減少輻射緩存反渲染偏差

智能交互引擎 ? 1971瀏覽 ? 0回復(fù)
微軟新綜述：大模型RAG系統(tǒng)的4層境界！

探索AGI ? 3023瀏覽 ? 0回復(fù)
MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention

amei2000go ? 2802瀏覽 ? 0回復(fù)
KVSharer：基于不相似性實現(xiàn)跨層 KV Cache 共享

amei2000go ? 2562瀏覽 ? 0回復(fù)
ChatGPT解鎖高級視頻對話、屏幕共享，實時交互時代

Aceryt ? 8502瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
大模型前綴緩存技術(shù)，有望將服務(wù)成本降低90%

51CTO內(nèi)容精選 ? 2031瀏覽 ? 0回復(fù)
DeepSeek核心架構(gòu)-DeepSeekMoE：細粒度專家劃分與共享專家隔離技術(shù)的深度解析！

南夏的算法驛站 ? 2133瀏覽 ? 0回復(fù)
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進大總結(jié)

大模型自然語言處理 ? 2341瀏覽 ? 0回復(fù)
基于秘密共享重構(gòu) DeepSeek DeepGEMM Kernel 的安全高效 MPC-GEMM 方案

上堵吟1 ? 1815瀏覽 ? 0回復(fù)
庫克出手：緊急換帥，蘋果AI重組管理層！

51CTO技術(shù)棧 ? 1344瀏覽 ? 0回復(fù)
Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復(fù)雜文檔理解性能爆炸12%，錯誤率直降21%

CourseAI ? 746瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

MCP（Model Context Protocol）的理解和快速實踐 8天前發(fā)布
萬字綜述 LLM 訓(xùn)練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案 2025-04-09 06:48:28發(fā)布

熱門推薦

MCP（Model Context Protocol）的理解和快速實踐 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：阿里 C4：通信驅(qū)動加速大規(guī)模并行訓(xùn)練效率

下一篇：剖析大規(guī)模 GPU 集群：針對 LLM 場景的挑戰(zhàn)和優(yōu)化

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="m6h0a"></blockquote>}

^{<blockquote id="m6h0a"></blockquote>}