自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

注意力機制的變體之MLA 原創(chuàng)

發(fā)布于 2024-10-15 13:54

瀏覽

0收藏

?本文介紹注意力機制的變體-MLA。

MLA(Multi-head Latent Attention)，是由杭州深度求索人工智能在DeepSeekV2提出的一種注意力機制變體。MLA主要旨在解決推理過程中由于attention機制中KV Cache占用過多內(nèi)存而導致的性能瓶頸問題。為此，MLA引入了低秩KV壓縮技術(shù)，有效減少了KV Cache的大小，從而緩解了這一問題。

有興趣小伙伴可以看官方技術(shù)報告的介紹：??https://arxiv.org/pdf/2405.04434v2??

原理介紹

注意力機制的變體之MLA-AI.x社區(qū)

上圖為MHA、GQA、MQA、MLA的原理對比圖。從上圖可知傳統(tǒng)Transformer采用MHA，但KV Cache在推理過程中可能成為性能瓶頸。MQA和GQA雖然在一定程度上可以減少KV Cache的占用，但其效果通常不如MHA。MLA通過低秩的Key-Value聯(lián)合壓縮技術(shù)，不僅實現(xiàn)了比MHA更優(yōu)的效果，還大幅減少了所需的KV Cache大小。

具體來說，MLA通過低秩聯(lián)合壓縮key和value來減少kv cache。從注意力機制的步驟來分析：

通過輸入x乘以不同的矩陣參數(shù)Wq、Wk、Wv得到不同的QKV向量
在轉(zhuǎn)換到QKV向量時候，將x乘以一個低秩矩陣，得到低階矩陣表示
再通過一個高階矩陣來恢復原來的特征空間。由于矩陣是模型的權(quán)重參數(shù)已經(jīng)保存，所以只需要保存一個低秩的潛層特征就可以恢復成KV，而不是像之前需要同時緩存KV。

代碼實現(xiàn)


bsz, q_len, _ = hidden_states.size()
        
# 計算壓縮后的Q，再還原成高維
# [B, q_len, hidden_size]
# 即[B, q_len, num_head * q_head_dim]
q = self.w_uq(self.q_a_layernorm(self.w_dq(hidden_states)))
# [B, num_head, q_len, q_head_dim]
q = q.view(bsz, q_len, self.num_heads, self.q_head_dim).transpose(1, 2)
# 包含當前位置可用上下文的長度
kv_seq_len = q.size(-2)
if past_key_value is not None:
    if self.layer_idx is None:
        raise ValueError(
            f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
            "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
            "with a layer index."
        )
    kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
# 得到當前壓縮后的kv, c_t^{kv}
# [B, q_len, d_c]
compressed_kv = self.w_dkv(hidden_states)

# 將當前位置之前的壓縮后的kv拼接到前面
if past_key_value is not None:
    # 得到的應該是[B, kv_seq_len, d_c], c^{kv}
    compressed_kv = past_key_value.update(compressed_kv)
# 計算得到k^C和v^C
# [B, num_head, kv_seq_len, q_head_dim]
k = self.w_uk(compressed_kv).view(bsz, -1, self.num_heads, self.q_head_dim).transpose(1, 2)
v = self.w_uv(compressed_kv).view(bsz, -1, self.num_heads, self.q_head_dim).transpose(1, 2)

# 注意力權(quán)重
# [B, num_head, q_len, kv_seq_len]
attn_weights = (
    torch.matmul(q, k.transpose(2, 3)) * self.softmax_scale
)
...
attn_weights = nn.functional.softmax(
    attn_weights, dim=-1, dtype=torch.float32
).to(query_states.dtype)
attn_weights = nn.functional.dropout(
    attn_weights, p=self.attention_dropout, training=self.training
)
# [B, num_head, q_len, q_head_dim]
attn_output = torch.matmul(attn_weights, v)
...

以上為MLA的核心部分代碼實現(xiàn)，里面有相應的代碼注釋。

本文轉(zhuǎn)載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/dWZk8TBY89re207ZL3GjfA???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

基于多級注意力機制的并行預測模型

Tang_Lan ? 4157瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 2971瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 2762瀏覽 ? 0回復
聊聊組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 2674瀏覽 ? 0回復
組合模型、注意力機制在單步、多步、單變量、多變量預測中的應用

Tang_Lan ? 3687瀏覽 ? 0回復
LLM基礎(chǔ)模型系列：深入注意力機制

魯班模錘1 ? 2824瀏覽 ? 0回復
聊聊 KAN、KAN 卷積結(jié)合注意力機制！

Tang_Lan ? 4729瀏覽 ? 0回復
【技術(shù)前沿】FlashAttention-2：深度學習中的高效注意力機制新突破

sword_hero ? 2298瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2290瀏覽 ? 0回復
【深度探索】FlashAttention-3：深度學習注意力機制的再進化

sword_hero ? 2273瀏覽 ? 0回復
基于深度學習故障診斷注意力機制案例分析

步驚云_32 ? 1657瀏覽 ? 0回復
大模型神經(jīng)網(wǎng)絡(luò)之注意力機制——attention

AI探索時代 ? 1793瀏覽 ? 0回復
DeepSeek中的多頭潛在注意力（MLA）淺嘗

大模型自然語言處理 ? 2050瀏覽 ? 0回復
高效注意力機制與硬件優(yōu)化：硬件優(yōu)化的稀疏注意力，長上下文建模

AI研究前瞻 ? 1727瀏覽 ? 0回復
DeepSeek全新注意力機制NSA發(fā)布，超快速長文訓練與推理

PaperAgent ? 2012瀏覽 ? 0回復
DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進大總結(jié)

大模型自然語言處理 ? 2316瀏覽 ? 0回復
一文吃透自注意力機制

人工智能訓練營 ? 2958瀏覽 ? 0回復
「DeepSeek-V3 技術(shù)解析」：多頭潛在注意力機制（MLA）

Baihai_IDP ? 1868瀏覽 ? 0回復
一文讀懂 15 種注意力機制

智駐未來 ? 2329瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布
ZeroHSI-一種零樣本的四維人類-場景交互合成方法 2025-03-24 13:12:04發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

下一篇： RAG工程如何評測？

社區(qū)精華內(nèi)容

目錄

<cite id="owoao"></cite>

<cite id="owoao"></cite>

<cite id="owoao"><track id="owoao"></track></cite>