自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="5milk"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

解鎖Transformer核心！手把手帶你看懂自注意力機制：三個輸入一步步算到底

人工智能訓練營

發(fā)布于 2025-4-15 00:01

瀏覽

0收藏

很多課程都會通過公式來說明Transformer，但是沒有給你算過數(shù)，也沒讓你明白一件更重要的事：

“自注意力給出來的輸出，實際上表示了什么？”

本文就想用一個質化、好懂、可實際運算的例子，帶你真正看懂 Self-Attention 是怎么工作的，并解釋它的輸出真正意義!

1. 讓我們再來回顧下什么是“注意力機制”？

你看一段文字時，總會下意識的想：我要看哪些詞？哪些字是我目前理解這句話的關鍵？

注意力機制就是這樣一種方法，它允許模型根據(jù)“當前信息”，自動地從全文里找到最關鍵的部分來作為參考，并給他們分配權重。

不是每個詞均分重，而是“重要的看一眼，不重要的算個數(shù)”。

但是“自注意力”比較特殊：

每個輸入，都在想“我該看誰？” 每個輸出，都是它看完周圍后，自己新生出的表示

2.自注意機制是怎么計算的？

我們用 3 個 2D 向量（比如詞嵌入）作為輸入序列：

x? = [1, 0] # 可能是詞“我”

x? = [0, 1] # 可能是詞“愛”

x? = [1, 1] # 可能是詞“你”

把它組成矩陣

X = [[1, 0],

[0, 1],

[1, 1]]

我們手動設定 Q、K、V 的權重矩陣：

W_Q = [[1, 0],

[1, 1]]

W_K = [[1, 2],

[0, 1]]

W_V = [[2, 0],

[0, 1]]

接下來計算QKT：

Q = X · W_Q

K = X · W_K

V = X · W_V

比如計算Q

Q =

[[1, 0], => [1*1 + 0*1, 1*0 + 0*1] = [1, 0]

[0, 1], [0*1 + 1*1, 0*0 + 1*1] = [1, 1]

[1, 1]] [1*1 + 1*1, 1*0 + 1*1] = [2, 1]

由此可得K和V：

K = [[1, 2], V = [[2, 0],

[0, 1], [0, 1],

[1, 3]] [2, 1]]

接下來計算計算 Attention Score（Q·K?）

計算 Q·K?（點積）再除以 √2（d=2）：

我們用 Q? 和所有 K 做 dot product，Q? 和所有 K 做 dot product，依此類推：

解鎖Transformer核心！手把手帶你看懂自注意力機制：三個輸入一步步算到底-AI.x社區(qū)

縮放除以 √2 ≈ 1.414：

S_scaled ≈ [[0.71, 0, 0.71],

[2.12, 0.71, 2.83],

[2.83, 0.71, 3.54]]

計算每一行的 softmax：

softmax([0.71, 0, 0.71]) = [0.401, 0.198, 0.401]

softmax([2.12, 0.71, 2.83]) ≈ [0.289, 0.075, 0.636]

softmax([2.83, 0.71, 3.54]) ≈ [0.288, 0.057, 0.655]

Attention Weight × V：

output? = 0.401*[2,0] + 0.198*[0,1] + 0.401*[2,1]

= [0.802 + 0.802, 0 + 0.198 + 0.401] = [1.604, 0.599]

output? = 0.289*[2,0] + 0.075*[0,1] + 0.636*[2,1]

= [0.578 + 1.272, 0.075 + 0.636] = [1.85, 0.711]

output? = 0.288*[2,0] + 0.057*[0,1] + 0.655*[2,1]

= [0.576 + 1.31, 0.057 + 0.655] = [1.886, 0.712]

我們可以得到最后的輸出：

Output =

[[1.604, 0.599],

[1.85, 0.711],

[1.886, 0.712]]

3. 輸出到底表示啥？（熱點論壇）

它已經(jīng)不僅僅是原始的詞向量了，而是：

1. 考慮了當前詞的內容（通過 Query）

2. 也考慮了它和所有其他詞的關系（通過與 Key 的點積）

3. 最后通過注意力權重，把相關的詞信息從 Value 中“加權融合”了進來

比如：

第一個詞“我”，原來是 [1, 0]，輸出是 [1.604, 0.599]

它在融合了“愛”“你”的信息后，變成了一個更富語義的表示

總結一句話：自注意力輸出 = 原詞向量 + 上下文理解 = 更聰明的表示！

這就是為什么 Transformer 模型可以強大到理解復雜語義、做翻譯、對話、生成等任務。

本文轉載自??人工智能訓練營??，作者：人工智能訓練營

標簽

贊

收藏

回復

舉報

回復

相關推薦

生成式視頻的下一步是什么

lintoms ? 2555瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 4167瀏覽 ? 0回復
基于多級注意力機制的并行預測模型

Tang_Lan ? 2975瀏覽 ? 0回復
Google總監(jiān)提出生成式AI應用架構和成熟度模型，一步步指導進階

Syrupup ? 4564瀏覽 ? 0回復
LLM基礎模型系列：深入注意力機制

魯班模錘1 ? 2833瀏覽 ? 0回復
聊聊 KAN、KAN 卷積結合注意力機制！

Tang_Lan ? 4735瀏覽 ? 0回復
注意力機制的變體之MLA

shizhi02 ? 6285瀏覽 ? 0回復
只需8步，手把手教你用LangGraph創(chuàng)建AI智能體

小虎哦哦 ? 4801瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2292瀏覽 ? 0回復
【深度探索】FlashAttention-3：深度學習注意力機制的再進化

sword_hero ? 2276瀏覽 ? 0回復
漫畫 Transformer：手把手用數(shù)學公式推導

sulu637 ? 3165瀏覽 ? 0回復
基于深度學習故障診斷注意力機制案例分析

步驚云_32 ? 1661瀏覽 ? 0回復
大模型神經(jīng)網(wǎng)絡之注意力機制——attention

AI探索時代 ? 1795瀏覽 ? 0回復
高效注意力機制與硬件優(yōu)化：硬件優(yōu)化的稀疏注意力，長上下文建模

AI研究前瞻 ? 1737瀏覽 ? 0回復
解鎖Transformer核心！一文吃透自注意力機制

人工智能訓練營 ? 2962瀏覽 ? 0回復
一文讀懂 15 種注意力機制

智駐未來 ? 2342瀏覽 ? 0回復
手把手帶你理解OpenManus

熵減AI ? 1456瀏覽 ? 0回復
MCP 全解析，手把手教你基于 MCP 開發(fā) Agent

玄姐聊AGI ? 8363瀏覽 ? 0回復
剖析Transformer模型時間復雜度：從矩陣乘法到自注意力機制和前饋神經(jīng)網(wǎng)絡的全解析

南夏的算法驛站 ? 1219瀏覽 ? 0回復

人工智能訓練營

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

什么是神經(jīng)網(wǎng)絡：反向傳播如何更新網(wǎng)絡參數(shù) 5天前發(fā)布
人工智能算法-LightGBM模型詳解 2025-04-02 00:30:49發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：人工智能算法-LightGBM模型詳解

下一篇：什么是神經(jīng)網(wǎng)絡：反向傳播如何更新網(wǎng)絡參數(shù)

社區(qū)精華內容

目錄

<s id="cbfzu"><li id="cbfzu"><progress id="cbfzu"></progress></li></s><thead id="cbfzu"><rt id="cbfzu"></rt></thead>