自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

【大模型】圖解Transformers Encoder 原創(chuàng)

發(fā)布于 2024-9-29 11:00

瀏覽

0收藏

前面圖解了Transformer整體架構(gòu)，今天圖解編碼器。

先來個整體視角：

【大模型】圖解Transformers Encoder-AI.x社區(qū)

再逐步分解開來：

????????'?? ?????? ???????????????

編碼器負責通過自注意力機制和前饋層處理輸入的 token，從而生成具有上下文感知的表示。

?? 它是 NLP 模型中理解序列的核心動力。

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 1.1: ?????????? ????????????????????

編碼器的第一步是將每個輸入的單詞嵌入為一個大小為 512 的向量。

?? 這種嵌入過程只發(fā)生在最底層的編碼器中。

可以把它想象成把單詞翻譯成模型能夠理解的語言！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 1.2: ???????????????????? ??????????????????

Transformer 缺乏循環(huán)結(jié)構(gòu)，因此它們使用位置編碼來表示 token 的位置。

怎么實現(xiàn)的？

通過正弦和余弦函數(shù)的組合，模型能夠理解句子中單詞的順序！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2: ?????????? ???? ?????????????? ????????????

編碼器是層疊的，每一層都會接收前一層的輸入，并通過多輪自注意力機制和前饋層進一步優(yōu)化輸入。

這有助于更好地理解輸入的上下文！

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2.1: ??????????-???????????? ????????-??????????????????

自注意力機制讓模型能夠?qū)⑤斎胫械拿總€詞與其他詞相互關(guān)聯(lián)。

注意力得分基于以下三個部分：

查詢（Query）

鍵（Key）

值（Value）

這個過程會重復多次，以便從多個角度進行理解！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2.2: ???????????? ????????????????????????????

通過將查詢（Query）和鍵（Key）向量相乘，給每對單詞分配一個得分。

這為序列中的每個詞分配了一個相對的重要性得分，類似于根據(jù)詞與詞之間的相關(guān)性對它們進行排序！

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2.3: ?????????????? ?????? ?????????????????? ????????????

這些得分會通過除以查詢（Query）和鍵（Key）向量維度的平方根進行縮放，以確保梯度的穩(wěn)定性。

這樣可以防止較大的值對結(jié)果產(chǎn)生偏差。??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2.4: ???????????????? ??????????????

應(yīng)用 softmax 函數(shù)以獲得注意力權(quán)重，強調(diào)重要的單詞，同時減弱不太相關(guān)的單詞。

這有助于集中注意力于輸入的關(guān)鍵部分！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2.5: ?????????????????? ?????????????? ??????????????

注意力權(quán)重與值（Value）向量相乘，生成的輸出是值的加權(quán)和。

這樣就將上下文信息整合到了輸出表示中！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2.6: ?????????????????????????? ?????? ??????????????????

編碼器中的每個子層之后都會有一個歸一化步驟和殘差連接。

這樣可以幫助緩解梯度消失問題，并確保模型在計算過程中保持平衡，為下一步做好準備！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 2.7: ????????-?????????????? ???????????? ??????????????

歸一化之后，前饋網(wǎng)絡(luò)會處理輸出，對上下文進行進一步的精細化調(diào)整。

這是在將信息發(fā)送到下一層之前的最后一步！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

???????? 3: ????????????

編碼器的最終輸出是一組向量，每個向量都捕捉了輸入序列的豐富上下文理解。

這些輸出已準備好被解碼，并用于各種 NLP 任務(wù)！??

【大模型】圖解Transformers Encoder-AI.x社區(qū)

本文轉(zhuǎn)載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/2-lpJ1jsL0-7vpmPgbY8HQ???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

已于2024-9-29 11:04:44修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

圖像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK ? 5088瀏覽 ? 0回復
LLM微調(diào)技術(shù)LoRA圖解

51CTO內(nèi)容精選 ? 2757瀏覽 ? 0回復
大模型微調(diào)：Hugging Face Transformers全流程實戰(zhàn)

51CTO內(nèi)容精選 ? 5892瀏覽 ? 0回復
【機器學習】圖解線性回歸

魚蟲子 ? 2296瀏覽 ? 0回復
【機器學習】圖解多重線性回歸

魚蟲子 ? 1979瀏覽 ? 0回復
【大模型】圖解Transformers Decoder

魚蟲子 ? 2559瀏覽 ? 0回復
圖解LLM-Agent大模型智能體

ceesoft ? 2496瀏覽 ? 0回復
如何使用BART模型和Hugging Face Transformers總結(jié)文本？

51CTO內(nèi)容精選 ? 2396瀏覽 ? 0回復
AdaBoost分類器完全圖解

51CTO內(nèi)容精選 ? 2123瀏覽 ? 0回復
圖解DSPy：Prompt的時代終結(jié)者？！

魯班模錘1 ? 3052瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 2292瀏覽 ? 0回復
大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個方面介紹大模型

AI探索時代 ? 1.4w瀏覽 ? 0回復
大模型Transformer架構(gòu)之編碼器(Encoder)和解碼器(Decoder)

AI探索時代 ? 3564瀏覽 ? 0回復
新鮮速遞：圖解新穎LLM的CoPE位置編碼

魯班模錘1 ? 2055瀏覽 ? 0回復
圖解新穎LLM的CoPE位置編碼

魯班模錘1 ? 1505瀏覽 ? 0回復
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來趨勢報告

歐米伽未來研究所 ? 6056瀏覽 ? 0回復
深入解析Transformers、BERT與SBERT：從原理到應(yīng)用

Halo咯咯 ? 3005瀏覽 ? 0回復
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 2603瀏覽 ? 0回復
圖解「模型上下文協(xié)議（MCP）」：從與傳統(tǒng) API 的比較入手

Baihai_IDP ? 1344瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

訓練大模型時，顯存都哪去了？ 2024-11-19 12:41:34發(fā)布
生產(chǎn)環(huán)境測試模型的四種方法 2024-11-15 11:22:05發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：【機器學習】圖解多重線性回歸

下一篇：【大模型】圖解Transformers Decoder

社區(qū)精華內(nèi)容

目錄

<sub id="sruro"><p id="sruro"></p></sub>