自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="tdpap"><i id="tdpap"></i></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) 原創(chuàng) 精華

發(fā)布于 2024-8-12 07:23

瀏覽

0收藏

0、背景

Transformer 大模型，一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)，已被廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù)，比如：機(jī)器翻譯、文本摘要、生成問(wèn)答等。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

從端到端的角度來(lái)看，Transformer 大模型中數(shù)據(jù)的處理流程主要包括四個(gè)階段：首先是嵌入階段（Embedding），隨后是注意力機(jī)制階段（Attention），然后是通過(guò)多層感知機(jī)（MLPs）進(jìn)行處理，最后是從模型的表示轉(zhuǎn)換到最終輸出的解嵌入階段（Unembedding），如下圖所示：

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

圖：Embedding -> Attention -> MLPs -> Unembedding

下面是對(duì)這四個(gè)階段的簡(jiǎn)要介紹。

1、Embedding（嵌入）階段

大模型的輸入通常由離散的詞匯或符號(hào)組成（比如：在英文文本中，每個(gè)單詞或標(biāo)點(diǎn)符號(hào)都是一個(gè)單獨(dú)的符號(hào)）。嵌入層的作用是將這些離散的符號(hào)轉(zhuǎn)換成連續(xù)的、具有固定維度的向量（通常稱為詞嵌入）。這些向量能夠捕獲符號(hào)的語(yǔ)義以及上下文信息。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

在Transformer 大模型中，無(wú)論是編碼器（Encoder）還是解碼器（Decoder），都包含一個(gè)嵌入層。此外，在解碼器中，還會(huì)添加一個(gè)位置嵌入（Positional Embedding）層，用于記錄序列中單詞的位置信息，這是因?yàn)?Transformer 大模型不通過(guò) RNN 或 CNN 等傳統(tǒng)結(jié)構(gòu)來(lái)直接捕捉序列的順序信息。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

2、Attention （注意力機(jī)制）階段

注意力機(jī)制構(gòu)成了 Transformer 大模型的基石，它使得大模型能夠在產(chǎn)生當(dāng)前輸出時(shí)聚焦于輸入序列中的各個(gè)部分。Transformer 大模型采用了多種類型的注意力機(jī)制，其中包括自注意力（Self-Attention）、編碼器-解碼器注意力（Encoder-Decoder Attention）以及掩碼多頭注意力（Masked Multi-Head Attention）。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

自注意力機(jī)制使得大模型能夠識(shí)別序列內(nèi)不同位置之間的相互關(guān)系，進(jìn)而把握序列的內(nèi)在結(jié)構(gòu)。編碼器-解碼器注意力機(jī)制則使得大模型在輸出生成過(guò)程中能夠針對(duì)輸入序列的特定部分給予關(guān)注。在注意力機(jī)制的運(yùn)算過(guò)程中，會(huì)生成一個(gè)注意力權(quán)重矩陣，該矩陣揭示了輸入序列中每個(gè)位置對(duì)于當(dāng)前位置的貢獻(xiàn)程度。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

3、MLPs（多層感知機(jī)，也稱為前饋神經(jīng)網(wǎng)絡(luò)）階段

在注意力機(jī)制處理之后，大模型會(huì)利用一個(gè)或多個(gè)全連接層（也稱為前饋網(wǎng)絡(luò)或 MLPs）來(lái)進(jìn)行更深層次的變換和特征提取。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

這些全連接層能夠捕捉輸入數(shù)據(jù)中的非線性關(guān)系，并輔助模型識(shí)別更復(fù)雜的模式。在 Transformer 大模型中，MLPs 一般被置于自注意力層和歸一化層之間，共同構(gòu)成了所謂的“編碼器塊”或“解碼器塊”。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

4、Unembedding（從模型表示到最終輸出）階段

這一過(guò)程可以被視作從大模型的內(nèi)部表示到最終輸出格式的轉(zhuǎn)換。

在文本生成任務(wù)中，比如：機(jī)器翻譯，解碼器的輸出將通過(guò)一個(gè)線性層和一個(gè) Softmax 函數(shù)，以產(chǎn)生一個(gè)概率分布，該分布反映了下一個(gè)輸出詞（token）的概率。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

而在其他類型的任務(wù)中，比如：文本分類，解碼器的輸出可能直接用于損失函數(shù)的計(jì)算（比如：交叉熵?fù)p失），或者通過(guò)其他方法轉(zhuǎn)換成最終的預(yù)測(cè)結(jié)果。

Transformer 動(dòng)畫揭秘：數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者：玄姐

原文鏈接：????https://mp.weixin.qq.com/s/wY5WtAlqHNPQN7LbAS9c8g??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

張俊林：揭去神秘面紗，Sora關(guān)鍵技術(shù)逆向工程圖解

mb5f8eba9bdb0af ? 6283瀏覽 ? 0回復(fù)
三大關(guān)鍵技術(shù)看RAG如何提升LLM的能力

angel ? 7325瀏覽 ? 0回復(fù)
Advanced RAG 07：在 RAG 系統(tǒng)中進(jìn)行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 4913瀏覽 ? 0回復(fù)
Agent四大范式 | 綜述：全面理解Agent工作原理

大語(yǔ)言模型論文跟蹤 ? 6604瀏覽 ? 0回復(fù)
計(jì)算機(jī)視覺(jué)關(guān)鍵技術(shù)

mb66125a723d24d ? 2314瀏覽 ? 0回復(fù)
AI四大方向分布生成可信永續(xù)

數(shù)字化助推器 ? 2766瀏覽 ? 0回復(fù)
AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

AIGC觀察者 ? 3268瀏覽 ? 0回復(fù)
2024年云中AI工程的三大關(guān)鍵趨勢(shì)

51CTO技術(shù)棧 ? 2493瀏覽 ? 0回復(fù)
RAG 開發(fā)四大痛點(diǎn)及解決方案

玄姐聊AGI ? 2593瀏覽 ? 0回復(fù)
AI應(yīng)用落地關(guān)鍵技術(shù)：AI Agent

玄姐聊AGI ? 2152瀏覽 ? 0回復(fù)
LLM 分布式訓(xùn)練六大關(guān)鍵技術(shù)介紹

Baihai_IDP ? 2530瀏覽 ? 0回復(fù)
LangChain實(shí)戰(zhàn) | Tool Calling ：讓AI真正動(dòng)起來(lái)的關(guān)鍵技術(shù)

AI取經(jīng)路 ? 3397瀏覽 ? 0回復(fù)
分布式框架下的數(shù)據(jù)處理與模型推理實(shí)踐

zhcs333 ? 2738瀏覽 ? 0回復(fù)
2025 AI Infra展望：重塑基礎(chǔ)設(shè)施的四大關(guān)鍵趨勢(shì)

唐克 ? 2650瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的兩個(gè)重難點(diǎn)之一，數(shù)據(jù)處理和模型設(shè)計(jì)

AI探索時(shí)代 ? 1222瀏覽 ? 0回復(fù)
Dify Sandbox實(shí)現(xiàn)文件路徑獲取與Excel數(shù)據(jù)處理

九歌AI大模型 ? 868瀏覽 ? 0回復(fù)
從科研提速到數(shù)據(jù)攻堅(jiān)：GPU 服務(wù)器的四大核心戰(zhàn)場(chǎng)（上）

算力便利店 ? 458瀏覽 ? 0回復(fù)
從科研提速到數(shù)據(jù)攻堅(jiān)：GPU 服務(wù)器的四大核心戰(zhàn)場(chǎng)（下）

算力便利店 ? 430瀏覽 ? 0回復(fù)
從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解

PyTorch研習(xí)社 ? 791瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從 Local MCP Server 到 Remote MCP Server 架構(gòu)設(shè)計(jì)演進(jìn) 15h前發(fā)布
Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 15h前發(fā)布

熱門推薦

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Java 開發(fā)必看！MCP Server 實(shí)戰(zhàn)全攻略，原來(lái)這么簡(jiǎn)單 0回復(fù)

暴論：2025年，程序員必學(xué)技能就是 MCP 0回復(fù)

11張圖全面總結(jié) MCP、A2A、Function Calling 架構(gòu)設(shè)計(jì)間關(guān)系 0回復(fù)

MCP 架構(gòu)設(shè)計(jì)演進(jìn)：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計(jì)實(shí)現(xiàn) 0回復(fù)

上一篇：一文徹底理解大模型 Agent 智能體原理和案例

下一篇：一個(gè)更小、更快、更干凈的 GraphRAG??！

社區(qū)精華內(nèi)容

目錄

<sub id="zwato"></sub>

<style id="zwato"></style>

^{<blockquote id="zwato"></blockquote>}