自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) 原創(chuàng) 精華

發(fā)布于 2024-8-12 07:23
瀏覽
0收藏

0、背景

Transformer 大模型,一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),已被廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù),比如:機(jī)器翻譯、文本摘要、生成問(wèn)答等。

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

從端到端的角度來(lái)看,Transformer 大模型中數(shù)據(jù)的處理流程主要包括四個(gè)階段:首先是嵌入階段(Embedding),隨后是注意力機(jī)制階段(Attention),然后是通過(guò)多層感知機(jī)(MLPs)進(jìn)行處理,最后是從模型的表示轉(zhuǎn)換到最終輸出的解嵌入階段(Unembedding),如下圖所示:


Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

圖:Embedding -> Attention -> MLPs -> Unembedding

下面是對(duì)這四個(gè)階段的簡(jiǎn)要介紹。

1、Embedding(嵌入)階段

大模型的輸入通常由離散的詞匯或符號(hào)組成(比如:在英文文本中,每個(gè)單詞或標(biāo)點(diǎn)符號(hào)都是一個(gè)單獨(dú)的符號(hào))。嵌入層的作用是將這些離散的符號(hào)轉(zhuǎn)換成連續(xù)的、具有固定維度的向量(通常稱為詞嵌入)。這些向量能夠捕獲符號(hào)的語(yǔ)義以及上下文信息。

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)


在Transformer 大模型中,無(wú)論是編碼器(Encoder)還是解碼器(Decoder),都包含一個(gè)嵌入層。此外,在解碼器中,還會(huì)添加一個(gè)位置嵌入(Positional Embedding)層,用于記錄序列中單詞的位置信息,這是因?yàn)?Transformer 大模型不通過(guò) RNN 或 CNN 等傳統(tǒng)結(jié)構(gòu)來(lái)直接捕捉序列的順序信息。

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)


2、Attention (注意力機(jī)制)階段

注意力機(jī)制構(gòu)成了 Transformer 大模型的基石,它使得大模型能夠在產(chǎn)生當(dāng)前輸出時(shí)聚焦于輸入序列中的各個(gè)部分。Transformer 大模型采用了多種類型的注意力機(jī)制,其中包括自注意力(Self-Attention)、編碼器-解碼器注意力(Encoder-Decoder Attention)以及掩碼多頭注意力(Masked Multi-Head Attention)。

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)


自注意力機(jī)制使得大模型能夠識(shí)別序列內(nèi)不同位置之間的相互關(guān)系,進(jìn)而把握序列的內(nèi)在結(jié)構(gòu)。編碼器-解碼器注意力機(jī)制則使得大模型在輸出生成過(guò)程中能夠針對(duì)輸入序列的特定部分給予關(guān)注。在注意力機(jī)制的運(yùn)算過(guò)程中,會(huì)生成一個(gè)注意力權(quán)重矩陣,該矩陣揭示了輸入序列中每個(gè)位置對(duì)于當(dāng)前位置的貢獻(xiàn)程度。

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)



3、MLPs(多層感知機(jī),也稱為前饋神經(jīng)網(wǎng)絡(luò))階段

在注意力機(jī)制處理之后,大模型會(huì)利用一個(gè)或多個(gè)全連接層(也稱為前饋網(wǎng)絡(luò)或 MLPs)來(lái)進(jìn)行更深層次的變換和特征提取。


Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

這些全連接層能夠捕捉輸入數(shù)據(jù)中的非線性關(guān)系,并輔助模型識(shí)別更復(fù)雜的模式。在 Transformer 大模型中,MLPs 一般被置于自注意力層和歸一化層之間,共同構(gòu)成了所謂的“編碼器塊”或“解碼器塊”。


Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)


4、Unembedding(從模型表示到最終輸出)階段

這一過(guò)程可以被視作從大模型的內(nèi)部表示到最終輸出格式的轉(zhuǎn)換。

在文本生成任務(wù)中,比如:機(jī)器翻譯,解碼器的輸出將通過(guò)一個(gè)線性層和一個(gè) Softmax 函數(shù),以產(chǎn)生一個(gè)概率分布,該分布反映了下一個(gè)輸出詞(token)的概率。

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)

而在其他類型的任務(wù)中,比如:文本分類,解碼器的輸出可能直接用于損失函數(shù)的計(jì)算(比如:交叉熵?fù)p失),或者通過(guò)其他方法轉(zhuǎn)換成最終的預(yù)測(cè)結(jié)果。

Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) -AI.x社區(qū)



本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI  作者:玄姐

原文鏈接:????https://mp.weixin.qq.com/s/wY5WtAlqHNPQN7LbAS9c8g??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦