Transformer 動(dòng)畫揭秘:數(shù)據(jù)處理的四大關(guān)鍵技術(shù) 原創(chuàng) 精華
0、背景
Transformer 大模型,一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),已被廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù),比如:機(jī)器翻譯、文本摘要、生成問(wèn)答等。
從端到端的角度來(lái)看,Transformer 大模型中數(shù)據(jù)的處理流程主要包括四個(gè)階段:首先是嵌入階段(Embedding),隨后是注意力機(jī)制階段(Attention),然后是通過(guò)多層感知機(jī)(MLPs)進(jìn)行處理,最后是從模型的表示轉(zhuǎn)換到最終輸出的解嵌入階段(Unembedding),如下圖所示:
圖:Embedding -> Attention -> MLPs -> Unembedding
下面是對(duì)這四個(gè)階段的簡(jiǎn)要介紹。
1、Embedding(嵌入)階段
大模型的輸入通常由離散的詞匯或符號(hào)組成(比如:在英文文本中,每個(gè)單詞或標(biāo)點(diǎn)符號(hào)都是一個(gè)單獨(dú)的符號(hào))。嵌入層的作用是將這些離散的符號(hào)轉(zhuǎn)換成連續(xù)的、具有固定維度的向量(通常稱為詞嵌入)。這些向量能夠捕獲符號(hào)的語(yǔ)義以及上下文信息。
在Transformer 大模型中,無(wú)論是編碼器(Encoder)還是解碼器(Decoder),都包含一個(gè)嵌入層。此外,在解碼器中,還會(huì)添加一個(gè)位置嵌入(Positional Embedding)層,用于記錄序列中單詞的位置信息,這是因?yàn)?Transformer 大模型不通過(guò) RNN 或 CNN 等傳統(tǒng)結(jié)構(gòu)來(lái)直接捕捉序列的順序信息。
2、Attention (注意力機(jī)制)階段
注意力機(jī)制構(gòu)成了 Transformer 大模型的基石,它使得大模型能夠在產(chǎn)生當(dāng)前輸出時(shí)聚焦于輸入序列中的各個(gè)部分。Transformer 大模型采用了多種類型的注意力機(jī)制,其中包括自注意力(Self-Attention)、編碼器-解碼器注意力(Encoder-Decoder Attention)以及掩碼多頭注意力(Masked Multi-Head Attention)。
自注意力機(jī)制使得大模型能夠識(shí)別序列內(nèi)不同位置之間的相互關(guān)系,進(jìn)而把握序列的內(nèi)在結(jié)構(gòu)。編碼器-解碼器注意力機(jī)制則使得大模型在輸出生成過(guò)程中能夠針對(duì)輸入序列的特定部分給予關(guān)注。在注意力機(jī)制的運(yùn)算過(guò)程中,會(huì)生成一個(gè)注意力權(quán)重矩陣,該矩陣揭示了輸入序列中每個(gè)位置對(duì)于當(dāng)前位置的貢獻(xiàn)程度。
3、MLPs(多層感知機(jī),也稱為前饋神經(jīng)網(wǎng)絡(luò))階段
在注意力機(jī)制處理之后,大模型會(huì)利用一個(gè)或多個(gè)全連接層(也稱為前饋網(wǎng)絡(luò)或 MLPs)來(lái)進(jìn)行更深層次的變換和特征提取。
這些全連接層能夠捕捉輸入數(shù)據(jù)中的非線性關(guān)系,并輔助模型識(shí)別更復(fù)雜的模式。在 Transformer 大模型中,MLPs 一般被置于自注意力層和歸一化層之間,共同構(gòu)成了所謂的“編碼器塊”或“解碼器塊”。
4、Unembedding(從模型表示到最終輸出)階段
這一過(guò)程可以被視作從大模型的內(nèi)部表示到最終輸出格式的轉(zhuǎn)換。
在文本生成任務(wù)中,比如:機(jī)器翻譯,解碼器的輸出將通過(guò)一個(gè)線性層和一個(gè) Softmax 函數(shù),以產(chǎn)生一個(gè)概率分布,該分布反映了下一個(gè)輸出詞(token)的概率。
而在其他類型的任務(wù)中,比如:文本分類,解碼器的輸出可能直接用于損失函數(shù)的計(jì)算(比如:交叉熵?fù)p失),或者通過(guò)其他方法轉(zhuǎn)換成最終的預(yù)測(cè)結(jié)果。
本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者:玄姐
原文鏈接:????https://mp.weixin.qq.com/s/wY5WtAlqHNPQN7LbAS9c8g??
