自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型Transformer架構(gòu)之編碼器(Encoder)和解碼器(Decoder) 原創(chuàng)

發(fā)布于 2024-12-31 10:19
瀏覽
0收藏

“ Transformer編碼器的作用是特征提取,而解碼器的作用是特征重建 ”

在上一篇文章中介紹了大模型的嵌入和向量,這一篇來介紹一下大模型的經(jīng)典架構(gòu)之Transformer架構(gòu)的編碼器和解碼器。

像很多人一樣,一直在奇怪Transformer架構(gòu)經(jīng)過多層編碼和解碼之后就能處理輸入數(shù)據(jù)并生成新的數(shù)據(jù);所以,今天我們就來深入了解一下Transformer的編碼器。

Transformer的編碼器

對計算機網(wǎng)絡(luò)和加解密比較了解的朋友應(yīng)該都知道編碼和解碼;以計算機的四層模型來說,應(yīng)用層——傳輸層——網(wǎng)絡(luò)層——數(shù)據(jù)鏈路層;除了應(yīng)用層之外,其它三層的數(shù)據(jù)格式都是以字節(jié)流的形式存在;而在應(yīng)用層對數(shù)據(jù)進行編碼和解碼,以獲取人類能夠識別的字符,文本,圖片等數(shù)據(jù)。

再比如我們開發(fā)中常用的加解密等手段,也是在應(yīng)用層進行處理的;因為在下層的字節(jié)流中是看不出任何有意義的信息的。

大模型Transformer架構(gòu)之編碼器(Encoder)和解碼器(Decoder)-AI.x社區(qū)

而Transformer的編碼器就類似于這種功能,Transformer的編碼器就是把人類能夠識別的數(shù)據(jù),轉(zhuǎn)換成大模型能夠識別的數(shù)據(jù);而解碼器就是把大模型能夠識別的數(shù)據(jù)轉(zhuǎn)換為人類能夠識別的內(nèi)容。

但這個轉(zhuǎn)換過程并不只是簡單的格式變換,而是要經(jīng)過多重數(shù)據(jù)處理;而這才是Transformer編碼器的核心所在。

Transformer的Encoder-Decoder編碼器-解碼器結(jié)構(gòu),這種結(jié)構(gòu)被廣泛應(yīng)用于處理序列格式的數(shù)據(jù)(Seq2Seq);編碼器和解碼器是其組成部分的核心結(jié)構(gòu)。

編碼的過程是一個模式提取的過程,它的作用是把輸入句子的特征提取出來;比如句子的文字,語義關(guān)系等;而解碼的過程是一個模式重建的過程,它是根據(jù)編碼器獲取的模式特征生成新的我們需要的內(nèi)容,這個過程就是模式重建的過程。

比如說大模型的經(jīng)典應(yīng)用領(lǐng)域之語言翻譯,就是經(jīng)過預(yù)訓(xùn)練的模型根據(jù)模式特征去“理解”一種語言,然后再根據(jù)另一種語言的模式特征生成翻譯結(jié)果。

大模型Transformer架構(gòu)之編碼器(Encoder)和解碼器(Decoder)-AI.x社區(qū)


Encoder的主要作用是進行特征提取,這樣做是因為原始輸入中包含一些無用或干擾信息,這會使模型的性能和泛化性大打折扣。所以在這之前,我們通過Encoder來先對數(shù)據(jù)進行一次特征提取和挖掘.

從架構(gòu)上看Encoder僅僅只是一個編碼器,但如果把這個編碼器給放大,我們就能看到里面更多的東西,比如說Transformer架構(gòu)中最經(jīng)典的自注意力機制。

Encoder中有一個嵌入輸入,也就是上篇文章中講的嵌入,把人類能識別的文本轉(zhuǎn)化為向量輸入到編碼器中;當(dāng)然,這個并不是編碼器的重點;編碼器的重點在其藍(lán)色框中的部分。也就是里面的自注意力層,包括多頭注意力和Add&Norm,也就是Add & Norm 殘差 & Layer Normalization 層歸一化,以及前饋神經(jīng)網(wǎng)絡(luò)——也就是feed forward。

整體流程是這樣的:

  • 首先輸入進Encoder的向量會經(jīng)過一個自注意力層,自注意力層會輸出一個長度與輸入一致,但特征維度可能不一致(也可能一致)的新特征向量z zz
  • 之后會再進行一個殘差連接(Residual Connection)的操作,將輸入x xx和z zz相加
  • 使用Layer Normalization的方法對殘差連接得到的結(jié)果進行層歸一化的操作
  • 再送入一個前饋神經(jīng)網(wǎng)絡(luò)
  • 同樣的,執(zhí)行2.和3.的操作,進行一次殘差和歸一化處理后輸出

大模型Transformer架構(gòu)之編碼器(Encoder)和解碼器(Decoder)-AI.x社區(qū)

說了那么多,其實本質(zhì)上就是一種數(shù)學(xué)模型,通過加權(quán),求和等一系列的函數(shù)計算,來獲取其數(shù)學(xué)關(guān)系。

而經(jīng)過多層Encoder編碼器層的運算,就能提取出輸入數(shù)據(jù)的模式特征;最終形成記憶——也就是大模型的參數(shù)值;后續(xù)的推理任務(wù),就可以根據(jù)這些參數(shù)值來分析輸入數(shù)據(jù)的模式特征,然后“理解”其語義關(guān)系。

大模型Transformer架構(gòu)之編碼器(Encoder)和解碼器(Decoder)-AI.x社區(qū)

而解碼器從結(jié)構(gòu)上來說和編碼器沒太大區(qū)別,唯一不同的是,解碼器比編碼器多了一個自注意層。

數(shù)據(jù)經(jīng)過解碼器之后,就是把編碼器通過模式提取的空間特征,映射到目標(biāo)空間中,也就是解碼器的模式特征模塊;最后,解碼器通過這些模式特征生成新的數(shù)據(jù)。

大模型Transformer架構(gòu)之編碼器(Encoder)和解碼器(Decoder)-AI.x社區(qū)

這就是大模型Transformer的基本運作過程,當(dāng)然其真實的運作過程遠(yuǎn)比描述的要復(fù)雜得多。

而大模型就是通過多層神經(jīng)網(wǎng)絡(luò)來實現(xiàn)編碼器-解碼器的結(jié)構(gòu),通過訓(xùn)練之后,最終來執(zhí)行真實的場景任務(wù)。


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/mxXPG_2EQOJx4LZUm2eKDQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦