自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?

發(fā)布于 2024-9-25 13:05
瀏覽
0收藏

前言

本期基于凱斯西儲(chǔ)大學(xué)(CWRU)軸承數(shù)據(jù),進(jìn)行 Transformer 的結(jié)構(gòu)優(yōu)勢(shì)進(jìn)行講解,結(jié)合論文《How Much Attention Do You Need? 》,探索不同模塊對(duì)故障分類任務(wù)的影響力。


Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

1 《How Much Attention Do You Need? 》

1.1 論文解析

論文提到三個(gè)觀點(diǎn):

(1)Source attention on lower encoder layers brings no additional benefit (x4.2).

解釋:

  • Source Attention:通常指的是在編碼器(encoder)中,模型關(guān)注輸入序列的不同部分的機(jī)制。在Transformer中,編碼器的每一層都通過(guò)自注意力(self-attention)機(jī)制來(lái)處理輸入序列。
  • Lower Encoder Layers:指的是編碼器中的靠前或較淺的層。
  • 結(jié)論意義:在模型的較淺層次,對(duì)源輸入進(jìn)行復(fù)雜的注意力機(jī)制處理并沒(méi)有顯著的性能提升。也就是說(shuō),較低層次的編碼器主要在做基礎(chǔ)特征提取,而復(fù)雜的注意力模式在這些層次上未能發(fā)揮其潛力。因此,將注意力機(jī)制的復(fù)雜性集中在編碼器的更深層次可能更為有效。

(2)Multiple source attention layers and residual feed-forward layers are key (x4.3).

解釋:

  • Multiple Source Attention Layers:在模型中使用多個(gè)層次的注意力機(jī)制來(lái)處理源輸入序列。
  • Residual Feed-Forward Layers:在每個(gè)注意力層之后,通常會(huì)有一個(gè)殘差結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network),這對(duì)于學(xué)習(xí)復(fù)雜的特征變換是重要的。
  • 結(jié)論意義:這表明,對(duì)源輸入進(jìn)行多層次的注意力處理,以及在每個(gè)注意力層之后使用殘差前饋層,是模型性能的關(guān)鍵因素。這可能是因?yàn)槎鄬哟蔚年P(guān)注機(jī)制允許模型在不同的抽象層次上理解輸入序列,并通過(guò)殘差連接有效地訓(xùn)練深層模型。

(3)Self-attention is more important for the source than for the target side (x4.4).

解釋:

  • Self-Attention:一種注意力機(jī)制,輸入的每個(gè)元素(如序列中的一個(gè)詞)對(duì)自身序列中的其他元素進(jìn)行關(guān)注,以捕捉序列內(nèi)部的相關(guān)性。
  • Source Side vs. Target Side:在序列到序列模型中,源指的是輸入序列(例如,翻譯任務(wù)中的源語(yǔ)言),而目標(biāo)指的是輸出序列(例如,翻譯任務(wù)中的目標(biāo)語(yǔ)言)。
  • 結(jié)論意義:這個(gè)結(jié)論表明,自注意力機(jī)制在源輸入序列的處理過(guò)程中比在目標(biāo)輸出序列生成過(guò)程中更為重要。這可能是因?yàn)樵谠摧斎氲木幋a階段,理解和建模句子內(nèi)部的長(zhǎng)程依賴性和上下文關(guān)系至關(guān)重要,而在目標(biāo)側(cè),可能更多依賴上下文和已生成的部分來(lái)預(yù)測(cè)下一個(gè)元素。

2.1 具體結(jié)構(gòu)探究

(1)雙向 RNN 替換多頭注意力

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)


Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)


RNN嵌入Transformer后,上圖展示了對(duì)原生RNN逐步加入Transformer的各個(gè)構(gòu)件后的效果。從上面的逐步對(duì)比過(guò)程可以看到,原生RNN的效果在不斷穩(wěn)定提升。但是原本的Transformer相比,性能仍然有差距。

(2)CNN 替換多頭注意力

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)


Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

上圖展示了對(duì)CNN進(jìn)行不斷加入Transformer的各個(gè)構(gòu)件后的過(guò)程以及其對(duì)應(yīng)效果。同樣的,性能也有不同幅度的提升。但是也與原本的Transformer性能存在一些差距。

(3)論文結(jié)論:

我們發(fā)現(xiàn)基于RNN的模型受益于多源注意機(jī)制和剩余前饋塊。另一方面,基于CNN的模型可以通過(guò)層歸一化和前饋塊來(lái)改進(jìn)。這些變化使基于RNN和CNN的模型更接近Transformer。此外,我們還展示了可以成功地組合體系結(jié)構(gòu)。

我們發(fā)現(xiàn)自我注意在編碼器方面比在解碼器方面重要得多,即使沒(méi)有自我注意的模型也表現(xiàn)得非常好。對(duì)于我們?cè)u(píng)估的數(shù)據(jù)集,在大多數(shù)情況下,編碼器側(cè)具有自關(guān)注的模型以及解碼器側(cè)具有RNN或CNN的模型與Transformer模型相比具有競(jìng)爭(zhēng)力。

2 結(jié)合故障診斷進(jìn)行探索

2.1 探索目標(biāo)分析

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

根據(jù)上述結(jié)論,編碼器結(jié)構(gòu)在特征提取過(guò)程中扮演著重要角色,而編碼器結(jié)構(gòu)又由多頭注意力、前饋神經(jīng)網(wǎng)絡(luò)、殘差連接等部分組成。結(jié)合故障診斷任務(wù),我們可以鎖定2個(gè)研究對(duì)象:

  • 編碼器整體結(jié)構(gòu)
  • 多頭注意力機(jī)制

2.2 多頭注意力機(jī)制的優(yōu)勢(shì)

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

(1)多角度關(guān)注:

不同的頭可以從不同的角度和細(xì)粒度的層次來(lái)關(guān)注輸入序列的不同部分,從而捕捉更豐富的特征和關(guān)系。

(2)提高模型的表達(dá)能力:

多頭機(jī)制使得模型可以在不同的子空間中并行學(xué)習(xí),這增強(qiáng)了其表達(dá)復(fù)雜關(guān)系和模式的能力。

(3)穩(wěn)定訓(xùn)練:

通過(guò)縮放點(diǎn)積和多頭的并行計(jì)算,模型能更好地處理長(zhǎng)序列并穩(wěn)定梯度。

3 軸承故障數(shù)據(jù)的預(yù)處理

3.1 導(dǎo)入數(shù)據(jù)

參考之前的文章,進(jìn)行故障10分類的預(yù)處理,凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)10分類數(shù)據(jù)集:


Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

train_set、val_set、test_set 均為按照7:2:1劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集,最后保存數(shù)據(jù)

3.2 故障數(shù)據(jù)預(yù)處理與數(shù)據(jù)集制作

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

4 編碼器整體結(jié)構(gòu)的實(shí)驗(yàn)對(duì)比

4.1 對(duì)比模型為:

  • 模型 A :Transformer 編碼器結(jié)構(gòu)
  • 模型 B :多頭注意力機(jī)制

4.2 西儲(chǔ)大學(xué)十分類數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

(1)模型 A:

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

模型評(píng)估:

準(zhǔn)確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

(2)模型 B:

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

模型評(píng)估:

準(zhǔn)確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

4.3 東南大學(xué)齒輪箱軸承故障-五分類數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

(1)模型 A:

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

模型評(píng)估:

準(zhǔn)確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

(2)模型 B:

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

模型評(píng)估:

準(zhǔn)確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

5 實(shí)驗(yàn)對(duì)比結(jié)果分析

Transformer結(jié)構(gòu)優(yōu)勢(shì) ,How Much Attention Do You Need?-AI.x社區(qū)

通過(guò)兩個(gè)數(shù)據(jù)集的對(duì)比實(shí)驗(yàn),我們可以發(fā)現(xiàn),Transformer 編碼器層在故障信號(hào)分類任務(wù)上取得了不錯(cuò)的效果,但是僅用多頭注意力機(jī)制分類效果有一定程度的下降,證明Transformer 編碼器整體結(jié)構(gòu)在故障信號(hào)分類任務(wù)上的優(yōu)越性!大家還可以進(jìn)一步細(xì)致的探索結(jié)構(gòu)中的其他部分。

本文轉(zhuǎn)載自??建模先鋒??,作者: 小蝸愛(ài)建模 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦