自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Self-Attention在時(shí)間序列預(yù)測(cè)中有效嗎?新Transformer架構(gòu)效率效果雙提升

發(fā)布于 2024-6-12 10:27
瀏覽
0收藏

今天給大家介紹最近的一篇探索self-attention在時(shí)間序列預(yù)測(cè)有效性的文章。本文承接Are Transformers Effective for Time Series Forecasting?這篇工作,進(jìn)一步指出導(dǎo)致Transformer在時(shí)間序列問(wèn)題上效果不好的核心模塊是self-attention。并提出了一種新的線性模型+cross attention結(jié)構(gòu)解決,提升了長(zhǎng)周期時(shí)序預(yù)測(cè)效果。

Self-Attention在時(shí)間序列預(yù)測(cè)中有效嗎?新Transformer架構(gòu)效率效果雙提升-AI.x社區(qū)

論文標(biāo)題:Are Self-Attentions Effective for Time Series Forecasting?

下載地址:??https://arxiv.org/pdf/2405.16877v1??

1.背景介紹

Are Transformers Effective for Time Series Forecasting?一文中,作者指出了Transformer在時(shí)間序列預(yù)測(cè)中的問(wèn)題,并且提出線性模型就能取得比Transformer更好的效果。并且文中指出,Transformer在時(shí)間序列預(yù)測(cè)中表現(xiàn)差,是Transformer中的self-attention結(jié)構(gòu)缺乏位置和時(shí)序等先驗(yàn)信息導(dǎo)致的。

雖然上述文章將Transformer直接替換成線性模型,但本文指出,既然self-attention是導(dǎo)致Transformer效果不好的原因,那能不能只把Transformer中的self-attention去掉,而保留cross-attention結(jié)構(gòu)呢?Cross-attention是Encoder-Decoder類型的Transformer模型中的模塊,Decoder每個(gè)時(shí)刻在預(yù)測(cè)時(shí),去和Encoder的歷史序列做cross-attention,實(shí)現(xiàn)對(duì)歷史信息的利用。

Self-Attention在時(shí)間序列預(yù)測(cè)中有效嗎?新Transformer架構(gòu)效率效果雙提升-AI.x社區(qū)

基于上述思路,本文提出了CAT模型,將transformer中的self-attention完全去掉,保留cross-attention結(jié)構(gòu)。下面詳細(xì)介紹一下文中的具體實(shí)現(xiàn)。

2.實(shí)現(xiàn)方法

本文提出的模型結(jié)構(gòu),核心包括3個(gè)方面:Cross-attention模塊、參數(shù)共享機(jī)制、Query自適應(yīng)mask。

整體的模型結(jié)構(gòu)如下圖所示,可以看到,模型主體是一個(gè)基于Transformer的Encoder-Decoder結(jié)構(gòu),但是將所有self-attention模塊全部去掉,替換成了全連接網(wǎng)絡(luò)。同時(shí),底層的輸入采用PatchTST的處理方式,先轉(zhuǎn)換成patch,再輸入到Transformer模型中。

Cross-attention模塊:Cross-attention模塊的核心是在預(yù)測(cè)未來(lái)每個(gè)時(shí)間步的信息時(shí),能夠從歷史信息中檢索有用的模塊。為了實(shí)現(xiàn)cross-attention,文中給未來(lái)每個(gè)時(shí)間步,都分配了一個(gè)可學(xué)習(xí)的向量,這個(gè)向量作為attention中的query。基于這個(gè)query,和歷史序列每個(gè)時(shí)刻的向量做multi-head cross attention,實(shí)現(xiàn)Decoder到Encoder的信息交互。

參數(shù)共享機(jī)制:本文的cross-attention模塊引入,使得每個(gè)時(shí)間步的預(yù)測(cè)結(jié)果只和當(dāng)前時(shí)間步的query,以及歷史序列輸入有關(guān),因此可以實(shí)現(xiàn)高度的參數(shù)共享。因此,文中的參數(shù)共享應(yīng)用到了embedding、全連接、cross-attention等各個(gè)部分。每個(gè)未來(lái)時(shí)間步的預(yù)測(cè),參數(shù)都是共享的?;谶@個(gè)特性,CAT實(shí)現(xiàn)了大幅的模型參數(shù)量縮減。

Query自適應(yīng)mask:高度的參數(shù)共享帶來(lái)了一個(gè)問(wèn)題,每個(gè)時(shí)間步的預(yù)測(cè)會(huì)傾向于更相似的預(yù)測(cè)結(jié)果。為了解決這個(gè)問(wèn)題,文中提出了query自適應(yīng)mask。在訓(xùn)練過(guò)程中,以一定比例mask掉cross-attention的信息,使得模型只能根據(jù)query本身去預(yù)測(cè),增強(qiáng)不同query之間的差異性,進(jìn)而讓參數(shù)共享下每個(gè)時(shí)刻的預(yù)測(cè)結(jié)果更具備差異性。

Self-Attention在時(shí)間序列預(yù)測(cè)中有效嗎?新Transformer架構(gòu)效率效果雙提升-AI.x社區(qū)

3.實(shí)驗(yàn)效果

在實(shí)驗(yàn)效果上,本文提出的CATS模型結(jié)構(gòu)在時(shí)序預(yù)測(cè),特別是長(zhǎng)周期預(yù)測(cè)上取得了比較明顯的提升,主要得益于其cross-attention對(duì)歷史序列的長(zhǎng)范圍檢索能力。

Self-Attention在時(shí)間序列預(yù)測(cè)中有效嗎?新Transformer架構(gòu)效率效果雙提升-AI.x社區(qū)

在參數(shù)量上,本文提出的模型由于高度的參數(shù)共享性,即使在長(zhǎng)周期預(yù)測(cè)中,也能保證參數(shù)量不會(huì)急速膨脹,運(yùn)行效率明顯優(yōu)于其他SOTA模型。

Self-Attention在時(shí)間序列預(yù)測(cè)中有效嗎?新Transformer架構(gòu)效率效果雙提升-AI.x社區(qū)

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦