自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華大學(xué)最新發(fā)布:統(tǒng)一時(shí)序預(yù)測(cè)模型,上下文長(zhǎng)度首次擴(kuò)展至千級(jí)別,適用各類數(shù)據(jù)集

發(fā)布于 2024-10-16 15:44
瀏覽
0收藏

今天給大家介紹一篇清華大學(xué)的時(shí)間序列預(yù)測(cè)最新工作,提出了統(tǒng)一的Transformer時(shí)序預(yù)測(cè)模型,能同時(shí)處理單變量和多變量時(shí)序預(yù)測(cè),并將時(shí)序預(yù)測(cè)的上下文長(zhǎng)度首次擴(kuò)充到千級(jí)別。

論文標(biāo)題:TIMER-XL: LONG-CONTEXT TRANSFORMERS FOR UNIFIED TIME SERIES FORECASTING

下載地址:??https://arxiv.org/pdf/2410.04803v1??

清華大學(xué)最新發(fā)布:統(tǒng)一時(shí)序預(yù)測(cè)模型,上下文長(zhǎng)度首次擴(kuò)展至千級(jí)別,適用各類數(shù)據(jù)集-AI.x社區(qū)

1.背景

構(gòu)建類似NLP領(lǐng)域的統(tǒng)一大模型是時(shí)序預(yù)測(cè)領(lǐng)域近期研究的焦點(diǎn)。雖然前序已經(jīng)涌現(xiàn)很多工作,但是這些建模方法只能處理最多幾百長(zhǎng)度的上下文序列,比如根據(jù)歷史200個(gè)數(shù)據(jù)點(diǎn)預(yù)測(cè)未來時(shí)刻的序列值。而NLP中的建??梢岳们Ъ?jí)別甚至萬級(jí)別的上下文信息。歷史序列長(zhǎng)度的不足,導(dǎo)致時(shí)序預(yù)測(cè)模型無法根據(jù)完整的、長(zhǎng)周期的歷史信息進(jìn)行預(yù)測(cè),影響了預(yù)測(cè)效果。

為了解決上述問題,本文構(gòu)建了基于Decoder-only Transformer模型的統(tǒng)一時(shí)間序列預(yù)測(cè)模型Timer-XL,可以同時(shí)處理單變量和多變量的時(shí)序預(yù)測(cè),并同時(shí)建模變量間關(guān)系,對(duì)比其他SOTA模型實(shí)現(xiàn)了效果提升。

清華大學(xué)最新發(fā)布:統(tǒng)一時(shí)序預(yù)測(cè)模型,上下文長(zhǎng)度首次擴(kuò)展至千級(jí)別,適用各類數(shù)據(jù)集-AI.x社區(qū)

2.Next Token Prediction任務(wù)

類似NLP中的語言模型,Timer-XL使用了Next Token Prediction任務(wù)進(jìn)行模型訓(xùn)練。在語言模型中,Next Token Prediction任務(wù)的目標(biāo)是根據(jù)前面的token,預(yù)測(cè)下一個(gè)token是什么。在時(shí)間序列中,Time-XL將token定義為一個(gè)窗口內(nèi)的時(shí)間序列,也就是一個(gè)patch作為一個(gè)token。優(yōu)化的目標(biāo)就變成了預(yù)測(cè)下一個(gè)patch的時(shí)間序列,以MSE為目標(biāo)進(jìn)行擬合。

上述方式只適用于單變量時(shí)間序列。為了擴(kuò)展到多變量時(shí)間序列,Timer-XL采用了多元Next Token Prediction的建模方式。整體可以理解為,每個(gè)變量仍然獨(dú)立的預(yù)測(cè)下一個(gè)token,但是會(huì)根據(jù)所有變量的歷史序列來預(yù)測(cè)各個(gè)變量的下一個(gè)token,公式可以表示為如下形式:

清華大學(xué)最新發(fā)布:統(tǒng)一時(shí)序預(yù)測(cè)模型,上下文長(zhǎng)度首次擴(kuò)展至千級(jí)別,適用各類數(shù)據(jù)集-AI.x社區(qū)

通過這種多變量Next Token Prediction的擴(kuò)展,模型可以同時(shí)建模序列關(guān)系和變量間關(guān)系,實(shí)現(xiàn)了從1D建模到2D建模的擴(kuò)展。

3.模型結(jié)構(gòu)

Timer-XL整體基于Transformer Decoder的模型結(jié)構(gòu),位置編碼采用目前主流語言模型使用較多的RoPE。

其中一個(gè)核心問題是,引入多元Next Token Prediction任務(wù)后,如何構(gòu)建attention。文中提出了TimeAttention模塊,其基本思路也很簡(jiǎn)單,在預(yù)測(cè)每一個(gè)變量的值時(shí),通過attention mask的方式讓其只和各個(gè)變量該時(shí)刻之前的值進(jìn)行attention。比如下圖中預(yù)測(cè)A序列的第3個(gè)token的值,會(huì)和A、B的第一個(gè)時(shí)刻、第二個(gè)時(shí)刻的tokne計(jì)算attention。

此外,這種attention mask的方式也可以靈活引入變量間關(guān)系的建模。比如可以根據(jù)兩個(gè)變量之間是否相互依賴,修改整個(gè)attention mask的構(gòu)造方式,融合時(shí)間(序列)和空間(變量間)的關(guān)系。

清華大學(xué)最新發(fā)布:統(tǒng)一時(shí)序預(yù)測(cè)模型,上下文長(zhǎng)度首次擴(kuò)展至千級(jí)別,適用各類數(shù)據(jù)集-AI.x社區(qū)

4.實(shí)驗(yàn)效果

在實(shí)驗(yàn)部分,文中對(duì)比了和各類時(shí)序預(yù)測(cè)模型,包括統(tǒng)計(jì)模型、深度模型等SOTA方法的效果,本文的整體MSE都取得了較明顯的下降。

清華大學(xué)最新發(fā)布:統(tǒng)一時(shí)序預(yù)測(cè)模型,上下文長(zhǎng)度首次擴(kuò)展至千級(jí)別,適用各類數(shù)據(jù)集-AI.x社區(qū)

實(shí)驗(yàn)部分也重點(diǎn)論證了Timer-XL的通用性,一個(gè)模型可以用于各類數(shù)據(jù)集,包括在訓(xùn)練數(shù)據(jù)內(nèi)的數(shù)據(jù)集,以及非訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集,有較強(qiáng)的泛化性。

清華大學(xué)最新發(fā)布:統(tǒng)一時(shí)序預(yù)測(cè)模型,上下文長(zhǎng)度首次擴(kuò)展至千級(jí)別,適用各類數(shù)據(jù)集-AI.x社區(qū)

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦