自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華提出時(shí)間序列大模型:面向通用時(shí)序分析的生成式Transformer | ICML 2024

人工智能 新聞
大模型在語言、圖像領(lǐng)域取得了巨大成功,時(shí)間序列作為多個(gè)行業(yè)的重要數(shù)據(jù)類型,時(shí)序領(lǐng)域的大模型構(gòu)建尚處于起步階段。近期,清華大學(xué)的研究團(tuán)隊(duì)基于Transformer在大規(guī)模時(shí)間序列上進(jìn)行生成式預(yù)訓(xùn)練,獲得了任務(wù)通用的時(shí)序分析模型,展現(xiàn)出大模型特有的泛化性與可擴(kuò)展性

時(shí)間序列提供了數(shù)據(jù)隨時(shí)間變化的視角,對(duì)于理解復(fù)雜系統(tǒng)、預(yù)測(cè)未來變化和制定決策規(guī)劃至關(guān)重要,在金融、氣象、醫(yī)療、供應(yīng)鏈等多個(gè)行業(yè)中發(fā)揮著至關(guān)重要的作用。

近年來,基于深度學(xué)習(xí)開發(fā)的模型在時(shí)序分析領(lǐng)域取得了突破性進(jìn)展。然而,相較于語言、視覺大模型的蓬勃發(fā)展,現(xiàn)有模型依然面臨若干瓶頸:

(1)泛化性:模型能處理訓(xùn)練時(shí)未遇到的新數(shù)據(jù);或在數(shù)據(jù)稀缺時(shí),根據(jù)有限的訓(xùn)練數(shù)據(jù)快速適配。然而,即便是目前領(lǐng)域前沿的時(shí)序模型,在少樣本場(chǎng)景下依然會(huì)產(chǎn)生明顯的性能劣化。

圖片

時(shí)序預(yù)測(cè)模型PatchTST在不同數(shù)據(jù)稀缺條件下的效果

(2)通用性:小型深度模型訓(xùn)練后僅適合單一任務(wù)和場(chǎng)景,具有固定輸入輸出長(zhǎng)度,適配的變量數(shù)等難以泛化的性質(zhì),難以像大語言模型一樣,適用于各類下游任務(wù),例如T5,LLaMA和BLOOM等。

(3)可擴(kuò)展性:大模型關(guān)鍵特征之一在于Scaling Law:擴(kuò)大參數(shù)量或預(yù)訓(xùn)練規(guī)??梢匀〉眯Ч嵘?。然而,時(shí)序領(lǐng)域的大模型骨架尚無定論,即使是Transformer,在以往時(shí)序大模型研究中尚未展現(xiàn)出明顯的可擴(kuò)展性。

圖片


最近,清華大學(xué)軟件學(xué)院機(jī)器學(xué)習(xí)實(shí)驗(yàn)室和大數(shù)據(jù)系統(tǒng)軟件國(guó)家工程研究中心提出了名為Timer(Time Series Transformer)的面向時(shí)間序列的大模型(Large Time Series Model, LTSM)。

模型采用僅編碼器(Decoder-only)結(jié)構(gòu),基于多領(lǐng)域時(shí)間序列進(jìn)行大規(guī)模預(yù)訓(xùn)練,通過微調(diào)突破了少樣本場(chǎng)景下的性能瓶頸,適配不同輸入輸出長(zhǎng)度的時(shí)間序列,以及預(yù)測(cè),填補(bǔ),異常檢測(cè)等任務(wù),展現(xiàn)出模型可擴(kuò)展性。

目前,該工作已被ICML 2024接收。

圖片

論文鏈接:https://arxiv.org/abs/2402.02368

代碼倉(cāng)庫(kù):https://github.com/thuml/Large-Time-Series-Model

數(shù)據(jù)構(gòu)建:基于時(shí)序特性構(gòu)建層次化數(shù)據(jù)集

盡管時(shí)間序列在現(xiàn)實(shí)世界中無處不在,大規(guī)模時(shí)間序列數(shù)據(jù)集的發(fā)展卻滯后于語言,圖像,視頻等領(lǐng)域。

并且,基于低質(zhì)量,弱語義,以及難預(yù)測(cè)數(shù)據(jù)訓(xùn)練的模型無法展現(xiàn)對(duì)時(shí)間序列的通用理解能力。

為此,作者團(tuán)隊(duì)基于可預(yù)測(cè)性、平穩(wěn)性等指標(biāo)重重篩選,文章構(gòu)建了包含10億數(shù)據(jù)點(diǎn)的統(tǒng)一時(shí)間序列數(shù)據(jù)集(Unified Time Series Dataset, UTSD)。

UTSD覆蓋七個(gè)領(lǐng)域的高質(zhì)量時(shí)間序列,蘊(yùn)含時(shí)間序列模態(tài)的通用“常識(shí)”,以此訓(xùn)練模型獲得跨領(lǐng)域時(shí)序建模的基本能力,例如捕捉主要周期,生成重要模式,以及關(guān)注自相關(guān)部分等。

圖片

文章尤其重視數(shù)據(jù)質(zhì)量的重要性,對(duì)數(shù)據(jù)集進(jìn)行難度分級(jí)和配比,隨著數(shù)據(jù)規(guī)模的擴(kuò)大,變化規(guī)律復(fù)雜的數(shù)據(jù)比例也在不斷增加,以便逐步進(jìn)行模型的容量擴(kuò)展和課程學(xué)習(xí)。

圖片


作者團(tuán)隊(duì)目前還在持續(xù)擴(kuò)大數(shù)據(jù)集,并將UTSD公開至HuggingFace,以促進(jìn)時(shí)序領(lǐng)域的預(yù)訓(xùn)練以及大模型研究。

訓(xùn)練方法:統(tǒng)一格式 + 自回歸生成

不同于語言、圖像有著相對(duì)固定的格式,時(shí)序領(lǐng)域的數(shù)據(jù)存在異構(gòu)性,例如變量數(shù)目,采樣頻率和時(shí)間跨度等,因此,進(jìn)行大規(guī)模時(shí)序預(yù)訓(xùn)練的首要難題在于如何統(tǒng)一異構(gòu)的時(shí)間序列。

為將異構(gòu)時(shí)間序列轉(zhuǎn)換為統(tǒng)一格式,作者團(tuán)隊(duì)提出了一種單序列(Single Series Sequence, S3)格式。

如下圖所示,通過變量拆分,歸一化合并,分窗和采樣等流程,文章將時(shí)序數(shù)據(jù)轉(zhuǎn)換成了與語言類似的固定長(zhǎng)度的一維序列,在數(shù)值范圍內(nèi)保證分布穩(wěn)定的同時(shí),讓模型更加關(guān)注序列本身的變化模式。

圖片

在預(yù)訓(xùn)練方法上,文章將單序列切分為序列片段,每個(gè)片段作為一個(gè)“詞”,采用與LLM類似的下一詞預(yù)測(cè)(Next Token Prediction, NTP)進(jìn)行預(yù)訓(xùn)練。推理時(shí),模型可通過自回歸生成任意長(zhǎng)度的序列。

圖片

模型結(jié)構(gòu):劍走偏鋒的僅解碼器結(jié)構(gòu)

不同于當(dāng)下時(shí)序領(lǐng)域流行的僅編碼器結(jié)構(gòu),Timer采用GPT風(fēng)格的僅解碼器Transformer。


圖片

作者團(tuán)隊(duì)發(fā)現(xiàn),Encoder-only結(jié)構(gòu)接受了預(yù)測(cè)區(qū)間的所有監(jiān)督信號(hào),在端到端的訓(xùn)練場(chǎng)景中能取得較好效果,但在一定程度上限制Transformer作為時(shí)序大模型的潛力。

一方面,在Encoder-only Transformer中,輸入序列中的“詞”互相可見,可能降低了模型建模序列變化的難度;模型引入的平整化(Flattening)會(huì)影響詞之間的獨(dú)立性,導(dǎo)致難以學(xué)到序列片段的語義。

另一方面,LLM廣泛采用以詞為單位的自回歸式監(jiān)督信號(hào),每個(gè)“詞”都是預(yù)測(cè)的目標(biāo),產(chǎn)生了細(xì)粒度且互相獨(dú)立的監(jiān)督信號(hào)。

文章認(rèn)為基于大規(guī)模時(shí)序數(shù)據(jù),學(xué)習(xí)序列片段的獨(dú)立語義,能夠賦予模型在數(shù)據(jù)集之間泛化的能力。并且獲得的模型和LLM一樣,模型只限制了最大輸入長(zhǎng)度,從而能夠適用于下游任務(wù)中各種長(zhǎng)度的序列。

任務(wù)統(tǒng)一:生成式模型應(yīng)對(duì)多種任務(wù)

Timer與GPT類似進(jìn)行生成式自回歸,為進(jìn)一步擴(kuò)展模型的通用性,文章將典型時(shí)序分析場(chǎng)景統(tǒng)一為生成式任務(wù)。

(1)時(shí)序預(yù)測(cè)(Forecasting):Timer一次推理輸出一個(gè)序列片段,通過多步自回歸給出任意長(zhǎng)的預(yù)測(cè)結(jié)果。作者團(tuán)隊(duì)發(fā)現(xiàn),在預(yù)測(cè)上下文長(zhǎng)度不超過預(yù)訓(xùn)練序列長(zhǎng)度的情況下,模型不會(huì)出現(xiàn)明顯的多步誤差累積現(xiàn)象。

(2)時(shí)序填補(bǔ)(Imputation):類似語言模型T5,作者引入Mask Token表示一段連續(xù)的缺失序列。通過微調(diào),模型根據(jù)Mask之前的序列來填補(bǔ)連續(xù)的缺失值。

(3)異常檢測(cè)(Detection):文章提出了一種預(yù)測(cè)式異常檢測(cè)方法,模型首先在正常序列上進(jìn)行微調(diào),隨后根據(jù)輸入給出偏移一段時(shí)期的序列作為正常值,將其與實(shí)際采集的值對(duì)比,基于對(duì)比誤差給出異常區(qū)間的置信度。

圖片

多種時(shí)序分析任務(wù)與基于Timer的生成式分析方案

實(shí)驗(yàn)效果

文章從多個(gè)角度評(píng)估了Timer作為時(shí)序大模型的能力,包括少樣本微調(diào),零樣本預(yù)測(cè),任務(wù)通用性,可擴(kuò)展性等,并分析了模型骨架選擇,以及對(duì)于可變序列長(zhǎng)度的適配性。

少樣本預(yù)測(cè)

文章測(cè)試了Timer在不同數(shù)據(jù)稀缺性下的預(yù)測(cè)誤差(MSE),并與此前的領(lǐng)域最優(yōu)效果(SOTA)進(jìn)行了比較。

可以發(fā)現(xiàn):Timer使用極少的訓(xùn)練樣本,例如1%的ETTh1或者3%的PEMS03,就能超過領(lǐng)域前沿的PatchTST,iTransformer等模型在100%數(shù)據(jù)上的訓(xùn)練效果。

圖片

實(shí)線:預(yù)訓(xùn)練Timer;虛線:端到端訓(xùn)練的Timer;深色基準(zhǔn):SOTA模型在全量數(shù)據(jù)上的訓(xùn)練效果

另外,預(yù)訓(xùn)練Timer的預(yù)測(cè)誤差(實(shí)線)一致小于未經(jīng)過預(yù)訓(xùn)練的模型(虛線),證明了大規(guī)模預(yù)訓(xùn)練的有效性。

任務(wù)通用性

文章評(píng)估了Timer在填補(bǔ)任務(wù)和異常檢測(cè)上的效果,驗(yàn)證了預(yù)訓(xùn)練能夠給模型在各個(gè)數(shù)據(jù)集上帶來穩(wěn)定的收益。

圖片

左:填補(bǔ)任務(wù)中相對(duì)端到端模型的效果提升;右:在UCR Anomaly Archive中成功檢測(cè)出的異常數(shù)

文章還將Timer與此前的領(lǐng)域?qū)S媚P瓦M(jìn)行了對(duì)比:Timer在全部的44個(gè)填補(bǔ)場(chǎng)景中取得了領(lǐng)先,并成功檢測(cè)出了172個(gè)序列異常,相較之下,Anomaly Transformer為129個(gè),TimesNet為109個(gè)。

圖片

可擴(kuò)展性

作者團(tuán)隊(duì)研究了Timer的可擴(kuò)展性,發(fā)現(xiàn)隨著參數(shù)量和數(shù)據(jù)規(guī)模的增加,模型在PEMS數(shù)據(jù)集上的多變量預(yù)測(cè)誤差降低了36.6%(0.194 -> 0.123),低于此前最優(yōu)的多變量預(yù)測(cè)模型iTransformer(0.139)。

圖片

從左到右:擴(kuò)展Timer層數(shù),特征維度和預(yù)訓(xùn)練數(shù)據(jù)規(guī)模都能提升預(yù)測(cè)效果

零樣本預(yù)測(cè)

作者團(tuán)隊(duì)對(duì)同期涌現(xiàn)的時(shí)序大模型進(jìn)行了全面測(cè)評(píng),在零樣本預(yù)測(cè)任務(wù)中,大模型不更新任何參數(shù),直接輸入數(shù)據(jù)集中時(shí)間序列進(jìn)行預(yù)測(cè)。在7個(gè)真實(shí)數(shù)據(jù)集中,Timer取得了綜合最優(yōu)的水平。

模型分析

為確認(rèn)時(shí)序領(lǐng)域的大模型骨架,作者團(tuán)隊(duì)對(duì)不同模型進(jìn)行了同樣規(guī)模的預(yù)訓(xùn)練,包括基于MLP的TiDE、TCN、LSTM以及Transformer的兩種結(jié)構(gòu),結(jié)果顯示Transformer在大規(guī)模時(shí)序數(shù)據(jù)預(yù)訓(xùn)練中具備足夠的模型容量。

圖片

訓(xùn)練/驗(yàn)證時(shí)的損失函數(shù),橫軸以模型訓(xùn)練過的數(shù)據(jù)點(diǎn)數(shù)代表訓(xùn)練進(jìn)程

文章探討了Timer對(duì)可變序列長(zhǎng)度處理能力:如左圖所示,隨著輸入序列的變長(zhǎng),Timer的預(yù)測(cè)誤差逐步降低。如左圖所示,為支持任意長(zhǎng)度的序列輸出,文章對(duì)兩種結(jié)構(gòu)的Transformer進(jìn)行了滾動(dòng)預(yù)測(cè)。相較于Encoder-only Transformer,Timer顯著緩解了多步誤差累積。

圖片

作者進(jìn)一步分析了兩種Transformer結(jié)構(gòu)在下游任務(wù)上的泛化性,發(fā)現(xiàn)時(shí)下流行的僅編碼器結(jié)果在小規(guī)模訓(xùn)練場(chǎng)景中可以取得較好的效果。然而,在預(yù)訓(xùn)練-微調(diào)范式下,Timer表現(xiàn)出更強(qiáng)的泛化性,即使在多步滾動(dòng)預(yù)測(cè)的場(chǎng)景中也能取得領(lǐng)域最優(yōu)效果,打破了此前針對(duì)不同輸入-輸出長(zhǎng)度分別訓(xùn)練的現(xiàn)狀。

分析示例

文章提供了Timer在各個(gè)任務(wù)上的分析示例和具體指標(biāo),詳情可參考論文附錄。

圖片

未來方向

文章最后,作者對(duì)現(xiàn)有時(shí)序大模型進(jìn)行了能力測(cè)評(píng)和對(duì)比,總結(jié)了時(shí)序領(lǐng)域大模型的潛在發(fā)展方向,主要包含更強(qiáng)的泛化能力(例如零樣本預(yù)測(cè)),支持更長(zhǎng)的上下文長(zhǎng)度,支持多變量建模,以及提供置信度的概率預(yù)測(cè)等。

圖片

總結(jié)

該工作關(guān)注大模型的預(yù)訓(xùn)練-微調(diào)范式,驗(yàn)證了構(gòu)建時(shí)序領(lǐng)域大模型的可行性,對(duì)多領(lǐng)域時(shí)間序列的生成式預(yù)訓(xùn)練進(jìn)行了深入探究,證明了生成式模型在處理多種時(shí)序分析任務(wù)的有效性,相關(guān)數(shù)據(jù)集與代碼已經(jīng)開源,歡迎感興趣的朋友閱讀論文或訪問GitHub頁面。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-03-18 00:00:03

時(shí)間序列Prompt模型

2024-09-14 14:15:00

數(shù)據(jù)訓(xùn)練

2022-07-12 10:37:08

阿里巴巴達(dá)摩院機(jī)器學(xué)習(xí)

2024-09-03 08:16:08

2022-07-08 15:40:11

網(wǎng)絡(luò)清華模型

2024-05-16 12:48:12

數(shù)據(jù)AI

2021-07-08 15:39:50

機(jī)器學(xué)習(xí)人工智能計(jì)算

2023-06-26 07:51:48

2024-12-30 13:13:35

2023-01-03 10:06:08

模型計(jì)算

2024-01-30 01:12:37

自然語言時(shí)間序列預(yù)測(cè)Pytorch

2023-02-23 13:35:27

模型任務(wù)

2024-10-29 14:10:00

AI模型

2023-06-20 13:44:49

清華推理

2024-09-12 12:46:36

2025-01-03 10:30:00

2024-07-30 13:42:57

2024-07-03 10:33:07

2021-12-19 22:34:45

Linux容器系統(tǒng)

2023-05-30 14:17:00

模型推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)