超越Transformer,全面升級!MIT等華人團隊發(fā)布通用時序TimeMixer++架構(gòu),8項任務(wù)全面領(lǐng)先
在數(shù)據(jù)驅(qū)動的時代,時間序列分析成為了許多領(lǐng)域中不可或缺的一部分,比如氣象預(yù)測、醫(yī)學(xué)癥狀分類、航天器的異常檢測、以及傳感器數(shù)據(jù)中缺失數(shù)據(jù)的填充等等,這些應(yīng)用具體涉及到時間序列預(yù)測、分類、異常檢測、缺失值填充等任務(wù)。
如何使用一個模型,同時勝任所有任務(wù)?
近些年來,包括Transformer架構(gòu)在內(nèi)的一系列工作,雖然在細(xì)分任務(wù)上展現(xiàn)出色的性能,但由于缺乏靈活和通用的時序特征的提取能力,無法成為通用的模型架構(gòu)。
為了解決這些問題,來自MIT、港科大、浙大以及格里菲斯大學(xué)的華人團隊聯(lián)合推出了一種全新的深度模型架構(gòu)TimeMixer++,在長程時序預(yù)測、短程時序預(yù)測、時序分類、異常檢測等8項時序任務(wù)上的效能全面超越了Transformer等模型,實現(xiàn)了通用的時間序列建模和應(yīng)用。
論文鏈接:https://arxiv.org/pdf/2410.16032
TimeMixer++的通用能力得益于其能夠提取通用的時序特征,針對不同任務(wù),模型自適應(yīng)地學(xué)習(xí)了不同的隱空間表征,展現(xiàn)出強大的靈活度和有效性。
設(shè)計動機
論文提出了「時序特征機器」(Time Series Pattern Machine, TSPM)的概念,作為一個能在廣泛時序任務(wù)中表現(xiàn)出色的模型,必須能提取各種各樣的時序特征,以適應(yīng)任務(wù)的要求。
時間序列是從連續(xù)的現(xiàn)實世界中以不同尺度進行采樣得到的(如秒、分鐘、小時),而不同尺度下展現(xiàn)的周期性是不同的。該多尺度、多周期性的特性,引導(dǎo)了模型架構(gòu)的設(shè)計。
TimeMixer++
核心效果
TimeMixer++基于時域(多尺度)和頻域(多頻率/周期)的信息,將每一條時間序列轉(zhuǎn)化為多分辨率時序圖(Multi-Resolution Time Images),并對每一個時序圖在深度空間中進行解耦和混合,最終提取多尺度、多周期的特征。
整體結(jié)構(gòu)
TimeMixer++的結(jié)構(gòu)類似Transformer,包括了下采樣、嵌入層(Input Projection),L個堆疊的MixerBlocks、和輸出層。其中,每個MixerBlock內(nèi)部,按順序包括了 (1) 多分辨率時間成像,(2) 時序圖分解,(3) 多尺度混合,和 (4) 多分辨率混合。
我們在此簡單介紹MixerBlock內(nèi)的操作,
1. Multi-Resolution Time Imaging (MRTI):MRTI負(fù)責(zé)根據(jù)頻域信息,將時序進行多尺度、多周期的折疊,從而得到多組時序圖。
2. Time Image Decomposition (TID):TID通過橫軸和縱軸兩個軸向的注意力機制,從每一個時序圖中解耦季節(jié)-趨勢,得到季節(jié)圖和趨勢圖。
3. Multi-Scale Mixing (MCM):MCM負(fù)責(zé)將不同尺度上的季節(jié)圖和趨勢圖分別進行混合,鑒于圖的形式,論文采用了卷積和反卷積的操作。
MCM以季節(jié)和趨勢混合為動力,將季節(jié)圖由細(xì)粒度到粗粒度逐步聚合,并利用較粗尺度的先驗知識深入挖掘宏觀趨勢信息,最終實現(xiàn)過去信息提取中的多尺度混合。對趨勢圖,則采用由粗粒度到細(xì)粒度的逐步聚合。
模型效果
為了驗證TimeMixer++的性能,作者在包含長程預(yù)測,短程預(yù)測,時序分類,異常檢測,填充,少樣本/零樣本預(yù)測等8個時序主流任務(wù)上進行測試。實驗結(jié)果表明,TimeMixer++在多個指標(biāo)上全面超越了當(dāng)前最先進的Transformer模型,具體表現(xiàn)如下:
在長程時序預(yù)測中,TimeMixer++在9/12的指標(biāo)上超越了近幾年的預(yù)測模型。
在單變量和多變量的短程預(yù)測任務(wù)中,TimeMixer++全方位超越了近幾年的其他模型。
在缺失值填充任務(wù)中,TimeMixer++同樣保持了領(lǐng)先優(yōu)勢,在幾乎所有指標(biāo)和數(shù)據(jù)上超越了其他模型。
在困難的分類任務(wù)和異常檢測任務(wù)中,TimeMixer++依然在所有模型中取得了最好的效果,打敗了諸多專為該任務(wù)設(shè)計的時序模型。
在零樣本預(yù)測的設(shè)置下,TimeMixer++表現(xiàn)取得了第一,說明提取到通用的時序特征,而并非得益于過擬合。
表征分析
通過可視化分析,表明TimeMixer++將時間序列分解為多組季節(jié)圖和趨勢圖,可以從時域和頻域兩個角度,全方位提取時序的特征。不同尺度和頻率條件下,季節(jié)性和趨勢性有顯著差異。
效率分析
TimeMixer++在內(nèi)存占用和訓(xùn)練時間上表現(xiàn)出高效性,同時保持了有競爭力的MSE分?jǐn)?shù)。在天氣數(shù)據(jù)填補和ETTm1長期預(yù)測任務(wù)中,相較于其他模型,具備更低的內(nèi)存占用和較快的訓(xùn)練時間,且能有效捕捉長程依賴關(guān)系。
消融實驗
作者進行了消融實驗驗證TimeMixer++架構(gòu)的合理性。結(jié)果表明已有的多組模塊設(shè)計在絕大部分?jǐn)?shù)據(jù)集上都取得了最優(yōu)效果。
總結(jié)
本文介紹了一種全新的深度模型架構(gòu)TimeMixer++,在8個時間序列分析任務(wù)中全面超越了Transformer等模型,成功實現(xiàn)了通用的時間序列建模與應(yīng)用。TimeMixer++的創(chuàng)新之處在于將時間序列轉(zhuǎn)化為圖像,并在時域與頻域、多尺度、多分辨率下進行特征提取,從而提升了模型的表現(xiàn)。
TimeMixer++的成功不僅為時序分析領(lǐng)域帶來了新的思路,也展示了一種全新的時序理解視角。未來,隨著更多優(yōu)化技術(shù)和應(yīng)用場景的引入,相信TimeMixer++將進一步推動時序預(yù)測技術(shù)的發(fā)展,為各行業(yè)帶來更大的價值。