FoundTS:時間序列預(yù)測基礎(chǔ)模型的全面統(tǒng)一測評基準
今天給大家介紹一篇華東師范大學(xué)聯(lián)合丹麥奧爾堡大學(xué)和松鼠AI發(fā)布的時間序列模型統(tǒng)一評測基準FoundTS,這是一個針對時間序列預(yù)測基礎(chǔ)模型的基準測評框架,旨在利用不同領(lǐng)域和特征的數(shù)據(jù)集對不同的時間序列預(yù)測基礎(chǔ)模型進行全面、公平的測評。該論文在統(tǒng)一評測結(jié)果的基礎(chǔ)上,分析了現(xiàn)有時序預(yù)測基礎(chǔ)模型的優(yōu)缺點,并為基礎(chǔ)模型的提升提出一些可行的方向。
論文標題:FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING
論文地址:??https://arxiv.org/pdf/2410.11802??
1.背景
時間序列預(yù)測 (Time Series Forecasting, TSF) 是指根據(jù)歷史觀察來預(yù)測未來狀態(tài),從而指導(dǎo)相應(yīng)的決策和行為,是金融分析、氣象預(yù)測和能源管理等眾多領(lǐng)域的關(guān)鍵任務(wù)。
近年來,針對特定領(lǐng)域數(shù)據(jù)集進行訓(xùn)練和推理的 特定模型(Specific models) 取得了快速發(fā)展,其預(yù)測準確度和推理速度顯著提升。然而,這些模型的泛化能力較弱,面對新領(lǐng)域或新數(shù)據(jù)時表現(xiàn)欠佳。在多領(lǐng)域時間序列數(shù)據(jù)或大規(guī)模語言數(shù)據(jù)上進行預(yù)訓(xùn)練的 基礎(chǔ)模型(Foundation models) 為提升時間序列預(yù)測模型的泛化能力提供了新的可能性,但目前對此類模型的認知還遠遠不足。主要原因有以下三個方面:
(1)現(xiàn)有基礎(chǔ)模型工作的實驗設(shè)置不具備一致性,如表1所示,難以僅根據(jù)現(xiàn)有結(jié)果對不同的基礎(chǔ)模型的性能進行公平一致的比較;
(2)當前主流的時間序列測評基準主要集中在特定模型,涉及基礎(chǔ)模型的測評基準很少;
(3)現(xiàn)有涉及基礎(chǔ)模型的測評基準對此類模型的分析還停留在定性分析或單一場景測評。
為了解決上述問題,這篇論文提出了一個新的測評基準 FoundTS,以實現(xiàn)對時間序列預(yù)測基礎(chǔ)模型進行全面、公平的評估和比較。FoundTS 涵蓋了各種時間序列預(yù)測基礎(chǔ)模型,包括基于多領(lǐng)域時間序列數(shù)據(jù)的預(yù)訓(xùn)練模型(Pre-trained models)和基于大規(guī)模語言的預(yù)訓(xùn)練模型(LLM-based models)。同時,F(xiàn)oundTS 支持不同的預(yù)測場景,如零樣本(zero-shot)、少樣本(few-shot)和全樣本(full-shot)。
2.FoundTS評測框架
FoundTS 提供了一個標準化評估流程,包含了三個核心模塊:數(shù)據(jù)(data)、模型(models)、評估(evaluation)。
數(shù)據(jù)模塊包含10個來自不同領(lǐng)域(Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics)、具有多種特征(Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity)的時間序列數(shù)據(jù)集,為下游時間序列預(yù)測提供了全面的數(shù)據(jù)支持。
模型模塊涵蓋了各類時間序列預(yù)測模型,并對其進行了細致的分類與介紹。
基于多領(lǐng)域時間序列數(shù)據(jù)的預(yù)訓(xùn)練模型:論文中根據(jù)訓(xùn)練方法從重建、自回歸、直接預(yù)測以及混合預(yù)測四個角度分別介紹此類模型;
基于大規(guī)模語言的預(yù)訓(xùn)練模型:通過參數(shù)高效微調(diào)或設(shè)計prompt的方式,利用 LLMs 強大的表征能力和序列建模能力來捕捉時間序列的復(fù)雜模式;
特定模型:使用特定數(shù)據(jù)集進行訓(xùn)練并在相應(yīng)的數(shù)據(jù)集進行推理,常見框架有:基于CNN的模型、基于Transformer的模型、基于MLP的模型。
評估模塊提供全面的測評場景、可擴展的流程和統(tǒng)一的評估環(huán)境:
涵蓋 zero-shot、few-shot 和 full-shot 場景,全面評估時間序列預(yù)測基礎(chǔ)模型在不同測試場景下的表現(xiàn)。
支持對評測流程的多個方面進行靈活定制,如回看窗口、預(yù)測窗口、數(shù)據(jù)劃分與加載、采樣策略等,能夠?qū)Σ煌P筒捎靡恢碌脑u測流程,確保測試結(jié)果的公平與可靠。
提供各種評估指標(如平均絕對誤差(MAE)和均方誤差(MSE)),從不同角度提供深入的模型性能分析。
3.實驗分析
論文在多個不同領(lǐng)域的數(shù)據(jù)集上對比了不同的時間序列預(yù)測基礎(chǔ)模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 場景下的性能表現(xiàn),同時從不同角度對時間序列預(yù)測基礎(chǔ)模型的優(yōu)缺點進行了分析。
論文比較了時間序列預(yù)測基礎(chǔ)模型在不同采樣策略下的性能,表明數(shù)據(jù)采樣策略在few-shot學(xué)習(xí)中起著至關(guān)重要的作用,只有在統(tǒng)一的實驗設(shè)置下才能對模型進行公平評估。
論文探索了多變量時間序列的通道依賴性對時間序列預(yù)測基礎(chǔ)模型性能影響,呼吁在構(gòu)建基礎(chǔ)模型時應(yīng)充分考慮多變量數(shù)據(jù)的通道依賴性。
論文分析了不同框架的時間序列預(yù)測基礎(chǔ)模型之間的性能差異,指出未來需要更深入地研究模型架構(gòu)設(shè)計,找到性能和參數(shù)量之間的平衡。
論文在具有不同顯著特征的數(shù)據(jù)集上對比了時間序列預(yù)測基礎(chǔ)模型處理不同特征數(shù)據(jù)的能力。
論文評估了來自多領(lǐng)域時間序列數(shù)據(jù)或大規(guī)模語言數(shù)據(jù)的預(yù)訓(xùn)練知識對下游時間序列預(yù)測任務(wù)的實際效益。
論文通過衡量時間序列預(yù)測基礎(chǔ)模型在 5% 數(shù)據(jù)的 few-shot 場景下微調(diào)時間與特定模型在 full-shot 場景下從頭訓(xùn)練時間,討論了時間序列預(yù)測基礎(chǔ)模型的精度與應(yīng)用效率。
4.發(fā)現(xiàn)與觀點
基礎(chǔ)模型是否優(yōu)于特定模型?時間序列預(yù)測基礎(chǔ)模型,相比于特定模型,表現(xiàn)出優(yōu)越的 zero-shot 和 few-shot 的學(xué)習(xí)能力。但當有足夠的訓(xùn)練數(shù)據(jù)時,基礎(chǔ)模型并不總是優(yōu)于特定模型。
哪些基礎(chǔ)模型更優(yōu)?時間序列預(yù)測基礎(chǔ)模型的優(yōu)勢取決于評估的不同方面,沒有任何一個基礎(chǔ)模型能夠在所有方面占據(jù)主導(dǎo)地位。
從哪些方面提升基礎(chǔ)模型? (1)時間序列預(yù)測基礎(chǔ)模型應(yīng)具有更加通用的、處理多種預(yù)測場景的能力;(2)從訓(xùn)練數(shù)據(jù)、模型架構(gòu)、預(yù)訓(xùn)練策略等角度優(yōu)化設(shè)計以更充分利用大規(guī)模預(yù)訓(xùn)練知識;(3)如何在下游任務(wù)甚至預(yù)訓(xùn)練階段充分建模各個通道之間的依賴性,是基礎(chǔ)模型應(yīng)對多變量時間序列的關(guān)鍵問題之一;(4)合理平衡預(yù)測精度與訓(xùn)練、微調(diào)、推理成本,是將時間序列預(yù)測基礎(chǔ)模型進行實際應(yīng)用不可忽視的問題。
本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise
