TFB:2024最新時間序列預(yù)測Benchmark
今天給大家介紹一篇VLDB 2024中時間序列預(yù)測Benchmark的工作,文章由華東師范大學(xué),華為云,奧爾堡大學(xué)聯(lián)合發(fā)布。該論文提出了TFB(時間序列預(yù)測基準(zhǔn)測試),這是一個新穎的自動化基準(zhǔn)測試框架,旨在通過包含來自十個不同領(lǐng)域的數(shù)據(jù)集,并提供一個靈活、可擴(kuò)展且一致的評估流程,對包括統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在內(nèi)的多種時間序列預(yù)測方法進(jìn)行全面且無偏見的評估。
該論文呼吁testing不使用drop-last操作,這一影響多個時序Baselines性能的代碼bug!
論文標(biāo)題:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods**
論文鏈接:??https://arxiv.org/pdf/2403.20150.pdf??
代碼鏈接:??https://github.com/decisionintelligence/TFB??
1、引言
這篇論文試圖解決的問題包括:
問題1. 數(shù)據(jù)領(lǐng)域覆蓋不足:現(xiàn)有的時間序列預(yù)測方法評估通常只覆蓋有限的領(lǐng)域,無法全面反映方法在多樣數(shù)據(jù)集下的表現(xiàn)。
問題2. 對傳統(tǒng)方法的刻板影響:現(xiàn)有的評估往往忽略了傳統(tǒng)方法,如統(tǒng)計(jì)學(xué)習(xí),機(jī)器學(xué)習(xí)方法,大部分只關(guān)注深度學(xué)習(xí)方法。
問題3. 缺乏一致和靈活的流程。不同的評估基準(zhǔn)使用不同的實(shí)驗(yàn)設(shè)置,如數(shù)據(jù)劃分、歸一化方法選擇、超參數(shù)設(shè)置,drop-last操作的使用,這使得公平的比較變得困難。此外,大多數(shù)測試基準(zhǔn)流程不靈活,無法支持統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的同時評估。
2、drop-last操作說明
現(xiàn)有的一些方法在測試階段使用“刪除最后一個批次的數(shù)據(jù)”的技巧。為了加速測試,通常將數(shù)據(jù)分成批次。然而,如果我們丟棄最后一個不完整批次:其中包含的樣本數(shù)量少于批次大小,這會導(dǎo)致不公平的比較。例如,在圖4中,ETTh2具有長度為2,880的測試序列長度,我們使用大小為512的回溯窗口預(yù)測336個未來時間步。如果我們選擇批次大小為32、64和128,那么最后一個批次中的樣本數(shù)量分別為17、49和113。除非所有方法都使用相同的批次大小,否則丟棄這些最后一個批次的測試樣本是不公平的,因?yàn)闇y試集的實(shí)際使用長度不一致。圖4顯示了在ETTh2上使用不同批次大小和“刪除最后一個批次”技巧的PatchTST、DLinear和FEDformer的測試結(jié)果。我們觀察到,在變化批次大小時,方法的性能會發(fā)生變化。
因此該論文呼吁testing不使用drop-last操作,該論文在testing中沒有使用drop-last操作。
3、時間序列特征說明
趨勢性(Trend):趨勢性是指時間序列隨著時間的推移而發(fā)生的長期變化或模式。直觀地說,它代表了數(shù)據(jù)漂移的大致方向。
季節(jié)性(Seasonality):季節(jié)性是指時間序列中的變化以特定的間隔重復(fù)的現(xiàn)象。
平穩(wěn)性(Stationarity):平穩(wěn)性是指時間序列的各階統(tǒng)計(jì)特征(如均值、方差…)不隨時間的變化而變化。
漂移性(Shifting):漂移性是指時間序列的概率分布隨時間變化的現(xiàn)象。這種行為可能源于系統(tǒng)內(nèi)部的結(jié)構(gòu)變化、外部影響或隨機(jī)事件的發(fā)生。
轉(zhuǎn)移(Transition):轉(zhuǎn)移捕捉了時間序列中存在的規(guī)律性和可識別的固定特征,例如趨勢、周期性的明確表現(xiàn),或者季節(jié)性和趨勢同時存在。
相關(guān)性(Correlation):相關(guān)性是指多變量時間序列中不同變量可能共享的可能性共同的趨勢或模式,表明它們受到相似的因素或具有某種潛在的關(guān)系。
這些特征的公式可從原論文中獲取。
4、TFB:基準(zhǔn)細(xì)節(jié)
5、實(shí)驗(yàn)
單變量時間序列預(yù)測
多變量時間序列預(yù)測
不同特征上的性能
根據(jù)實(shí)驗(yàn)結(jié)果,總結(jié)了不同方法在各種數(shù)據(jù)特征上的表現(xiàn)和排名。討論了基于Transformer的方法、線性方法以及考慮通道依賴性的方法在不同場景下的性能差異。研究了深度學(xué)習(xí)方法在多變量時間序列預(yù)測中的推理時間和參數(shù)數(shù)量的表現(xiàn)。提供了關(guān)于如何選擇適合特定數(shù)據(jù)集和場景的預(yù)測方法的見解。
? ?
6、關(guān)鍵發(fā)現(xiàn)
在某些數(shù)據(jù)集中,統(tǒng)計(jì)方法VAR和LinearRegression的表現(xiàn)優(yōu)于最近提出的SOTA方法。
當(dāng)數(shù)據(jù)集呈現(xiàn)增長趨勢或明顯漂移時,基于線性的方法表現(xiàn)良好。
基于Transformer的方法在具有明顯季節(jié)性、非線性模式以及更明顯模式或強(qiáng)內(nèi)部相關(guān)性的數(shù)據(jù)集上優(yōu)于基于線性的方法。
考慮通道之間依賴關(guān)系的方法,與假設(shè)通道獨(dú)立性的方法相比,有時可以提高多變量時間序列預(yù)測的性能,特別是在具有強(qiáng)相關(guān)性的數(shù)據(jù)集上。未來的文章應(yīng)該關(guān)注如何提取、利用變量間關(guān)系來進(jìn)行預(yù)測。
測試過程中使用drop-last操作會對實(shí)驗(yàn)結(jié)果產(chǎn)生很大影響,造成不公平比較現(xiàn)象,論文呼吁testing不使用drop-last操作,這一影響多個時序Baselines性能的代碼bug!
7、總結(jié)
本文提出了TFB,這是一個專門設(shè)計(jì)用于進(jìn)一步提高時間序列預(yù)測方法公平比較的基準(zhǔn),包括單變量時間序列預(yù)測和多變量時間序列預(yù)測。TFB在8,068個單變量時間序列上測評了超過20種UTSF方法以及在25個多變量數(shù)據(jù)集上對14種MTSF方法進(jìn)行了測評。
TFB確定、收集和處理先前提出的時間序列數(shù)據(jù)集,以確定涵蓋不同領(lǐng)域和特征的全面的數(shù)據(jù)集,并以標(biāo)準(zhǔn)化格式組織它們。然后,設(shè)計(jì)實(shí)驗(yàn)來研究不同方法在不同特征數(shù)據(jù)集上的表現(xiàn)。
TFB提供了一個自動化的端到端流程,用于評估預(yù)測方法,簡化和標(biāo)準(zhǔn)化加載時間序列數(shù)據(jù)集、配置實(shí)驗(yàn)和評估方法的步驟。這簡化了研究人員的評估過程。此外,所有數(shù)據(jù)集和代碼都可在https://github.com/decisionintelligence/TFB上獲得。
TFB評估、比較了一系列方法,涵蓋了統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法以及豐富多樣的評估任務(wù)和策略。并將評估結(jié)果總結(jié)為一些關(guān)鍵發(fā)現(xiàn)。
本文轉(zhuǎn)載自??? 圓圓的算法筆記???,作者: Fareise
