時(shí)間序列分解:將時(shí)間序列分解成基本的構(gòu)建塊
大多數(shù)時(shí)間序列可以分解為不同的組件,在本文中,我將討論這些不同的組件是什么,如何獲取它們以及如何使用 Python 進(jìn)行時(shí)間序列分解。
時(shí)間序列組成
時(shí)間序列是(主要)三個(gè)組成部分的組合:趨勢(shì)、季節(jié)性和殘差/剩余部分。讓我們簡(jiǎn)單的解釋這三個(gè)組成部分
趨勢(shì):這是該序列的整體運(yùn)動(dòng)。它可能會(huì)持續(xù)增加、也可能持續(xù)減少,或者是波動(dòng)的。
季節(jié)性:系列中的任何常規(guī)季節(jié)性模式。比如,夏季冰淇淋的銷量通常高于冬季。
殘差:這是我們考慮到趨勢(shì)和季節(jié)性后剩下的部分。它也可以被認(rèn)為只是統(tǒng)計(jì)噪聲,或者是臨時(shí)性事件的影響,這個(gè)殘差量也有一個(gè)單獨(dú)的周期分量,但它通常被歸入趨勢(shì)分量。
加法模型與乘法模型
這些組件的組合方式取決于時(shí)間序列的性質(zhì)。對(duì)于加法模型:
對(duì)于乘法模型:
其中 Y 是序列,T 是趨勢(shì),S 是季節(jié)性,R 是殘差分量。
當(dāng)序列變化的大小尺度一致的時(shí)候,加法模型是最合適的。而當(dāng)序列的波動(dòng)處于相對(duì)和比例范圍內(nèi)時(shí)乘法模型是比較合適的。
例如,如果夏季冰淇淋的銷量每年高出 1,000 個(gè),則該模型是加法的。如果每年夏天銷售額持續(xù)增長(zhǎng) 20%,但絕對(duì)銷售額在變化,則該模型是乘法的。稍后我們將討論一個(gè)示例,該示例可以使該理論更加具體。
為了計(jì)算和可視化的漸變,可以通過對(duì)數(shù)變換或Box-Cox變換將乘法模型轉(zhuǎn)換為加法模型:
分解是如何工作的
有多種算法和方法可以將時(shí)間序列分解為三個(gè)分量。以下的經(jīng)典方法,經(jīng)常會(huì)使用并且非常直觀。
- 使用移動(dòng)/滾動(dòng)平均值計(jì)算趨勢(shì)分量 T。
- 對(duì)序列進(jìn)行去趨勢(shì)處理,Y-T 用于加法模型,Y/T 用于乘法模型。
- 通過取每個(gè)季節(jié)的去趨勢(shì)序列的平均值來計(jì)算季節(jié)分量 S。
- 殘差分量 R 的計(jì)算公式為:對(duì)于加法模型R = Y-T-R,對(duì)于乘法模型R = Y/(TR)。
還有其他幾種可用于分解的方法,例如 STL、X11 和 SEATS。這些是先進(jìn)的方法,是對(duì)經(jīng)典方法的基本方法的補(bǔ)充,并改進(jìn)了它的缺點(diǎn)。如果有想了解這些最新方法的可以留言,我們單開一篇文章介紹。
Python中進(jìn)行時(shí)間序列分解
這里讓我們使用1948年至1961年的美國航空客運(yùn)量數(shù)據(jù)集:
從圖中我們觀察到趨勢(shì)是增加的,每年也有季節(jié)性。波動(dòng)的大小隨著時(shí)間的推移而增加,因此我們可以說這是一個(gè)乘法模型。
statmodels中包含了seasonal_decomposition函數(shù)可以幫我們來分解時(shí)間序列,并在我們要在調(diào)用函數(shù)時(shí)指定這是一個(gè)“乘法”模型:
從上圖中可以看到,該函數(shù)確實(shí)成功地捕獲了這三個(gè)組成部分。
通過應(yīng)用Scipy的函數(shù)boxcox ,可以使用Box-Cox變換穩(wěn)定方差,這樣可以將序列轉(zhuǎn)換為一個(gè)加法模型:
這個(gè)函數(shù)也很好地捕獲了這三個(gè)組件。但是我們看到殘差在早期和后期具有更高的波動(dòng)性。所以在為這個(gè)時(shí)間序列構(gòu)建預(yù)測(cè)模型時(shí),需要考慮到這一點(diǎn)。
總結(jié)
在這篇文章中,我們展示了如何將時(shí)間序列分解為三個(gè)基本組成部分:趨勢(shì)、季節(jié)性和殘差。這三個(gè)組成部分的組合產(chǎn)生了實(shí)際的時(shí)間序列,它們的組合可以是加性的也可以是乘性的。有幾種更新技術(shù)可以執(zhí)行分解,如STL, SEAL和X11,但是經(jīng)典的方法簡(jiǎn)單并且直觀。最后通過分解時(shí)間序列有助于建立對(duì)數(shù)據(jù)的理解,從而更容易做出未來的預(yù)測(cè)。