自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

時(shí)間序列分析中的自相關(guān)

開(kāi)發(fā) 前端
在時(shí)間序列分析中,我們經(jīng)常通過(guò)對(duì)過(guò)去的理解來(lái)預(yù)測(cè)未來(lái)。為了使這個(gè)過(guò)程成功,我們必須徹底了解我們的時(shí)間序列,找到這個(gè)時(shí)間序列中包含的信息。

什么是自相關(guān)以及為什么它在時(shí)間序列分析中是有用的。

在時(shí)間序列分析中,我們經(jīng)常通過(guò)對(duì)過(guò)去的理解來(lái)預(yù)測(cè)未來(lái)。為了使這個(gè)過(guò)程成功,我們必須徹底了解我們的時(shí)間序列,找到這個(gè)時(shí)間序列中包含的信息。

自相關(guān)就是其中一種分析的方法,他可以檢測(cè)時(shí)間系列中的某些特征,為我們的數(shù)據(jù)選擇最優(yōu)的預(yù)測(cè)模型。

在這篇簡(jiǎn)短的文章中,我想回顧一下:什么是自相關(guān),為什么它是有用的,并介紹如何將它應(yīng)用到Python中的一個(gè)簡(jiǎn)單數(shù)據(jù)集。

什么是自相關(guān)?

自相關(guān)就是數(shù)據(jù)與自身的相關(guān)性。我們不是測(cè)量?jī)蓚€(gè)隨機(jī)變量之間的相關(guān)性,而是測(cè)量一個(gè)隨機(jī)變量與自身變量之間的相關(guān)性。因此它被稱為自相關(guān)。

相關(guān)性是指兩個(gè)變量之間的相關(guān)性有多強(qiáng)。如果值為1,則變量完全正相關(guān),-1則完全負(fù)相關(guān),0則不相關(guān)。

對(duì)于時(shí)間序列,自相關(guān)是該時(shí)間序列在兩個(gè)不同時(shí)間點(diǎn)上的相關(guān)性(也稱為滯后)。也就是說(shuō)我們是在用時(shí)間序列自身的某個(gè)滯后版本來(lái)預(yù)測(cè)它。

數(shù)學(xué)上講自相關(guān)的計(jì)算方法為:

其中N是時(shí)間序列y的長(zhǎng)度,k是時(shí)間序列的特定的滯后。當(dāng)計(jì)算r_1時(shí),我們計(jì)算y_t和y_{t-1}之間的相關(guān)性。

y_t和y_t之間的自相關(guān)性是1,因?yàn)樗鼈兪窍嗤摹?/p>

為什么它有用?

使用自相關(guān)性來(lái)度量時(shí)間序列與其自身的滯后版本的相關(guān)性。這個(gè)計(jì)算讓我們對(duì)系列的特征有了一些有趣的了解:

季節(jié)性:假設(shè)我們發(fā)現(xiàn)某些滯后的相關(guān)性通常高于其他數(shù)值。這意味著我們的數(shù)據(jù)中有一些季節(jié)性成分。例如,如果有每日數(shù)據(jù),并且發(fā)現(xiàn)每個(gè) 7 滯后項(xiàng)的數(shù)值都高于其他滯后項(xiàng),那么我們可能有一些每周的季節(jié)性。 

趨勢(shì):如果最近滯后的相關(guān)性較高并且隨著滯后的增加而緩慢下降,那么我們的數(shù)據(jù)中存在一些趨勢(shì)。因此,我們需要進(jìn)行一些差分以使時(shí)間序列平穩(wěn)。

讓我們用一個(gè)Python示例,來(lái)看看他到底是如何工作的

Python示例

我們將使用經(jīng)典的航空客運(yùn)量數(shù)據(jù)集:

https://www.kaggle.com/datasets/ashfakyeafi/air-passenger-data-for-time-series-analysis

# Import packages
import plotly.express as px
import pandas as pd

# Read in the data
data = pd.read_csv('AirPassengers.csv')

# Plot the data
fig = px.line(data, x='Month', y='#Passengers',


fig.update_layout(template="simple_white", fnotallow=dict(size=18),

可視化可以看到有明顯的上升趨勢(shì)和年度季節(jié)性(按月索引的數(shù)據(jù)點(diǎn))。

這里可以使用statsmodels包中的plot_acf函數(shù)來(lái)繪制時(shí)間序列在不同延遲下的自相關(guān)圖,這種類型的圖被稱為相關(guān)圖:

# Import packages
from statsmodels.graphics.tsaplots import plot_acf
import matplotlib.pyplot as plt

# Plot autocorrelation
plt.rc("figure", figsize=(11,5))
plot_acf(data['#Passengers'], lags=48)
plt.ylim(0,1)
plt.xlabel('Lags', fnotallow=18)
plt.ylabel('Correlation', fnotallow=18)
plt.xticks(fnotallow=18)
plt.yticks(fnotallow=18)
plt.title('Autocorrelation Plot', fnotallow=20)
plt.tight_layout()
plt.show()

圖片

這里我們需要注意到以下幾點(diǎn):

  • 在每12步的滯后中有一個(gè)明顯的周期性模式。這是由于我們的數(shù)據(jù)是按月編制的,因此我們的數(shù)據(jù)具有每年的季節(jié)性。
  • 隨著滯后量的增加,相關(guān)強(qiáng)度總體上呈緩慢下降趨勢(shì)。這在我們的數(shù)據(jù)中指出了一個(gè)趨勢(shì),在建模時(shí)需要對(duì)其進(jìn)行區(qū)分以使其穩(wěn)定。
  • 藍(lán)色區(qū)域表示哪些滯后在統(tǒng)計(jì)上顯著。因此在對(duì)該數(shù)據(jù)建立預(yù)測(cè)模型時(shí),下個(gè)月的預(yù)測(cè)可能只考慮前一個(gè)值的~15個(gè),因?yàn)樗鼈兙哂薪y(tǒng)計(jì)學(xué)意義。

在值0處的滯后與1的完全相關(guān),因?yàn)槲覀儗r(shí)間序列與它自身的副本相關(guān)聯(lián)。

總結(jié)

在這篇文章中,我們描述了什么是自相關(guān),以及我們?nèi)绾问褂盟鼇?lái)檢測(cè)時(shí)間序列中的季節(jié)性和趨勢(shì)。自相關(guān)還有其他用途。例如,我們可以使用預(yù)測(cè)模型殘差的自相關(guān)圖來(lái)確定殘差是否確實(shí)獨(dú)立。如果殘差的自相關(guān)不是幾乎為零,那么擬合模型可能沒(méi)有考慮到所有的信息,是可以改進(jìn)的。


責(zé)任編輯:華軒 來(lái)源: DeepHub IMBA
相關(guān)推薦

2024-10-21 17:33:58

2024-06-12 11:57:51

2024-06-03 11:05:11

2021-08-05 13:49:39

Python工具開(kāi)發(fā)

2024-09-09 14:57:31

2023-01-05 16:36:55

2024-04-26 12:29:36

2024-07-12 16:01:37

2023-01-30 17:10:23

DeepTime元學(xué)習(xí)

2024-02-27 17:32:30

時(shí)間序列分析庫(kù)PyTimeTK數(shù)據(jù)科學(xué)

2025-01-13 07:23:14

PythonAeon開(kāi)發(fā)

2023-03-30 15:12:47

2022-10-12 00:05:24

邊緣數(shù)據(jù)時(shí)間序列金融

2024-11-04 15:34:01

2024-10-23 17:10:49

2024-02-21 14:32:09

2025-02-17 10:50:37

2022-11-03 15:18:20

Python組件算法

2023-10-30 15:37:48

Python庫(kù)時(shí)間序列分析數(shù)據(jù)集

2024-04-01 09:13:20

C++函數(shù)遞增
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)