Python時間序列分析工具Aeon使用指南
Aeon 是一個專注于時間序列處理的開源Python庫,其設(shè)計理念遵循scikit-learn的API風(fēng)格,為數(shù)據(jù)科學(xué)家和研究人員提供了一套完整的時間序列分析工具。該項目保持活躍開發(fā),截至2024年仍持續(xù)更新。
Aeon提供了以下主要功能模塊:
1.時間序列分類
- 支持多種分類算法實現(xiàn)
- 包含基于間隔、字典和距離的分類器
- 提供集成學(xué)習(xí)方法
2.時間序列回歸分析
- 支持各類回歸模型
- 提供預(yù)測區(qū)間估計
- 包含模型評估工具
3.時間序列聚類
- 實現(xiàn)了多種聚類算法
- 支持自定義距離度量
- 提供聚類結(jié)果可視化
4.預(yù)測建模
- 包含多種預(yù)測模型實現(xiàn)
- 支持單變量和多變量預(yù)測
- 提供預(yù)測性能評估工具
5.數(shù)據(jù)轉(zhuǎn)換與預(yù)處理
- 提供多種數(shù)據(jù)轉(zhuǎn)換方法
- 支持時間序列特征提取
- 包含數(shù)據(jù)標(biāo)準(zhǔn)化工具
技術(shù)特點
1.API設(shè)計
- 采用scikit-learn風(fēng)格的API設(shè)計
- 提供統(tǒng)一的fit/predict接口
- 支持管道(Pipeline)操作
2.可視化支持
- 內(nèi)置多種可視化工具
- 支持時間序列數(shù)據(jù)探索
- 提供聚類和分類結(jié)果展示
3.數(shù)據(jù)兼容性
- 與pandas數(shù)據(jù)結(jié)構(gòu)深度集成
- 支持多種數(shù)據(jù)格式輸入
- 需注意與pandas版本的兼容性要求
技術(shù)兼容性說明:經(jīng)驗證,Aeon目前僅與Pandas 1.4.0版本完全兼容。由于Pandas新版本對索引API進(jìn)行了重構(gòu),可能導(dǎo)致與部分時間序列處理功能產(chǎn)生兼容性問題。
雖然在可視化方面提供了良好的基礎(chǔ)功能,但相比Matplotlib等專業(yè)可視化庫,其靈活性仍有一定限制。以下將通過具體示例,展示Aeon在各個功能模塊的實際應(yīng)用。
Aeon時間序列可視化功能分析
Aeon提供了一套用于探索性數(shù)據(jù)分析的可視化工具集。以下將展示其基礎(chǔ)線圖繪制功能。
"""
Aeon時間序列可視化示例
演示Aeon內(nèi)置的探索性數(shù)據(jù)分析可視化工具
基礎(chǔ)線圖繪制
"""
from aeon.datasets import load_airline
from aeon.visualisation import plot_series
%matplotlib inline
# 航空客運量數(shù)據(jù)集
y = load_airline()
plot_series(y, title="Airline Passenger Numbers")
從效果來看,雖然沒有特別出眾的特點,但繪圖結(jié)果清晰實用。
時間序列聚類與分類技術(shù)實現(xiàn)
在實際應(yīng)用中,部分時間序列數(shù)據(jù)遵循特定的模式規(guī)律,但對這些序列的模式歸類往往具有一定難度。面對隨機(jī)信號時,如何將其與具有相似特征的信號進(jìn)行準(zhǔn)確分類就成為一個關(guān)鍵問題。
在這種場景下,聚類算法可以提供有效的解決方案。以下示例代碼將生成50個隨機(jī)樣本,這些樣本分別遵循三種基本模式(正弦函數(shù)、余弦函數(shù)或2倍頻率的正弦函數(shù))。通過Aeon我們可以利用k最近鄰算法對這些樣本進(jìn)行模式分類。這種方法能夠有效地將不同序列劃分到相應(yīng)的類別中,便于后續(xù)對特定類別進(jìn)行深入分析。若不進(jìn)行聚類處理,這些序列疊加在一起會呈現(xiàn)出噪聲狀態(tài),不利于進(jìn)一步分析。
"""
時間序列聚類實現(xiàn)
基于K-means算法的時間序列分組示例
"""
import numpy as np
import matplotlib.pyplot as plt
from aeon.clustering import TimeSeriesKMeans
def make_example_dataset(n_samples=50, n_timepoints=30, random_state=42):
np.random.seed(random_state)
# Generate three different patterns
t = np.linspace(0, 2*np.pi, n_timepoints)
patterns = [
lambda: np.sin(t),
lambda: np.cos(t),
lambda: 0.5 * np.sin(2*t)
]
X = []
for _ in range(n_samples):
# Randomly choose a pattern function
pattern_func = np.random.choice(patterns)
# Generate the pattern and add some noise
series = pattern_func() + np.random.normal(0, 0.1, n_timepoints)
X.append(series)
return np.array(X)
相比前述航空客運量數(shù)據(jù)集的線圖,這組聚類可視化結(jié)果展現(xiàn)出更為優(yōu)秀的圖形效果。
利用已獲得的類別標(biāo)簽,我們可以進(jìn)一步通過Aeon的分類器進(jìn)行數(shù)據(jù)分類。由于使用的是模擬數(shù)據(jù)集,算法呈現(xiàn)出的完美分類效果在預(yù)期之內(nèi)。
from aeon.classification.interval_based import TimeSeriesForestClassifier
from sklearn.model_selection import train_test_split
# Split into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)
# Initialize and train a classifier
clf = TimeSeriesForestClassifier(random_state=42)
clf.fit(X_train, y_train)
# Make predictions
y_pred = clf.predict(X_test)
# Calculate accuracy
accuracy = np.mean(y_pred == y_test)
print(f"Accuracy: {accuracy:.2f}")
# Print some information about the data
print(f"\nData shape: {X.shape}")
print(f"Number of classes: {len(np.unique(labels))}")
print(f"Class distribution: {np.bincount(labels)}")
實驗結(jié)果
Accuracy: 1.00
Data shape: (50, 30)
Number of classes: 3
Class distribution: [13 21 16]
需要說明的是,盡管Aeon文檔中提到了'ETSForecaster'功能模塊,但在實際測試中未能成功運行該模塊。
總結(jié)
Aeon作為一個時間序列分析工具,在基礎(chǔ)功能實現(xiàn)和易用性方面表現(xiàn)良好,特別適合用于數(shù)據(jù)探索和基礎(chǔ)分析任務(wù)。雖然在某些高級功能和性能優(yōu)化方面還有提升空間,但其簡潔的API設(shè)計和完整的基礎(chǔ)功能仍使其成為時間序列分析的有效工具選項。建議根據(jù)具體項目需求,合理評估其適用性,必要時可與其他專業(yè)工具配合使用,以獲得最佳的分析效果。