当前位置: 开发笔记 > 编程语言 > 正文

Python时间序列数据分析以示例说明

作者：吴雨醒 | 来源：互联网 | 2023-09-08 17:27

本文的内容主要来源于博客：本人做了适当的注释和补充。https:www.analyticsvidhya.comblog201602time-series-forec

本文的内容主要来源于博客&＃xff1a;本人做了适当的注释和补充。

https://www.analyticsvidhya.com/blog/2016/02/time-series-forecasting-codes-python/ 英文不错的读者可以前去阅读原文。

在阅读本文之前 &＃xff0c;推荐先阅读&＃xff1a;http://www.cnblogs.com/bradleon/p/6827109.html

导读

本文主要分为四个部分&＃xff1a;

用pandas处理时序数据
怎样检查时序数据的稳定性
怎样让时序数据具有稳定性
时序数据的预测

1. 用pandas导入和处理时序数据

第一步&＃xff1a;导入常用的库

import pandas as pd import numpy as np import matplotlib.pylab as plt from matplotlib.pylab import rcParams #rcParams设定好画布的大小 rcParams[&＃39;figure.figsize&＃39;] &＃61; 15, 6

第二步&＃xff1a;导入时序数据
数据文件可在github&＃xff1a;
http://github.com/aarshayj/Analytics_Vidhya/tree/master/Articles/Time_Series_Analysis 中下载

data &＃61; pd.read_csv(path&＃43;"AirPassengers.csv") print data.head() print &＃39;\n Data types:&＃39; print data.dtypes

运行结果如下&＃xff1a;数据包括每个月对应的passenger的数目。
可以看到data已经是一个DataFrame&＃xff0c;包含两列Month和#Passengers&＃xff0c;其中Month的类型是object&＃xff0c;而index是0,1,2...
filelist

第三步&＃xff1a;处理时序数据
我们需要将Month的类型变为datetime&＃xff0c;同时作为index。

dateparse &＃61; lambda dates: pd.datetime.strptime(dates, &＃39;%Y-%m&＃39;) #---其中parse_dates 表明选择数据中的哪个column作为date-time信息&＃xff0c; #---index_col 告诉pandas以哪个column作为 index #--- date_parser 使用一个function(本文用lambda表达式代替)&＃xff0c;使一个string转换为一个datetime变量 data &＃61; pd.read_csv(&＃39;AirPassengers.csv&＃39;, parse_dates&＃61;[&＃39;Month&＃39;], index_col&＃61;&＃39;Month&＃39;,date_parser&＃61;dateparse) print (data.head) print (data.index)

结果如下&＃xff1a;可以看到data的index已经变成datetime类型的Month了。
filelist

2.怎样检查时序数据的稳定性(Stationarity)

因为ARIMA模型要求数据是稳定的&＃xff0c;所以这一步至关重要。

1. 判断数据是稳定的常基于对于时间是常量的几个统计量&＃xff1a;

常量的均值
常量的方差
与时间独立的自协方差

用图像说明如下&＃xff1a;

均值

X是时序数据的值&＃xff0c;t是时间。可以看到左图&＃xff0c;数据的均值对于时间轴来说是常量&＃xff0c;即数据的均值不是时间的函数,所有它是稳定的&＃xff1b;右图随着时间的推移&＃xff0c;数据的值整体趋势是增加的&＃xff0c;所有均值是时间的函数&＃xff0c;数据具有趋势&＃xff0c;所以是非稳定的。
方差

可以看到左图&＃xff0c;数据的方差对于时间是常量&＃xff0c;即数据的值域围绕着均值上下波动的振幅是固定的&＃xff0c;所以左图数据是稳定的。而右图&＃xff0c;数据的振幅在不同时间点不同&＃xff0c;所以方差对于时间不是独立的&＃xff0c;数据是非稳定的。但是左、右图的均值是一致的。
自协方差

一个时序数据的自协方差&＃xff0c;就是它在不同两个时刻i,j的值的协方差。可以看到左图的自协方差于时间无关&＃xff1b;而右图&＃xff0c;随着时间的不同&＃xff0c;数据的波动频率明显不同&＃xff0c;导致它i&＃xff0c;j取值不同&＃xff0c;就会得到不同的协方差&＃xff0c;因此是非稳定的。虽然右图在均值和方差上都是与时间无关的&＃xff0c;但仍是非稳定数据。

2. python判断时序数据稳定性

有两种方法&＃xff1a;
1.Rolling statistic-- 即每个时间段内的平均的数据均值和标准差情况。

Dickey-Fuller Test -- 这个比较复杂&＃xff0c;大致意思就是在一定置信水平下&＃xff0c;对于时序数据假设 Null hypothesis: 非稳定。
if 通过检验值(statistic)<临界值(critical value)&＃xff0c;则拒绝null hypothesis&＃xff0c;即数据是稳定的&＃xff1b;反之则是非稳定的。

from statsmodels.tsa.stattools import adfuller def test_stationarity(timeseries):#这里以一年为一个窗口&＃xff0c;每一个时间t的值由它前面12个月&＃xff08;包括自己&＃xff09;的均值代替&＃xff0c;标准差同理。rolmean &＃61; pd.rolling_mean(timeseries,window&＃61;12)rolstd &＃61; pd.rolling_std(timeseries, window&＃61;12)#plot rolling statistics:fig &＃61; plt.figure()fig.add_subplot()orig &＃61; plt.plot(timeseries, color &＃61; &＃39;blue&＃39;,label&＃61;&＃39;Original&＃39;)mean &＃61; plt.plot(rolmean , color &＃61; &＃39;red&＃39;,label &＃61; &＃39;rolling mean&＃39;)std &＃61; plt.plot(rolstd, color &＃61; &＃39;black&＃39;, label&＃61; &＃39;Rolling standard deviation&＃39;)plt.legend(loc &＃61; &＃39;best&＃39;)plt.title(&＃39;Rolling Mean & Standard Deviation&＃39;)plt.show(block&＃61;False)#Dickey-Fuller test:print &＃39;Results of Dickey-Fuller Test:&＃39;dftest &＃61; adfuller(timeseries,autolag &＃61; &＃39;AIC&＃39;)#dftest的输出前一项依次为检测值&＃xff0c;p值&＃xff0c;滞后数&＃xff0c;使用的观测数&＃xff0c;各个置信度下的临界值dfoutput &＃61; pd.Series(dftest[0:4],index &＃61; [&＃39;Test Statistic&＃39;,&＃39;p-value&＃39;,&＃39;#Lags Used&＃39;,&＃39;Number of Observations Used&＃39;])for key,value in dftest[4].items():dfoutput[&＃39;Critical value (%s)&＃39; %key] &＃61; valueprint dfoutputts &＃61; data[&＃39;#Passengers&＃39;] test_stationarity(ts)

结果如下&＃xff1a;

可以看到&＃xff0c;数据的rolling均值/标准差具有越来越大的趋势&＃xff0c;是不稳定的。
且DF-test可以明确的指出&＃xff0c;在任何置信度下&＃xff0c;数据都不是稳定的。

3. 让时序数据变成稳定的方法

让数据变得不稳定的原因主要有俩&＃xff1a;

趋势&＃xff08;trend&＃xff09;-数据随着时间变化。比如说升高或者降低。
季节性(seasonality)-数据在特定的时间段内变动。比如说节假日&＃xff0c;或者活动导致数据的异常。

由于原数据值域范围比较大&＃xff0c;为了缩小值域&＃xff0c;同时保留其他信息&＃xff0c;常用的方法是对数化&＃xff0c;取log。

ts_log &＃61; np.log(ts)

检测和去除趋势
通常有三种方法&＃xff1a;
- 聚合 : 将时间轴缩短&＃xff0c;以一段时间内星期/月/年的均值作为数据值。使不同时间段内的值差距缩小。
- 平滑&＃xff1a; 以一个滑动窗口内的均值代替原来的值&＃xff0c;为了使值之间的差距缩小
- 多项式过滤&＃xff1a;用一个回归模型来拟合现有数据&＃xff0c;使得数据更平滑。

本文主要使用平滑方法

Moving Average--移动平均

moving_avg &＃61; pd.rolling_mean(ts_log,12) plt.plot(ts_log ,color &＃61; &＃39;blue&＃39;) plt.plot(moving_avg, color&＃61;&＃39;red&＃39;)

可以看出moving_average要比原值平滑许多。

然后作差&＃xff1a;

ts_log_moving_avg_diff &＃61; ts_log-moving_avg ts_log_moving_avg_diff.dropna(inplace &＃61; True) test_stationarity(ts_log_moving_avg_diff)

可以看到&＃xff0c;做了处理之后的数据基本上没有了随时间变化的趋势&＃xff0c;DFtest的结果告诉我们在95%的置信度下&＃xff0c;数据是稳定的。

上面的方法是将所有的时间平等看待&＃xff0c;而在许多情况下&＃xff0c;可以认为越近的时刻越重要。所以引入指数加权移动平均-- Exponentially-weighted moving average.&＃xff08;pandas中通过ewma()函数提供了此功能。&＃xff09;

# halflife的值决定了衰减因子alpha&＃xff1a; alpha &＃61; 1 - exp(log(0.5) / halflife) expweighted_avg &＃61; pd.ewma(ts_log,halflife&＃61;12) ts_log_ewma_diff &＃61; ts_log - expweighted_avg test_stationarity(ts_log_ewma_diff)

可以看到相比普通的Moving Average&＃xff0c;新的数据平均标准差更小了。而且DFtest可以得到结论&＃xff1a;数据在99%的置信度上是稳定的。

检测和去除季节性
有两种方法&＃xff1a;
- 1 差分化&＃xff1a; 以特定滞后数目的时刻的值的作差
- 2 分解&＃xff1a; 对趋势和季节性分别建模在移除它们

Differencing--差分

ts_log_diff &＃61; ts_log - ts_log.shift() ts_log_diff.dropna(inplace&＃61;True) test_stationarity(ts_log_diff)

如图&＃xff0c;可以看出相比MA方法&＃xff0c;Differencing方法处理后的数据的均值和方差的在时间轴上的振幅明显缩小了。DFtest的结论是在90%的置信度下&＃xff0c;数据是稳定的。

3.Decomposing-分解

#分解(decomposing) 可以用来把时序数据中的趋势和周期性数据都分离出来: from statsmodels.tsa.seasonal import seasonal_decompose def decompose(timeseries):# 返回包含三个部分 trend&＃xff08;趋势部分&＃xff09; &＃xff0c; seasonal&＃xff08;季节性部分&＃xff09; 和residual (残留部分)decomposition &＃61; seasonal_decompose(timeseries)trend &＃61; decomposition.trendseasonal &＃61; decomposition.seasonalresidual &＃61; decomposition.residplt.subplot(411)plt.plot(ts_log, label&＃61;&＃39;Original&＃39;)plt.legend(loc&＃61;&＃39;best&＃39;)plt.subplot(412)plt.plot(trend, label&＃61;&＃39;Trend&＃39;)plt.legend(loc&＃61;&＃39;best&＃39;)plt.subplot(413)plt.plot(seasonal,label&＃61;&＃39;Seasonality&＃39;)plt.legend(loc&＃61;&＃39;best&＃39;)plt.subplot(414)plt.plot(residual, label&＃61;&＃39;Residuals&＃39;)plt.legend(loc&＃61;&＃39;best&＃39;)plt.tight_layout()return trend , seasonal, residual

如图可以明显的看到&＃xff0c;将original数据拆分成了三份。Trend数据具有明显的趋势性&＃xff0c;Seasonality数据具有明显的周期性&＃xff0c;Residuals是剩余的部分&＃xff0c;可以认为是去除了趋势和季节性数据之后&＃xff0c;稳定的数据&＃xff0c;是我们所需要的。

#消除了trend 和seasonal之后&＃xff0c;只对residual部分作为想要的时序数据进行处理 trend , seasonal, residual &＃61; decompose(ts_log) residual.dropna(inplace&＃61;True) test_stationarity(residual)

如图所示&＃xff0c;数据的均值和方差趋于常数&＃xff0c;几乎无波动(看上去比之前的陡峭&＃xff0c;但是要注意他的值域只有[-0.05,0.05]之间)&＃xff0c;所以直观上可以认为是稳定的数据。另外DFtest的结果显示&＃xff0c;Statistic值原小于1%时的Critical value&＃xff0c;所以在99%的置信度下&＃xff0c;数据是稳定的。

4. 对时序数据进行预测

假设经过处理&＃xff0c;已经得到了稳定时序数据。接下来&＃xff0c;我们使用ARIMA模型
对数据已经预测。ARIMA的介绍可以见本目录下的另一篇文章。

step1&＃xff1a; 通过ACF,PACF进行ARIMA&＃xff08;p&＃xff0c;d&＃xff0c;q&＃xff09;的p&＃xff0c;q参数估计

由前文Differencing部分已知&＃xff0c;一阶差分后数据已经稳定&＃xff0c;所以d&＃61;1。
所以用一阶差分化的ts_log_diff &＃61; ts_log - ts_log.shift() 作为输入。
等价于

y t &＃61; Y t - Y t - 1

作为输入。

先画出ACF,PACF的图像,代码如下&＃xff1a;

#ACF and PACF plots: from statsmodels.tsa.stattools import acf, pacf lag_acf &＃61; acf(ts_log_diff, nlags&＃61;20) lag_pacf &＃61; pacf(ts_log_diff, nlags&＃61;20, method&＃61;&＃39;ols&＃39;) #Plot ACF: plt.subplot(121) plt.plot(lag_acf) plt.axhline(y&＃61;0,linestyle&＃61;&＃39;--&＃39;,color&＃61;&＃39;gray&＃39;) plt.axhline(y&＃61;-1.96/np.sqrt(len(ts_log_diff)),linestyle&＃61;&＃39;--&＃39;,color&＃61;&＃39;gray&＃39;) plt.axhline(y&＃61;1.96/np.sqrt(len(ts_log_diff)),linestyle&＃61;&＃39;--&＃39;,color&＃61;&＃39;gray&＃39;) plt.title(&＃39;Autocorrelation Function&＃39;)#Plot PACF: plt.subplot(122) plt.plot(lag_pacf) plt.axhline(y&＃61;0,linestyle&＃61;&＃39;--&＃39;,color&＃61;&＃39;gray&＃39;) plt.axhline(y&＃61;-1.96/np.sqrt(len(ts_log_diff)),linestyle&＃61;&＃39;--&＃39;,color&＃61;&＃39;gray&＃39;) plt.axhline(y&＃61;1.96/np.sqrt(len(ts_log_diff)),linestyle&＃61;&＃39;--&＃39;,color&＃61;&＃39;gray&＃39;) plt.title(&＃39;Partial Autocorrelation Function&＃39;) plt.tight_layout()

图中&＃xff0c;上下两条灰线之间是置信区间&＃xff0c;p的值就是ACF第一次穿过上置信区间时的横轴值。q的值就是PACF第一次穿过上置信区间的横轴值。所以从图中可以得到p&＃61;2&＃xff0c;q&＃61;2。

step2&＃xff1a; 得到参数估计值p&＃xff0c;d&＃xff0c;q之后&＃xff0c;生成模型ARIMA&＃xff08;p&＃xff0c;d&＃xff0c;q&＃xff09;
为了突出差别&＃xff0c;用三种参数取值的三个模型作为对比。
模型1&＃xff1a;AR模型(ARIMA(2,1,0))

from statsmodels.tsa.arima_model import ARIMA model &＃61; ARIMA(ts_log, order&＃61;(2, 1, 0)) results_AR &＃61; model.fit(disp&＃61;-1) plt.plot(ts_log_diff) plt.plot(results_AR.fittedvalues, color&＃61;&＃39;red&＃39;) plt.title(&＃39;RSS: %.4f&＃39;% sum((results_AR.fittedvalues-ts_log_diff)**2))

图中&＃xff0c;蓝线是输入值&＃xff0c;红线是模型的拟合值&＃xff0c;RSS的累计平方误差。

模型2&＃xff1a;MA模型&＃xff08;ARIMA&＃xff08;0,1,2&＃xff09;&＃xff09;

model &＃61; ARIMA(ts_log, order&＃61;(0, 1, 2)) results_MA &＃61; model.fit(disp&＃61;-1) plt.plot(ts_log_diff) plt.plot(results_MA.fittedvalues, color&＃61;&＃39;red&＃39;) plt.title(&＃39;RSS: %.4f&＃39;% sum((results_MA.fittedvalues-ts_log_diff)**2))

模型3&＃xff1a;ARIMA模型(ARIMA(2,1,2))

model &＃61; ARIMA(ts_log, order&＃61;(2, 1, 2)) results_ARIMA &＃61; model.fit(disp&＃61;-1) plt.plot(ts_log_diff) plt.plot(results_ARIMA.fittedvalues, color&＃61;&＃39;red&＃39;) plt.title(&＃39;RSS: %.4f&＃39;% sum((results_ARIMA.fittedvalues-ts_log_diff)**2))

由RSS&＃xff0c;可知模型3--ARIMA&＃xff08;2,1,2&＃xff09;的拟合度最好&＃xff0c;所以我们确定了最终的预测模型。

step3: 将模型代入原数据进行预测
因为上面的模型的拟合值是对原数据进行稳定化之后的输入数据的拟合&＃xff0c;所以需要对拟合值进行相应处理的逆操作&＃xff0c;使得它回到与原数据一致的尺度。

#ARIMA拟合的其实是一阶差分ts_log_diff&＃xff0c;predictions_ARIMA_diff[i]是第i个月与i-1个月的ts_log的差值。 #由于差分化有一阶滞后&＃xff0c;所以第一个月的数据是空的&＃xff0c; predictions_ARIMA_diff &＃61; pd.Series(results_ARIMA.fittedvalues, copy&＃61;True) print predictions_ARIMA_diff.head() #累加现有的diff&＃xff0c;得到每个值与第一个月的差分&＃xff08;同log底的情况下&＃xff09;。 #即predictions_ARIMA_diff_cumsum[i] 是第i个月与第1个月的ts_log的差值。 predictions_ARIMA_diff_cumsum &＃61; predictions_ARIMA_diff.cumsum() #先ts_log_diff &＃61;> ts_log&＃61;>ts_log &＃61;> ts #先以ts_log的第一个值作为基数&＃xff0c;复制给所有值&＃xff0c;然后每个时刻的值累加与第一个月对应的差值(这样就解决了&＃xff0c;第一个月diff数据为空的问题了) #然后得到了predictions_ARIMA_log &＃61;> predictions_ARIMA predictions_ARIMA_log &＃61; pd.Series(ts_log.ix[0], index&＃61;ts_log.index) predictions_ARIMA_log &＃61; predictions_ARIMA_log.add(predictions_ARIMA_diff_cumsum,fill_value&＃61;0) predictions_ARIMA &＃61; np.exp(predictions_ARIMA_log) plt.figure() plt.plot(ts) plt.plot(predictions_ARIMA) plt.title(&＃39;RMSE: %.4f&＃39;% np.sqrt(sum((predictions_ARIMA-ts)**2)/len(ts)))

5.总结

前面一篇文章&＃xff0c;总结了ARIMA建模的步骤。
(1). 获取被观测系统时间序列数据&＃xff1b;
(2). 对数据绘图&＃xff0c;观测是否为平稳时间序列&＃xff1b;对于非平稳时间序列要先进行d阶差分运算&＃xff0c;化为平稳时间序列&＃xff1b;
(3). 经过第二步处理&＃xff0c;已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF&＃xff0c;通过对自相关图和偏自相关图的分析&＃xff0c;得到最佳的阶层 p 和阶数 q

(4). 由以上得到的d、q、p&＃xff0c;得到ARIMA模型。然后开始对得到的模型进行模型检验。

文章出处&＃xff1a;http://www.cnblogs.com/bradleon/p/6832867.html

推荐阅读

text
主板市盈率、市净率及股息率的自动化抓取

本文介绍了如何通过Python脚本自动从中国指数有限公司网站抓取主板的市盈率、市净率和股息率等关键财务指标，并将这些数据存储到CSV文件中。涉及的技术包括网页解析、正则表达式以及异常处理。 ... [详细]

蜡笔小新 2024-12-15 14:26:17
java
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
python
Python Pandas 库中的 Series.round() 方法详解

本文介绍如何使用 Python 的 Pandas 库中 Series 对象的 round() 方法，对数值进行四舍五入处理。该方法在数据预处理和分析中非常有用。 ... [详细]

蜡笔小新 2024-12-23 12:13:19
uri
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
uri
ABBYY FineReader：高效PDF转换、精准OCR识别与文档对比工具

在处理PDF转换和OCR识别时，您是否遇到过格式混乱、识别率低或图表无法正常识别的问题？ABBYY FineReader以其强大的功能和高精度的识别技术，完美解决这些问题，帮助您轻松找到最终版文档。 ... [详细]

蜡笔小新 2024-12-21 23:24:02
install
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
install
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
install
理解与应用：独热编码（One-Hot Encoding）

本文详细介绍了独热编码（One-Hot Encoding）与哑变量编码（Dummy Encoding）两种方法，用于将分类变量转换为数值形式，以便于机器学习算法处理。文章不仅解释了这两种编码方式的基本原理，还探讨了它们在实际应用中的差异及选择依据。 ... [详细]

蜡笔小新 2024-12-19 13:40:33
search
ML学习笔记20210824分类算法模型选择与调优

3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]

蜡笔小新 2024-12-19 09:10:33
text
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
range
Python并行处理：提升数据处理速度的方法与实践

本文探讨了如何利用Python进行数据处理的并行化，通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术，旨在帮助开发者有效提高数据处理效率。 ... [详细]

蜡笔小新 2024-12-14 11:30:03
range
导入大csv文件到mysql（CSV导入）

导入大csv文件到mysql（CSV导入） ... [详细]

蜡笔小新 2024-12-12 15:01:40
text
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
range
个性化召回算法实践(一)——CF算法

协同过滤推荐（CollaborativeFilteringRecommendation）主要包括基于用户的协同过滤算法与基于物品的协同过滤算法。下面，以movielens数据集为例 ... [详细]

蜡笔小新 2024-12-06 17:09:37
java
Java 中重写与重载的区别

本文详细解析了 Java 编程语言中重写（Override）和重载（Overload）的概念及其主要区别，帮助开发者更好地理解和应用这两种多态性机制。 ... [详细]

蜡笔小新 2024-12-20 09:23:33

吴雨醒

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章