分解趋势,季节和剩余时间序列元素

问题描述 投票:14回答:4

我有一个带有几个时间序列的DataFrame

         divida    movav12       var  varmovav12
Date                                            
2004-01       0        NaN       NaN         NaN
2004-02       0        NaN       NaN         NaN
2004-03       0        NaN       NaN         NaN
2004-04      34        NaN       inf         NaN
2004-05      30        NaN -0.117647         NaN
2004-06      44        NaN  0.466667         NaN
2004-07      35        NaN -0.204545         NaN
2004-08      31        NaN -0.114286         NaN
2004-09      30        NaN -0.032258         NaN
2004-10      24        NaN -0.200000         NaN
2004-11      41        NaN  0.708333         NaN
2004-12      29  24.833333 -0.292683         NaN
2005-01      31  27.416667  0.068966    0.104027
2005-02      28  29.750000 -0.096774    0.085106
2005-03      27  32.000000 -0.035714    0.075630
2005-04      30  31.666667  0.111111   -0.010417
2005-05      31  31.750000  0.033333    0.002632
2005-06      39  31.333333  0.258065   -0.013123
2005-07      36  31.416667 -0.076923    0.002660

我想分解第一时间序列divida,以便可以将其趋势与季节和残差成分分开。

我找到了答案here,并且正在尝试使用以下代码:

import statsmodels.api as sm

s=sm.tsa.seasonal_decompose(divida.divida)

但是我仍然收到此错误:

Traceback (most recent call last):
File "/Users/Pred_UnBR_Mod2.py", line 78, in <module> s=sm.tsa.seasonal_decompose(divida.divida)
File "/Library/Python/2.7/site-packages/statsmodels/tsa/seasonal.py", line 58, in seasonal_decompose _pandas_wrapper, pfreq = _maybe_get_pandas_wrapper_freq(x)
File "/Library/Python/2.7/site-packages/statsmodels/tsa/filters/_utils.py", line 46, in _maybe_get_pandas_wrapper_freq
freq = index.inferred_freq
AttributeError: 'Index' object has no attribute 'inferred_freq'

有人可以照亮它吗?

python pandas machine-learning time-series statsmodels
4个回答
28
投票

index转换为DateTimeIndex时效果很好:

df.reset_index(inplace=True)
df['Date'] = pd.to_datetime(df['Date'])
df = df.set_index('Date')
s=sm.tsa.seasonal_decompose(df.divida)

<statsmodels.tsa.seasonal.DecomposeResult object at 0x110ec3710>

通过以下方式访问组件:

s.resid
s.seasonal
s.trend

2
投票

Statsmodel仅在提供频率时才会分解序列。通常,所有时间序列索引都将包含频率,例如:日,工作日,周因此显示错误。您可以通过两种方式消除此错误:

  1. Stefan所做的是,他将索引列赋予了熊猫DateTime函数。它使用内部函数infer_freq查找频率并返回带有频率的索引。
  2. 否则,您可以将索引列的频率设置为df.index.asfreq(freq='m')。这里m代表月份。如果您具有领域知识或通过d,则可以设置频率。

0
投票

简单点:

请遵循以下三个步骤:1-如果未完成,则将列设置为yyyy-mm-dd或dd-mm-yyyy(使用excel)。2-然后使用熊猫将其转换为日期格式,如下所示:

df ['Date'] = pd.to_datetime(df ['Date'])

3-使用:分解它

摘自statsmodels.tsa.seasonal import season_decompose分解=季节分解(ts_log)

最后:---- enter image description here


0
投票

当我得到以下三个部分时,

s.resid季节性趋势

我如何根据此预测未来的步骤?

© www.soinside.com 2019 - 2024. All rights reserved.