带有少量观察值的Python中的增强Dickey-Fuller测试问题

Question

我想测试时间序列的平稳性（nobs = 23），并从statsmodels.tsa.stattools中实施了adfuller测试。

以下是原始数据：

1995-01-01      3126.0
1996-01-01      3321.0
1997-01-01      3514.0
1998-01-01      3690.0
1999-01-01      3906.0
2000-01-01      4065.0
2001-01-01      4287.0
2002-01-01      4409.0
2003-01-01      4641.0
2004-01-01      4812.0
2005-01-01      4901.0
2006-01-01      5028.0
2007-01-01      5035.0
2008-01-01      5083.0
2009-01-01      5183.0
2010-01-01      5377.0
2011-01-01      5428.0
2012-01-01      5601.0
2013-01-01      5705.0
2014-01-01      5895.0
2015-01-01      6234.0
2016-01-01      6542.0
2017-01-01      6839.0

这里是我正在使用的自定义ADF功能（贷记此blog：]

def test_stationarity(timeseries):
    print('Results of Dickey-Fuller Test:')
    dftest = adfuller(timeseries, autolag='AIC', maxlag = None)
    dfoutput = pd.Series(dftest[0:4], index=['ADF Statistic', 'p-value', '#Lags Used', 'Number of Obs Used'])
    for key, value in dftest[4].items():
        dfoutput['Critical Value (%s)' % key] = value
    print(dfoutput)

以下是对原始数据进行ADF测试的结果：

ADF Statistic           -0.126550
p-value                  0.946729
#Lags Used               8.000000
Number of Obs Used      14.000000
Critical Value (1%)     -4.012034
Critical Value (5%)     -3.104184
Critical Value (10%)    -2.690987

ADF统计信息大于所有临界值，并且p值> alpha 0.05表示该序列不是平稳的，因此我对数据进行了一次差分。这是差分功能和ADF测试的结果：

def difference(dataset):
    diff = list()
    for i in range(1, len(dataset)):
        value = dataset[i] - dataset[i - 1]
        #print(value)
        diff.append(value)
    return pd.Series(diff)


ADF Statistic           -1.169799
p-value                  0.686451
#Lags Used               9.000000
Number of Obs Used      12.000000
Critical Value (1%)     -4.137829
Critical Value (5%)     -3.154972
Critical Value (10%)    -2.714477

[ADF统计量和p值均得到改善，但是该序列仍然不稳定，因此我进行了第二次求差，再次是结果：

ADF Statistic           -0.000000
p-value                  0.958532
#Lags Used               9.000000
Number of Obs Used      11.000000
Critical Value (1%)     -4.223238
Critical Value (5%)     -3.189369
Critical Value (10%)    -2.729839

在对数据进行第二次差分后，ADF测试统计量变为-0.0000（鉴于未舍入值的print（）返回-0.0，但令人困惑的是，任一种方式都暗示着某个有效数字不是零，而是p）。 -value现在比开始时更糟。我也收到此警告：

RuntimeWarning: divide by zero encountered in double_scalars
  return np.dot(wresid, wresid) / self.df_resid.

对p，d，q值进行网格搜索将返回ARIMA（1，1，0）模型，但我认为仍然需要第二次差分，因为第一次差分无法实现。

[我怀疑奇怪的测试统计量和p值是由于ADF测试的默认设置使用的样本量小和滞后次数高（maxlag = None）。我知道当maxlag设置为None时，它将使用公式int（np.ceil（12。* np.power（nobs / 100。，1/4。）））。

这合适吗？如果不是这样，那么对于具有少量观察结果的数据集，或者在ADF函数中手动设置maxlag值的经验法则，是否有任何变通办法，可以避免出现看似错误的测试统计信息。我搜索了here，here和here，但找不到解决方案。

我正在使用statsmodels 0.8.0版。

Answer 1

我知道这个问题还有一段时间，但是我遇到了同样的问题。您找到解决方案了吗？

带有少量观察值的Python中的增强Dickey-Fuller测试问题

问题描述投票：4回答：1

1个回答

最新问题

带有少量观察值的Python中的增强Dickey-Fuller测试问题

问题描述 投票：4回答：1

1个回答

最新问题

问题描述投票：4回答：1