所以我的数据是这样的。
year, y, x1, x2, x3, x4
2009, 0.5, 0.4, 0.4, 0.9
2013, nan, 0.4, 0.5, 0.8
2020, 0.8, 0.39, 0.51, 0.7
数据是以年为单位的,但每年的间隔并不一致。y的值既取决于时间又取决于特征。但在某些情况下,我最需要的y是缺失的。其他特征也可能缺失,但大多数情况下它们都是存在的。我曾尝试通过 df.interpolate()
函数,但大多数函数的值都不能很好地拟合在区间内。我试过ARIMA、LSTM和其他方法,但它们没有考虑输入特征。我也考虑过使用回归技术,但它们没有纳入数据的时间序列性质。
因此,什么是最好的方法,这种情况下,即。
如何根据输入特征来推算时间序列值?
你有没有想过把基于特征的方法和基于时间的方法都融合起来?比如你可以对非缺失值进行线性回归训练,得到预测缺失值的特征的协系数,然后对时间分量进行简单加权移动平均ARIMALSTM等。然后给它们两个的结果分配权重,得出一个来自特征和时间序列的预测结果。