我有多个类似不同资产的时间序列数据帧。
问题是数据中有漏洞(其他资产上没有漏洞)。
问题:有什么定性的方法可以清理数据,以便我可以用接近现实的东西来填充缺少的行?
额外信息:
我的第一个想法:
预测缺损的LSTM(问题:我只能在没有空洞的行序列上训练它->偏差)
ARIMA(不知道,刚刚听说)
之前和之后的值的均值(->不切实际,这会错过离群点和尖峰)
什么是更好的方法? (无法删除)
这里有一些示例数据:
(...我只是用手写的例子,价格是垃圾,但只是将孔显示为NaN值。)
df1
Open High Low Close
Time
2014-10-10 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-13 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-14 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-15 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-16 00:00:00 1.12345 1.12345 1.12345 1.12345
... ... ... ... ...
2016-02-23 16:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 17:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 18:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 19:00:00 NaN NaN NaN NaN
2016-02-23 20:00:00 1.12345 1.12345 1.12345 1.12345
df2
Open High Low Close
Time
2014-10-10 00:00:00 28391.12345 28391.12352 28391.12332 28391.12347
2014-10-13 00:00:00 28391.12348 28391.12358 28391.12340 28391.12350
2014-10-14 00:00:00 NaN NaN NaN NaN
2014-10-15 00:00:00 28391.12350 28391.12354 28391.12344 28391.12353
2014-10-16 00:00:00 28391.12350 28391.12354 28391.12344 28391.12353
... ... ... ... ...
2016-02-23 16:00:00 28391.30000 28391.30000 28391.10000 28391.10000
2016-02-23 17:00:00 28391.10000 28391.50000 28391.09000 28391.40000
2016-02-23 18:00:00 28391.12345 28391.12345 28391.12345 28391.12345
2016-02-23 19:00:00 28391.12345 28391.12345 28391.12345 28391.12345
2016-02-23 20:00:00 28391.12345 28391.12345 28391.12345 28391.12345
您在这里问了2个问题:
1)数据清理:您应该检查在遗漏点日期没有交易。即可能是假期。除非使用相同的交易日历并具有相同的流动性,否则无法使用其他资产进行检查。请记住,并非所有金融市场都在周一至周五交易。
2)最佳模型:您需要进行一些研发工作时要牢记基准,以找到适合您的方法。一个好的预测收盘模型可能会在预测交易量方面表现不佳。