使用XGBoost(棘手的时间序列)在ML中进行预测

问题描述 投票:0回答:1

大家好,新年快乐!我有一个数据集,其中包含过去3年中1000家公司店铺的每日销售额观察(当然,仅从销售数字来看,我就有一些功能,例如:促销,商店类型,分类类型等。)

目标是建立一个预测未来销售的模型。您将如何根据1000个时间序列建立模型并将其推广,以便可以预测具有特定功能的1家商店的销售额?

数据集类似于:https://www.kaggle.com/c/rossmann-store-sales/notebooks。基于kaggle提供的该数据集的解决方案(使用python),我注意到几乎每个人都在使用XGBoost,但是我对所提供的这些解决方案有一些疑问,对于这些问题的澄清我非常感谢。特别是:

  1. 人们如何才能将对1000多家商店进行3.5年日常观察的数据每天加载到模型中,而无需对商店ID的第一个进行热编码?该模型是否会在某个时候失败,因为它会得知1040号商店比35号商店要好-仅仅是因为商店ID?

  2. 如果我们使用传统的一键编码,这将创建1000个难以管理的新列-但是,有没有一种方法可以通过一键编码解决此问题?

  3. 人们为什么通过将天,周,月添加为单独的变量来提取“日期”功能?这不是对模型的误导吗?人们为什么不分配“日期”作为索引呢?

  4. 大家好,新年快乐!我有一个数据集,其中包含过去3年中1000家公司商店的每日销售观察数据(当然,仅从销售数字来看,我有以下特点:...

python machine-learning time-series xgboost forecasting
1个回答
0
投票

这似乎是一个可以应用分层预测的问题空间,我正在商店,渠道,区域级别进行此工作。在Colin Rooney的HTS先知实施中取得了一些成功。 https://github.com/CollinRooney12/htsprophet/blob/master/htsprophet/runHTS.py

如果您是R用户,请使用Hyndman的hts软件包:https://robjhyndman.com/hyndsight/hts4/

© www.soinside.com 2019 - 2024. All rights reserved.