基于决策树的模型可以预测未来吗?

问题描述 投票:-1回答:2

我正在尝试建立一个模型来预测每月,每周和每天的发货量。我发现基于决策树的模型比线性回归更好。

但是我读了一些有关机器学习的文章,它说基于决策树的模型无法预测未来哪个模型不会学习。 (外推问题)

因此,我认为这意味着,如果将数据分散在训练数据具有的日期之间,则该模型可以很好地预测,但是如果数据的日期超出范围,则不能。

我想确认我的理解是否正确。一些帖子显示使用随机森林模型预测基于日期时间的数据,这让我感到困惑。

也请让我知道是否有任何方法可以克服基于决策树的模型上的外推问题。

machine-learning random-forest decision-tree extrapolation
2个回答
0
投票

取决于数据。决策树在[训练数据的类别值的最小值,训练数据的类别值的最大值]的范围内预测任何样本的类别值。例如,假设有五个样本[(X1,Y1),(X2,Y2),...,(X5,Y5)],并且训练有素的树具有两个决策节点。第一节点N1包括(X1,Y1),(X2,Y2),而另一节点N2包括(X3,Y3),(X4,Y4)和(X5,Y5)。然后,当样本到达N1时,树将预测新样本为Y1和Y2的平均值,但是当样本到达N2时,它将预测为Y3,Y4,Y5的新样本。

因此,如果新样本的分类值可能大于训练数据的分类值的最大值或小于训练数据的分类值的最小值,则不建议使用决策树。否则,基于树的模型(例如随机森林)将显示出良好的性能。


0
投票

这里可以有不同形式的外推问题。如前所述,用于分类的经典决策树只能预测其训练/创建过程中遇到的值。从这个意义上讲,您不会预测任何以前看不见的值。如果您让分类器预测相对更新而不是绝对值,则可以解决此问题。但是您需要对数据有一定的了解,以确定哪种方法最适合不同情况。用于回归的决策树的情况相似。

“外推”的下一个问题是,如果您的训练数据随时间变化的统计信息,决策树的性能可能会很差。同样,我建议预测更新关系。否则,基于最近的训练数据进行的预测可能会产生更好的预测。由于无法在线上训练单个决策树,因此您必须每隔x个时间步创建一个新的决策树。

进一步讲,我想你会开始在状态机中思考,并尝试使用分类器进行状态预测。但这是我上次检查时关于决策树的一个相当未知的理论领域。如果您已经考虑到一些用于数据关系的模型,那么这样做会更好。

© www.soinside.com 2019 - 2024. All rights reserved.