试图了解随机森林以进行回归

问题描述 投票:-1回答:2

我正在尝试了解随机森林以进行回归。我已经阅读了很多,但是仍然很难理解。我真正理解的是:随机森林对来自多个决策树的答案求平均。每个决策树都是使用不同的样本和不同的功能子集构建的。但是,有些事情我还是不太了解。

  1. 如果我是正确的,则使用节点拆分算法来构建树。 是否存在用于拆分节点的不同算法?是否正确?
    • 例如,我已经阅读了有关信息增益和减少标准偏差的信息。
  2. 是真的吗?[[在决策树的每个节点上,仅考虑一个功能?
  3. 根据我的阅读,我了解到决策树通过最小化平方误差之和,以分段线性方式拟合数据。它是否正确?因此,
  4. 每个拟合的零件实际上是否都是“正常”(多维)线性回归?
  5. 随机森林如何进行预测?
  6. 我了解到训练模型时,最终不会得到要素系数的值(与线性回归相比)。
希望有人可以使它更清楚!
machine-learning regression random-forest decision-tree
2个回答
0
投票
    是的,信息增益和基尼系数是两种常见的分类方法,但是对于回归分析,对于前MSS,通常使用方差度量。
  1. 对一个变量进行分割,但是选择变量是随机的,并且取决于mtry参数(特征装袋)。
  2. 以某种方式。
  3. [每棵树根据新观测值落在叶子上的位置做出自己的预测,整体预测是所有树的平均值。

0
投票
    是的,有不同的节点分裂准则(Gini,信息增益,熵等)。选择哪种准则并没有多大关系(您可以证明它们在所有非病理性分布上基本上都做同样的事情,并倾向于产生大致相同的分割)。与其他超参数(例如,每个节点的最小样本数,类权重等)相比并不重要。
  1. 不完全是。在树构建期间,每个节点的大多数(或所有)候选特征均
  2. 考虑,但是最终每个节点仅获得一个特征(根据分裂准则,最优特征,以及候选特征的集合并对其进行分裂暴露给它)。
  3. 多件事情:
    • 最小化平方误差之和不能保证输出将具有正态分布。当输出恰好具有正态分布时,这是最佳损耗函数,即它使输出误差最小。通常,它作为损失函数表现还不错,并且比MAE更好。
  4. 您可以使用平方误差之和以外的其他损失函数。您可以使用RMSE,logloss,MAE等。
  5. 从概念上讲,您可以将树或子树视为穷人对(连续)回归变量的分段近似。有一种明显的张力,即较浅的树木会给您带来不连续性,但较深的树木往往会过度拟合。本质上,我们仅从多个变量构造一个粗略的近似值,树告诉我们我们最需要的近似值。
  6. 要使用树来评估(做出预测),对于每个输入样本,只需将节点从根节点移到叶节点,如下。
    • 是的,RF没有像线性回归那样的系数。但是,它确实具有
    • feature重要程度
  7. ,它(总体上告诉您)哪些特征在所有树中的使用频率很高。但是要注意不要直接从线性回归中解释系数。有它自己的警告(相关性等)。
© www.soinside.com 2019 - 2024. All rights reserved.