具有一棵树的随机森林比单个决策树的性能差？

我正在分析一项医院研究的医学数据，如果我使用的是只有一棵树的随机森林，则交叉验证得分非常糟糕（表明过度拟合），而如果我使用的是决策树，则得分值实际上很低。两个分类器具有相同的深度参数。那么如何解释这种行为？

random-forest decision-tree

0
投票

决策树的构建过程通常包括修剪，这是后验的一部分，以减小深度并避免过度拟合。随机森林不使用此方法，因为它实际上通过对过度拟合的决策树求平均值来利用它们的高方差。

此外，决策树将通过在整个数据集上进行训练而构建，而“随机森林”树将在训练数据集的BOOTSTRAP上进行构建，这可能会转化为较差的性能。

总之，性能上的差异不足为奇。