随机森林:%IncMSE 和 %NodePurity 之间不匹配

问题描述 投票:0回答:1

我在一个相当小的数据集(即 11 个变量的 28 个观测值)上对 100,000 个分类树进行了随机森林分析。

然后我画了变量重要性的图

在生成的图中,至少有一个重要变量的 %IncMSE 和 IncNodePurity 之间存在严重不匹配。事实上,在前者的重要性中,该变量似乎排名第七(即 %IncMSE<0) but third in the latter.

我该如何解释这种不匹配?

所讨论的变量与在两张图中始终排在第二位的另一个变量显着相关。这可能是一个线索吗?

machine-learning random-forest
1个回答
1
投票

第一张图显示,如果通过随机排列为变量赋值,MSE 会增加多少。值越高,变量重要性越高。

另一方面,节点纯度是通过基尼指数来衡量的,基尼指数是该变量拆分前后 RSS 之间的差异。

由于变量重要性标准的概念在两种情况下不同,因此不同变量的排名不同。

没有固定的标准来选择变量重要性的“最佳”衡量标准,这取决于您手头的问题。

© www.soinside.com 2019 - 2024. All rights reserved.