如果树的任何一个节点的输入是显示的数据,那么最好的拆分是什么?任何拆分都会有子节点的精度低于父节点的精度吧?所以,即使准确率下降,我们还能继续拆分吗?
在没有得到具体数据的情况下,这个问题很难回答。
但是模拟一个类似的数据可以给出大概的概念。下面是这样一个数据的树,有 max_depth 的3
max_depth
第一个拆分把右边所有的白点,并对其进行分类。
第二种拆分方式将左边的所有白点,并对其进行分类,。
第三次拆分试图将中间的黑点和白点进行拆分,通过拆分跨y(X[1])轴
X[1]
对于第一次拆分,注意到现在的总基尼值是 0.448*1512/2000 + 0.0 * 488/2000 =0.34<0.5. 分割后的准确度约为 75%因为它就在 100% 的 25% 的数据,以及 66% 关于 75% 的数据。
0.448*1512/2000 + 0.0 * 488/2000 =0.34<0.5
75%
100%
25%
66%