当所有数据都是数字时如何计算CART算法的基尼系数?

问题描述 投票:0回答:1

我在分类算法CART上有一些问题,

我的数据看起来像这样,问题是当所有数据都是数字时,我如何使用GINI索引来计算“拆分的优缺点”?

Numerical Dataset

data-science data-mining cart
1个回答
0
投票

[Gini索引适用于分类数据,它测量了随机选择特定变量时对其进行错误分类的程度或概率。因此,对于树,我们选择具有最小Gini索引的特征。

现在,在您的情况下,我们拥有数值数据,因此拆分的特征选择是使用高于阈值的元素进行的。

为了计算阈值,请按升序对数字特征进行排序,然后尝试将每个值用作阈值,并计算每个值的信息增益作为阈值。具有最大信息增益的阈值将是您的阈值。

© www.soinside.com 2019 - 2024. All rights reserved.