我在分类算法CART上有一些问题,
我的数据看起来像这样,问题是当所有数据都是数字时,我如何使用GINI索引来计算“拆分的优缺点”?
Numerical Dataset
[Gini索引适用于分类数据,它测量了随机选择特定变量时对其进行错误分类的程度或概率。因此,对于树,我们选择具有最小Gini索引的特征。
现在,在您的情况下,我们拥有数值数据,因此拆分的特征选择是使用高于阈值的元素进行的。
为了计算阈值,请按升序对数字特征进行排序,然后尝试将每个值用作阈值,并计算每个值的信息增益作为阈值。具有最大信息增益的阈值将是您的阈值。