我有一个10K的数据集,并且创建了以下十个功能:
每个要素都有来自数据集的输出。现在我想做那棵树。但是首先,我应该如何计算熵和信息增益?
您可以使用sklearn.feature_selection中的common_info_classif,但是您需要定义目标(因变量)。假设所有属性都是离散的(标称):
from sklearn.feature_selection import mutual_info_classif
print (mutual_info_classif(X_vec, Y, discrete_features=True))