提取最重要的功能(每类)使用mutual_info_classif

问题描述 投票:0回答:1

我使用mutual_info_classif确定二进制文本分类任务是最重要的话:

mi_score = mutual_info_classif(X, y)

但上述给出特征分数的阵列不参考的相应类

有没有办法,让每类使用MI的最重要的特点是什么?

附言:我已经尝试过χ2,但它给出了两个类相同的特征排名

scikit-learn text-classification
1个回答
0
投票

互信息是2个变量之间的依赖性的测量。在你的情况下,每个属性变量和“类”变量之间。互信息会给更高的分数,在属性变量创建目标变量的更好的分流。这意味着你只能得到一个分数描述属性和类之间的强度。最重要的特点是所有的类之间的区别最好的一个。

如果你有多个标签(不是二进制类)类,你可以通过使用虚拟变量为每一个标签的新类变量。例如,假设你的类名是类,而它拥有3个不同的标签:“红色”,“绿色”和“蓝色”。创建3个新的目标变量,第一个将被称为“Is_Red”,并将于“是”如果CLASS ==“红色”或“否”。否则。通过这种方式,你可以看到哪些属性类的每个特定实例之间的最佳区分。你将不得不每运行新类变量的相互信息。

© www.soinside.com 2019 - 2024. All rights reserved.