我有一个包含13个类的文本数据集。有一些重叠的类。但是,为了证明这些类是重叠的,我希望针对具有13个标签的数据训练机器学习分类器,然后在较少的标签(例如10,11等)上对其进行测试,以找出不重叠的目标标签的最小数量是多少将在数据集中。
请告诉我在测试分类器时如何更改标签标签的数量?
提前谢谢!
查找重叠类的一种方法是训练所有13个类的机器学习分类器,并在测试集上绘制这样的混淆矩阵(使用matplotlib)。例如-您的混淆矩阵如下所示。在这里,您可以看到类别0和3看起来像重叠的类别,因为它们之间的错过分类很高。因此,您可以通过这种方式找出重叠的类。