错误分类为不同类别的多个类别

错误分类为不同类别的多个类别

问题描述投票：0回答：3

我对下一个问题感到鼓舞：我正在尝试对很多文本文档进行分类。

有20个类别：1个正常，19个-异常。当我使用朴素贝叶斯分类时，我得到以下结果：分类适用于19个类，但是对于“正常”类，我会遇到许多错误分类错误：“正常”类别中的几乎所有情况都被归类为其他（非正常）类别。

我有问题：

machine-learning

nlp

scikit-learn

text-classification

3个回答

1
投票

我不确定是否有完整的图片，但实际上您似乎只有2类“正常”和“异常”，它们在音量上是不平衡的，因此是先验的。

为了回答您的第一个问题，在那种情况下，我将尝试对普通班级进行过度采样以进行训练（多次传递相同的“普通”实例以“伪造”更大的音量，看看它是否可以改善您的表现。

我没有你的第二个问题。

2
投票

每个类的实例数量很可能不均衡，会导致此问题。您需要在最终类估计中定义某种先验，以规避不平衡实例的问题，并且需要通过交叉验证来微调此先验的外生参数。我想Dirichlet Prior用于多项式NB。

0
投票

第一个问题：尽可能扩大常规数据。

第二个问题：对于普通班级来说似乎很有用，但会与其他班级混为一谈，因此您不应该选择概率而不是分类结果本身。