我对下一个问题感到鼓舞:我正在尝试对很多文本文档进行分类。
有20个类别:1个正常,19个-异常。当我使用朴素贝叶斯分类时,我得到以下结果:分类适用于19个类,但是对于“正常”类,我会遇到许多错误分类错误:“正常”类别中的几乎所有情况都被归类为其他(非正常)类别。
我有问题:
我不确定是否有完整的图片,但实际上您似乎只有2类“正常”和“异常”,它们在音量上是不平衡的,因此是先验的。
为了回答您的第一个问题,在那种情况下,我将尝试对普通班级进行过度采样以进行训练(多次传递相同的“普通”实例以“伪造”更大的音量,看看它是否可以改善您的表现。
我没有你的第二个问题。
每个类的实例数量很可能不均衡,会导致此问题。您需要在最终类估计中定义某种先验,以规避不平衡实例的问题,并且需要通过交叉验证来微调此先验的外生参数。我想Dirichlet Prior用于多项式NB。
第一个问题:尽可能扩大常规数据。
第二个问题:对于普通班级来说似乎很有用,但会与其他班级混为一谈,因此您不应该选择概率而不是分类结果本身。