错误分类为不同类别的多个类别

问题描述 投票:0回答:3

我对下一个问题感到鼓舞:我正在尝试对很多文本文档进行分类。

有20个类别:1个正常,19个-异常。当我使用朴素贝叶斯分类时,我得到以下结果:分类适用于19个类,但是对于“正常”类,我会遇到许多错误分类错误:“正常”类别中的几乎所有情况都被归类为其他(非正常)类别。

我有问题:

  • 我应该如何为“普通”课程选择训练集? (现在,我适合到具有“正常”类别且具有1/20的文本的分类器集比例)。
  • 可以通过以下方式指定分类器:如果属于某个类别少于某个阈值,则必须设置分类器此样本的类别(例如正常)?
machine-learning nlp scikit-learn text-classification
3个回答
1
投票

我不确定是否有完整的图片,但实际上您似乎只有2类“正常”和“异常”,它们在音量上是不平衡的,因此是先验的。

为了回答您的第一个问题,在那种情况下,我将尝试对普通班级进行过度采样以进行训练(多次传递相同的“普通”实例以“伪造”更大的音量,看看它是否可以改善您的表现。

我没有你的第二个问题。


2
投票

每个类的实例数量很可能不均衡,会导致此问题。您需要在最终类估计中定义某种先验,以规避不平衡实例的问题,并且需要通过交叉验证来微调此先验的外生参数。我想Dirichlet Prior用于多项式NB。


0
投票

第一个问题:尽可能扩大常规数据。

第二个问题:对于普通班级来说似乎很有用,但会与其他班级混为一谈,因此您不应该选择概率而不是分类结果本身。

© www.soinside.com 2019 - 2024. All rights reserved.