解读分类报告

问题描述 投票:-3回答:1

我一直致力于用150个文件(100列车和50个测试)实施KEA监督的关键词提取方法。结果让我有些困惑。这是我的分类报告:

           precision    recall  f1-score   support

      0       0.97      1.00      0.98     29118
      1       0.00      0.00      0.00       951

avg / total       0.94      0.97      0.95     30069

我在解释这一点从未被预测过。你认为我没有足够的训练数据吗?

python machine-learning
1个回答
3
投票

问题不在于你一般有足够的训练数据,但特别是第1类没有足够的样本。 从本质上讲,有几种方法可以解决这个问题:

  • 尝试增加案例1的样本数量:最明显的答案也可能不太现实,因为您可能首先开始使用更多的训练数据。但是有相关的方法,即
  • 数据增加:我不熟悉特定的算法,所以我不能说它一般有多容易,但是你可能会为你的例子添加一些形式的排列,这些例子仍然保持意义(即代表同一个类),但是不同足以作为“另一个训练样本”。
  • 加权类:取决于学习算法的具体细节,您通常也可以指定某种形式的类权重,这样可以让您更加“惩罚”算法,从而错误地分类您感兴趣的类。

一般来说,这是一项非常艰巨的任务,您不可能突然获得更好的结果,但这些肯定有助于改善您的情况,并帮助您更好地了解您的具体情况出了什么问题。另请注意,您添加的文档,培训程序等信息越多(它可能是您正在使用的实施的参考/链接),您获得合适答案的可能性就越大。

© www.soinside.com 2019 - 2024. All rights reserved.