解读分类报告

问题描述投票：-3回答：1

我一直致力于用150个文件（100列车和50个测试）实施KEA监督的关键词提取方法。结果让我有些困惑。这是我的分类报告：

           precision    recall  f1-score   support

      0       0.97      1.00      0.98     29118
      1       0.00      0.00      0.00       951

avg / total       0.94      0.97      0.95     30069

我在解释这一点从未被预测过。你认为我没有足够的训练数据吗？

python machine-learning

1个回答

3
投票

问题不在于你一般有足够的训练数据，但特别是第1类没有足够的样本。从本质上讲，有几种方法可以解决这个问题：

尝试增加案例1的样本数量：最明显的答案也可能不太现实，因为您可能首先开始使用更多的训练数据。但是有相关的方法，即
数据增加：我不熟悉特定的算法，所以我不能说它一般有多容易，但是你可能会为你的例子添加一些形式的排列，这些例子仍然保持意义（即代表同一个类），但是不同足以作为“另一个训练样本”。
加权类：取决于学习算法的具体细节，您通常也可以指定某种形式的类权重，这样可以让您更加“惩罚”算法，从而错误地分类您感兴趣的类。

一般来说，这是一项非常艰巨的任务，您不可能突然获得更好的结果，但这些肯定有助于改善您的情况，并帮助您更好地了解您的具体情况出了什么问题。另请注意，您添加的文档，培训程序等信息越多（它可能是您正在使用的实施的参考/链接），您获得合适答案的可能性就越大。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.