我一直致力于用150个文件(100列车和50个测试)实施KEA监督的关键词提取方法。结果让我有些困惑。这是我的分类报告:
precision recall f1-score support
0 0.97 1.00 0.98 29118
1 0.00 0.00 0.00 951
avg / total 0.94 0.97 0.95 30069
我在解释这一点从未被预测过。你认为我没有足够的训练数据吗?
问题不在于你一般有足够的训练数据,但特别是第1类没有足够的样本。 从本质上讲,有几种方法可以解决这个问题:
一般来说,这是一项非常艰巨的任务,您不可能突然获得更好的结果,但这些肯定有助于改善您的情况,并帮助您更好地了解您的具体情况出了什么问题。另请注意,您添加的文档,培训程序等信息越多(它可能是您正在使用的实施的参考/链接),您获得合适答案的可能性就越大。