文本分类中处理不均匀数据的最佳方法

问题描述 投票:0回答:1

我正在尝试使用 sklearn 和 Python 对一些文本数据(推文)运行文本分类模型。我已经手工编码了近 1,500 个案例,但是数据不平衡。

案例按主题进行编码。其中一个代码本质上是“无主题”,并且是大多数情况。

准确来说,数据有:
964 条无主题推文
第183章 主题A
第171章 主题B
120 主题C
110 主题 D
98主题E

不幸的是,我的模型(SVM 和 Logistic 回归)似乎始终对无主题产生误报,这表明数据不平衡是问题所在。

我研究了不平衡数据建议,但未能得到满意的答案。

有没有好的方法来处理多分类问题中的数据不平衡?当不平衡主要来自“其他”/空类别时怎么办?

我看到人们建议对数据进行过度采样。这不是很可能会人为地过度拟合数据并夸大准确性,就像您试图从相同的案例中预测案例一样?

我看到有人建议 SMOTE? smote 可以用于文本分类吗?

对于如何进行,还有其他一般建议吗?

python scikit-learn data-science text-classification imbalanced-data
1个回答
0
投票

您可以使用权重 => 许多分类器,包括 scikit-learn 中的 SVM 和逻辑回归,允许您为不同的类别分配不同的权重。

您可以选择合适的模型 => 例如,尽管数据不平衡,决策树和随机森林也可以很好地工作。

您可以使用评估指标 => 例如精度、召回率、F1 分数、ROC

首先尝试研究它们,如果你遇到困难,我会帮助你实施。

© www.soinside.com 2019 - 2024. All rights reserved.