nlp multilabel分类tf vs tfidf

问题描述 投票:2回答:1

我正在尝试解决NLP多标签分类问题。我有大量的文件应该分为29类。

我解决这个问题的方法是,在清理文本后,停止删除单词,标记等等,就是执行以下操作:

为了创建特征矩阵,我查看了每个文档的术语的频率分布,然后我创建了这些术语的表格(删除了重复的术语),然后我计算了相应文本中每个单词的术语频率(tf) 。所以,最终我在每个文档中最终得到了大约1000个术语及其受尊重的频率。

然后我使用selectKbest将它们缩小到490左右。在缩放它们之后,我使用OneVsRestClassifier(SVC)进行分类。

我在F1 score周围得到一个0.58,但它根本没有改善,我需要得到0.62

我正确处理问题了吗?

我需要使用tfidf vectorizer而不是tf,以及如何使用?

我对NLP很新,我不确定下一步该怎么做以及如何提高分数。

这个主题的任何帮助都是无价的。

谢谢

python nlp tf-idf multilabel-classification tfidfvectorizer
1个回答
0
投票

Tf方法可以重视常用词而不是必要而是使用Tfidf方法,该方法重视数据集中特定文档中罕见且独特的单词。

在选择Kbest之前,先在整个功能集上进行训练,然后使用特征重要性来获得最佳功能。

您也可以尝试使用Tree ClassifiersXGB更好的模型,但SVC也是非常好的分类器。

尝试使用Naive Bayes作为f1 score的最低标准,并尝试在grid search的帮助下改善其他分类器的结果。

© www.soinside.com 2019 - 2024. All rights reserved.