NLP数据准备和文本分类任务的排序

我在网上阅读了很多关于stackoverflow的教程，但有一个问题对我来说仍然模糊不清。如果只考虑收集多标签培训数据的阶段，那么哪种方式（见下文）更好，是否可以接受和有效？

尝试不惜一切代价找到“纯”的一个标签示例。
每个示例都可以进行多重标记。

例如，我有关于战争，政治，经济，文化的文章。通常，与经济相关的政治，与政治相关的战争，经济问题都可能出现在文化文章等中。我可以为每个例子严格分配一个主题，放弃不确定的作品或分配2,3个主题。

我将使用Spacy训练数据，每个主题的数据量大约为5-10,000个。

对于任何解释和/或与相关讨论的链接，我将不胜感激。

1
投票

您可以尝试OneVsAll / OneVsRest策略。这将允许您同时执行这两项操作：预测确切的一个类别，而无需严格分配一个标签。

也称为one-vs-all，该策略包括为每个类拟合一个分类器。对于每个分类器，该类适用于所有其他类。除了计算效率（只需要n_classes分类器）之外，这种方法的一个优点是它的可解释性。由于每个类仅由一个和一个分类器表示，因此可以通过检查其相应的分类器来获得关于该类的知识。这是多类分类最常用的策略，是公平的默认选择。

该策略也可用于多标记学习，其中分类器用于预测多个标签，例如，通过拟合2-d矩阵，其中如果样本i具有标记j则单元[i，j]为1，否则为0。

链接到文档：https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html

问题描述投票：1回答：1

1个回答

最新问题

NLP数据准备和文本分类任务的排序

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1