NLP数据准备和文本分类任务的排序

问题描述 投票:1回答:1

我在网上阅读了很多关于stackoverflow的教程,但有一个问题对我来说仍然模糊不清。如果只考虑收集多标签培训数据的阶段,那么哪种方式(见下文)更好,是否可以接受和有效?

  1. 尝试不惜一切代价找到“纯”的一个标签示例。
  2. 每个示例都可以进行多重标记。

例如,我有关于战争,政治,经济,文化的文章。通常,与经济相关的政治,与政治相关的战争,经济问题都可能出现在文化文章等中。我可以为每个例子严格分配一个主题,放弃不确定的作品或分配2,3个主题。

我将使用Spacy训练数据,每个主题的数据量大约为5-10,000个。

对于任何解释和/或与相关讨论的链接,我将不胜感激。

python nlp dataset text-classification spacy
1个回答
1
投票

您可以尝试OneVsAll / OneVsRest策略。这将允许您同时执行这两项操作:预测确切的一个类别,而无需严格分配一个标签。

也称为one-vs-all,该策略包括为每个类拟合一个分类器。对于每个分类器,该类适用于所有其他类。除了计算效率(只需要n_classes分类器)之外,这种方法的一个优点是它的可解释性。由于每个类仅由一个和一个分类器表示,因此可以通过检查其相应的分类器来获得关于该类的知识。这是多类分类最常用的策略,是公平的默认选择。

该策略也可用于多标记学习,其中分类器用于预测多个标签,例如,通过拟合2-d矩阵,其中如果样本i具有标记j则单元[i,j]为1,否则为0。

链接到文档:https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html

© www.soinside.com 2019 - 2024. All rights reserved.