如何使用带有标签的现有数据集自动标记另一个数据集

问题描述 投票:0回答:1

我有一个数据集(推文),它被分为 3 种不同的情绪——积极的、消极的和中性的。我现在准备了一个 new dataset 与更新的推文,它需要被标记为属于三个类别之一。我们如何使用现有的数据集和附加到数据点的类来做到这一点,以避免数月的手动分类?

请注意:新数据集用于训练,旧数据集将被丢弃。

python dataset classification
1个回答
0
投票

这是一个非常高层次的问题,这就是为什么我会给你一个粗略的概述,说明你如何从概念的角度实现这一点:

  • 使用一种叫做
    transfer learning
    的方法,也就是说采用一个开源的
    language model
    ,它已经在数百万文本上进行了训练,并且
    fine-tune
    通过让它学习你的旧推文和推文的结果之间的模式那个情感分析,在自然语言处理中被称为
    text classification
    的任务
  • 特别是,我建议您使用模型,例如
    BERT
    Bidirectional Encoder Representations from Transformers)或
    T5
    Text-to -Text Transformer Transformer) - 只需在谷歌上搜索“如何微调{插入所需语言模型的名称}以进行文本分类”,您会发现大量包含实际代码的教程
  • 为了确保
    transfer learning
    有效,我建议您手动标记新数据集的相当数量的推文(从臀部拍摄,大约 300-500)并验证分类模型是否达到所需的准确度。可接受的准确度水平实际上取决于您从实际/业务角度需要什么。

希望这有帮助!

© www.soinside.com 2019 - 2024. All rights reserved.