我有一个数据集(推文),它被分为 3 种不同的情绪——积极的、消极的和中性的。我现在准备了一个 new dataset 与更新的推文,它需要被标记为属于三个类别之一。我们如何使用现有的数据集和附加到数据点的类来做到这一点,以避免数月的手动分类?
请注意:新数据集用于训练,旧数据集将被丢弃。
这是一个非常高层次的问题,这就是为什么我会给你一个粗略的概述,说明你如何从概念的角度实现这一点:
transfer learning
的方法,也就是说采用一个开源的language model
,它已经在数百万文本上进行了训练,并且fine-tune
通过让它学习你的旧推文和推文的结果之间的模式那个情感分析,在自然语言处理中被称为text classification
的任务BERT
(Bidirectional Encoder Representations from Transformers)或T5
(Text-to -Text Transformer Transformer) - 只需在谷歌上搜索“如何微调{插入所需语言模型的名称}以进行文本分类”,您会发现大量包含实际代码的教程transfer learning
有效,我建议您手动标记新数据集的相当数量的推文(从臀部拍摄,大约 300-500)并验证分类模型是否达到所需的准确度。可接受的准确度水平实际上取决于您从实际/业务角度需要什么。希望这有帮助!