用于文本分类的数据增强

问题描述 投票:-1回答:1

关于文本分类的当前最新数据增强技术是什么?

我在网上做了一些关于如何通过进行数据转换来扩展训练集的研究,就像我们在图像分类上所做的那样。我找到了一些有趣的想法,例如:

  • 同义词替换:从句子中随机选择不会停止单词的n个单词。用随机选择的一个同义词替换每个单词。
  • 随机插入:在句子中找到一个随机词的随机同义词,它不是一个停用词。将该同义词插入句子中的随机位置。这样做了n次。
  • 随机交换:随机选择句子中的两个单词并交换其位置。这样做了n次。
  • 随机删除:以概率p随机删除句子中的每个单词。

但是没有使用预训练的单词矢量表示模型,如word2vec。有原因吗?

使用word2vec进行数据扩充可能有助于模型根据外部信息获取更多数据。例如,在专门针对外部在线评论训练的预训练的向量空间中,通过其更接近的令牌在句子中随机替换有毒评论标记。

这是一个好方法还是我错过了这项技术的一些重要缺点?

machine-learning nlp classification data-science text-classification
1个回答
1
投票

您使用word2vec嵌入的想法通常会有所帮助。但是,这是一个无上下文嵌入。更进一步,截至今天(2019-02)的最新技术(SOTA)是使用在大型文本语料库中训练的语言模型,并使用您自己的训练数据对您自己的分类器进行微调。

两个SOTA模型是:

您提到的这些数据增强方法也可能有所帮助(取决于您的域和您拥有的培训示例的数量)。其中一些实际上用于语言模型训练(例如,在BERT中,有一项任务是在训练前随机屏蔽句子中的单词)。如果我是你,我会首先采用预先训练的模型,并使用您当前的训练数据微调您自己的分类器。将其作为基线,您可以尝试每种您喜欢的数据增强方法,看看它们是否真的有用。

© www.soinside.com 2019 - 2024. All rights reserved.