用于文本分类的数据增强

关于文本分类的当前最新数据增强技术是什么？

我在网上做了一些关于如何通过进行数据转换来扩展训练集的研究，就像我们在图像分类上所做的那样。我找到了一些有趣的想法，例如：

同义词替换：从句子中随机选择不会停止单词的n个单词。用随机选择的一个同义词替换每个单词。
随机插入：在句子中找到一个随机词的随机同义词，它不是一个停用词。将该同义词插入句子中的随机位置。这样做了n次。
随机交换：随机选择句子中的两个单词并交换其位置。这样做了n次。
随机删除：以概率p随机删除句子中的每个单词。

但是没有使用预训练的单词矢量表示模型，如word2vec。有原因吗？

使用word2vec进行数据扩充可能有助于模型根据外部信息获取更多数据。例如，在专门针对外部在线评论训练的预训练的向量空间中，通过其更接近的令牌在句子中随机替换有毒评论标记。

这是一个好方法还是我错过了这项技术的一些重要缺点？

1
投票

您使用word2vec嵌入的想法通常会有所帮助。但是，这是一个无上下文嵌入。更进一步，截至今天（2019-02）的最新技术（SOTA）是使用在大型文本语料库中训练的语言模型，并使用您自己的训练数据对您自己的分类器进行微调。

两个SOTA模型是：

GPT-2 https://github.com/openai/gpt-2
BERT https://github.com/google-research/bert

您提到的这些数据增强方法也可能有所帮助（取决于您的域和您拥有的培训示例的数量）。其中一些实际上用于语言模型训练（例如，在BERT中，有一项任务是在训练前随机屏蔽句子中的单词）。如果我是你，我会首先采用预先训练的模型，并使用您当前的训练数据微调您自己的分类器。将其作为基线，您可以尝试每种您喜欢的数据增强方法，看看它们是否真的有用。

问题描述投票：-1回答：1

1个回答

最新问题

用于文本分类的数据增强

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1