关于文本分类的当前最新数据增强技术是什么?
我在网上做了一些关于如何通过进行数据转换来扩展训练集的研究,就像我们在图像分类上所做的那样。我找到了一些有趣的想法,例如:
但是没有使用预训练的单词矢量表示模型,如word2vec。有原因吗?
使用word2vec进行数据扩充可能有助于模型根据外部信息获取更多数据。例如,在专门针对外部在线评论训练的预训练的向量空间中,通过其更接近的令牌在句子中随机替换有毒评论标记。
这是一个好方法还是我错过了这项技术的一些重要缺点?
您使用word2vec嵌入的想法通常会有所帮助。但是,这是一个无上下文嵌入。更进一步,截至今天(2019-02)的最新技术(SOTA)是使用在大型文本语料库中训练的语言模型,并使用您自己的训练数据对您自己的分类器进行微调。
两个SOTA模型是:
您提到的这些数据增强方法也可能有所帮助(取决于您的域和您拥有的培训示例的数量)。其中一些实际上用于语言模型训练(例如,在BERT中,有一项任务是在训练前随机屏蔽句子中的单词)。如果我是你,我会首先采用预先训练的模型,并使用您当前的训练数据微调您自己的分类器。将其作为基线,您可以尝试每种您喜欢的数据增强方法,看看它们是否真的有用。