训练doc2Vec模型实际需要多少数据?

问题描述 投票:2回答:1

我一直在使用gensim的库来训练doc2Vec模型。在尝试使用不同的数据集进行培训后,我对doc2Vec模型的理想训练数据大小感到困惑吗?

我将在这里分享我的理解。请随时纠正我/建议更改 -

  1. 关于通用数据集的培训 - 如果我想使用在通用数据集上训练的模型,在特定用例中,我需要训练大量数据。
  2. 关于上下文相关数据集的培训 - 如果我想在具有与我的用例相同的上下文的数据上训练它,通常训练数据大小可以具有更小的尺寸。

但在这两种情况下,用于培训的单词数量是多少?

总的来说,当误差图达到“肘点”时,我们停止训练ML模型,进一步的训练对减少误差没有显着帮助。是否正在朝这个方向进行任何研究 - doc2Vec模型的训练在到达肘部后停止了?

neural-network gensim doc2vec
1个回答
4
投票

没有绝对的指导方针 - 它在很大程度上取决于您的数据集和具体的应用目标。对已发布的Doc2Vec工作中使用的数据集大小进行了一些讨论:

what is the minimum dataset size needed for good performance with doc2vec?

如果您的通用语料库与您的域名词汇表不匹配 - 包括相同的词汇,或者使用相同意义上的词语 - 这是一个无法用“大量数据”修复的问题。更多数据可以将单词上下文和表示更多地“拉”到泛型而非特定于域的值。

您确实需要拥有自己的定量自动评估/评分方法,以便衡量具体数据和目标的结果是否充足,或者通过更多数据或其他培训调整来改进。

有时,参数调整可以帮助最大限度地利用瘦数据 - 特别是,更多的训练迭代或更小的模型(更少的向量维度)可以稍微抵消一些小型语料库的问题。但是Word2Vec / Doc2Vec确实受益于许多微妙变化的,特定领域的数据 - 这是在训练期间所有文本示例之间的持续的,增量的拉锯战,这有助于最终的表示形成一个有用的星座 - 具有所需的相对距离/相对方向特性的布置。

© www.soinside.com 2019 - 2024. All rights reserved.