训练doc2Vec模型实际需要多少数据？

我一直在使用gensim的库来训练doc2Vec模型。在尝试使用不同的数据集进行培训后，我对doc2Vec模型的理想训练数据大小感到困惑吗？

我将在这里分享我的理解。请随时纠正我/建议更改 -

关于通用数据集的培训 - 如果我想使用在通用数据集上训练的模型，在特定用例中，我需要训练大量数据。
关于上下文相关数据集的培训 - 如果我想在具有与我的用例相同的上下文的数据上训练它，通常训练数据大小可以具有更小的尺寸。

但在这两种情况下，用于培训的单词数量是多少？

总的来说，当误差图达到“肘点”时，我们停止训练ML模型，进一步的训练对减少误差没有显着帮助。是否正在朝这个方向进行任何研究 - doc2Vec模型的训练在到达肘部后停止了？

4
投票

没有绝对的指导方针 - 它在很大程度上取决于您的数据集和具体的应用目标。对已发布的Doc2Vec工作中使用的数据集大小进行了一些讨论：

what is the minimum dataset size needed for good performance with doc2vec?

如果您的通用语料库与您的域名词汇表不匹配 - 包括相同的词汇，或者使用相同意义上的词语 - 这是一个无法用“大量数据”修复的问题。更多数据可以将单词上下文和表示更多地“拉”到泛型而非特定于域的值。

您确实需要拥有自己的定量自动评估/评分方法，以便衡量具体数据和目标的结果是否充足，或者通过更多数据或其他培训调整来改进。

有时，参数调整可以帮助最大限度地利用瘦数据 - 特别是，更多的训练迭代或更小的模型（更少的向量维度）可以稍微抵消一些小型语料库的问题。但是Word2Vec / Doc2Vec确实受益于许多微妙变化的，特定领域的数据 - 这是在训练期间所有文本示例之间的持续的，增量的拉锯战，这有助于最终的表示形成一个有用的星座 - 具有所需的相对距离/相对方向特性的布置。

问题描述投票：2回答：1

1个回答

最新问题

训练doc2Vec模型实际需要多少数据？

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1