doc2vec的调整大小参数

问题描述投票：0回答：1

我有一个120万个单句描述（5至50个单词）的数据集，我想将它们聚类为n个聚类。对于向量转换，我想使用doc2vec来获得120万等长向量。但是，我不确定size参数应该是什么。我读过，它应该在100-300之间，但是由于每个文档在这种情况下都应具有较少的标记（单词），因此矢量应该较小吗？

python

cluster-analysis

gensim

doc2vec

1个回答

0
投票

您的数据-超过一百万个文本，也许一千万个单词-肯定足够大，可以尝试使用100维的默认矢量大小。

具有较小数据集的人可能需要尝试使用较小的向量大小，但这与Doc2Vec（“段落向量”）效果很好的情况相去甚远。

但是您必须通过实验找出数据集和目标的实际最佳大小。（如果您的数据集由5个单词的文本主导，并且如果唯一单词的词汇量很小，也许您也需要尝试使用较小的单词。）

没有答案–您的文字/词汇和数据模式会影响最佳选择。只有拥有自己的特定于项目的可重复评估，您可以将其用于比较其他选择，才能指导您达到最佳状态。