doc2vec的调整大小参数

问题描述 投票:0回答:1

我有一个120万个单句描述(5至50个单词)的数据集,我想将它们聚类为n个聚类。对于向量转换,我想使用doc2vec来获得120万等长向量。但是,我不确定size参数应该是什么。我读过,它应该在100-300之间,但是由于每个文档在这种情况下都应具有较少的标记(单词),因此矢量应该较小吗?

python cluster-analysis gensim doc2vec
1个回答
0
投票

您的数据-超过一百万个文本,也许一千万个单词-肯定足够大,可以尝试使用100维的默认矢量大小。

具有较小数据集的人可能需要尝试使用较小的向量大小,但这与Doc2Vec(“段落向量”)效果很好的情况相去甚远。

但是您必须通过实验找出数据集和目标的实际最佳大小。 (如果您的数据集由5个单词的文本主导,并且如果唯一单词的词汇量很小,也许您也需要尝试使用较小的单词。)

没有答案–您的文字/词汇和数据模式会影响最佳选择。只有拥有自己的特定于项目的可重复评估,您可以将其用于比较其他选择,才能指导您达到最佳状态。

© www.soinside.com 2019 - 2024. All rights reserved.