我有一个120万个单句描述(5至50个单词)的数据集,我想将它们聚类为n个聚类。对于向量转换,我想使用doc2vec来获得120万等长向量。但是,我不确定size参数应该是什么。我读过,它应该在100-300之间,但是由于每个文档在这种情况下都应具有较少的标记(单词),因此矢量应该较小吗?
您的数据-超过一百万个文本,也许一千万个单词-肯定足够大,可以尝试使用100维的默认矢量大小。
具有较小数据集的人可能需要尝试使用较小的向量大小,但这与Doc2Vec
(“段落向量”)效果很好的情况相去甚远。
但是您必须通过实验找出数据集和目标的实际最佳大小。 (如果您的数据集由5个单词的文本主导,并且如果唯一单词的词汇量很小,也许您也需要尝试使用较小的单词。)
没有答案–您的文字/词汇和数据模式会影响最佳选择。只有拥有自己的特定于项目的可重复评估,您可以将其用于比较其他选择,才能指导您达到最佳状态。