Gensim word2vec中的sample= 0
是否表示在我的培训期间没有使用过下采样?文档说:
“有用范围是(0,1e-5)”
但是将阈值设置为0会使P(wi)等于1,这意味着不会遗漏任何单词,我是否理解正确?
我正在处理一个相对较小的7597个Facebook帖子(18945个单词)的数据集,并且使用sample= 0
进行嵌入的效果要好于建议范围内的任何其他内容。有什么特别的原因吗?字体大小?
对于Word2Vec
培训,这似乎是一个非常小的数据集。 (难道只有18945个单词或总共18945个单词,每个帖子几乎不超过2个单词?)
采样在较大的数据集上最有用-常见词的例子有[[这么多个,更多的训练样例并没有增加太多-但它们浪费了时间,并且与,其他不常用的字词。
是,sample=0
表示不进行下采样。