Gensim word2vec下采样样本= 0

问题描述 投票:0回答:1

Gensim word2vec中的sample= 0是否表示在我的培训期间没有使用过下采样?文档说:

“有用范围是(0,1e-5)”

但是将阈值设置为0会使P(wi)等于1,这意味着不会遗漏任何单词,我是否理解正确?

我正在处理一个相对较小的7597个Facebook帖子(18945个单词)的数据集,并且使用sample= 0进行嵌入的效果要好于建议范围内的任何其他内容。有什么特别的原因吗?字体大小?

python math gensim word-embedding subsampling
1个回答
0
投票

对于Word2Vec培训,这似乎是一个非常小的数据集。 (难道只有18945个单词或总共18945个单词,每个帖子几乎不超过2个单词?)

采样在较大的数据集上最有用-常见词的例子有[[这么多个,更多的训练样例并没有增加太多-但它们浪费了时间,并且与,其他不常用的字词。

是,sample=0表示不进行下采样。
© www.soinside.com 2019 - 2024. All rights reserved.