Gensim word2vec模型是否与Mikolov的标准模型相同?

问题描述 投票:0回答:1

我正在执行一篇论文以比较我们的表现。在论文中,宣誓人说

300维预训练word2vec向量(Mikolov等,2013)

我想知道预训练的word2vec Gensim模型here是否与官方Google site(GoogleNews-vectors-negative300.bin.gz文件)上的预训练嵌入相同?

我的疑问源于Gensim文档中的这一行(在Word2Vec演示部分中)

我们将获取在Google新闻数据集的一部分上训练的Word2Vec模型,涵盖大约300万个单词和短语

这是否意味着尚未对gensim模型进行充分训练?与Mikolov的官方嵌入有区别吗?

python nlp gensim word2vec
1个回答
1
投票

用于读取字向量的演示代码正在下载完全相同的Google训练的GoogleNews-vectors-negative300向量集。 (没有人可以尝试重新训练该数据集,因为新闻报道的原始语料库用户,如果我正确记得的话,2013年左右的训练数据超过100B字是Google内部的。)

© www.soinside.com 2019 - 2024. All rights reserved.