我正在执行一篇论文以比较我们的表现。在论文中,宣誓人说
300维预训练word2vec向量(Mikolov等,2013)
我想知道预训练的word2vec Gensim模型here是否与官方Google site(GoogleNews-vectors-negative300.bin.gz文件)上的预训练嵌入相同?
我的疑问源于Gensim文档中的这一行(在Word2Vec演示部分中)
我们将获取在Google新闻数据集的一部分上训练的Word2Vec模型,涵盖大约300万个单词和短语
这是否意味着尚未对gensim模型进行充分训练?与Mikolov的官方嵌入有区别吗?
用于读取字向量的演示代码正在下载完全相同的Google训练的GoogleNews-vectors-negative300
向量集。 (没有人可以尝试重新训练该数据集,因为新闻报道的原始语料库用户,如果我正确记得的话,2013年左右的训练数据超过100B字是Google内部的。)