如何加载预先训练doc2vec模型，并用它的载体

Question

有谁知道我应该使用哪种功能，如果我想在这个网站https://github.com/jhlau/doc2vec使用预先训练doc2vec模式？

我知道我们可以使用qazxsw点从预先训练word2vec模型加载单词矢量，但我们也有类似的功能gensim加载预训练doc2vec车型呢？

非常感谢。

Answer 1

当一个像Keyvectors.load_word2vec_format()模型保存与gensim的本地Doc2Vec，它可以与本地save()方法重新加载：

load()

需要注意的是大内阵列可以被保存旁边的主文件名，在其他文件名有额外的扩展 - 而所有这些文件必须放在一起重新加载一个全功能模型。（您仍需要指定只有主保存文件，辅助文件将在同一目录旁边，它预计的名字被发现。）

您可能必须尝试使用这些预先训练模式等问题。尤其是：

在链接页面注意到，作者使用gensim，大约2年前进程衍生出的自定义变体;文件可能无法在标准gensim，或更高版本gensims加载
它不是完全清楚使用什么参数来训练这些模型（虽然我想，如果你成功地加载它们，你可以看到他们作为模特属性），以及用于其目的多少元的优化，而这些用途是否会符合您自己的项目
如果参数在回购文件，model = Doc2Vec.load(filename)之一如图所示，有些是与最佳实践（一个[train_model.py][1]通常为min_count=1坏）或表观模型尺寸不一致（仅仅1.4GB模型无法保持300维向量所有的数百万份文件或字标记在2015年维基百科）

我会强烈建议训练自己的模型，你懂的语料库，最近的代码，并使用metaparameters自己的目的进行了优化。

Answer 2

0
投票

尝试这个：

Doc2Vec