如何加载预先训练doc2vec模型,并用它的载体

问题描述 投票:0回答:2

有谁知道我应该使用哪种功能,如果我想在这个网站https://github.com/jhlau/doc2vec使用预先训练doc2vec模式?

我知道我们可以使用qazxsw点从预先训练word2vec模型加载单词矢量,但我们也有类似的功能gensim加载预训练doc2vec车型呢?

非常感谢。

python numpy gensim doc2vec
2个回答
2
投票

当一个像Keyvectors.load_word2vec_format()模型保存与gensim的本地Doc2Vec,它可以与本地save()方法重新加载:

load()

需要注意的是大内阵列可以被保存旁边的主文件名,在其他文件名有额外的扩展 - 而所有这些文件必须放在一起重新加载一个全功能模型。 (您仍需要指定只有主保存文件,辅助文件将在同一目录旁边,它预计的名字被发现。)

您可能必须尝试使用​​这些预先训练模式等问题。尤其是:

  • 在链接页面注意到,作者使用gensim,大约2年前进程衍生出的自定义变体;文件可能无法在标准gensim,或更高版本gensims加载
  • 它不是完全清楚使用什么参数来训练这些模型(虽然我想,如果你成功地加载它们,你可以看到他们作为模特属性),以及用于其目的多少元的优化,而这些用途是否会符合您自己的项目
  • 如果参数在回购文件,model = Doc2Vec.load(filename) 之一如图所示,有些是与最佳实践(一个[train_model.py][1]通常为min_count=1坏)或表观模型尺寸不一致(仅仅1.4GB模型无法保持300维向量所有的数百万份文件或字标记在2015年维基百科)

我会强烈建议训练自己的模型,你懂的语料库,最近的代码,并使用metaparameters自己的目的进行了优化。


0
投票

尝试这个:

Doc2Vec
© www.soinside.com 2019 - 2024. All rights reserved.