有谁知道我应该使用哪种功能,如果我想在这个网站https://github.com/jhlau/doc2vec使用预先训练doc2vec模式?
我知道我们可以使用qazxsw点从预先训练word2vec模型加载单词矢量,但我们也有类似的功能gensim加载预训练doc2vec车型呢?
非常感谢。
当一个像Keyvectors.load_word2vec_format()
模型保存与gensim的本地Doc2Vec
,它可以与本地save()
方法重新加载:
load()
需要注意的是大内阵列可以被保存旁边的主文件名,在其他文件名有额外的扩展 - 而所有这些文件必须放在一起重新加载一个全功能模型。 (您仍需要指定只有主保存文件,辅助文件将在同一目录旁边,它预计的名字被发现。)
您可能必须尝试使用这些预先训练模式等问题。尤其是:
model = Doc2Vec.load(filename)
之一如图所示,有些是与最佳实践(一个[train_model.py][1]
通常为min_count=1
坏)或表观模型尺寸不一致(仅仅1.4GB模型无法保持300维向量所有的数百万份文件或字标记在2015年维基百科)我会强烈建议训练自己的模型,你懂的语料库,最近的代码,并使用metaparameters自己的目的进行了优化。
尝试这个:
Doc2Vec