了解doc2vec gensim的参数model.infer_vector

问题描述投票：0回答：1

这是否意味着我必须为输入的doc_words提供文档的标记化单词作为字符串列表，或者仅仅是文档作为字符串列表。请澄清

python

gensim

doc2vec

1个回答

0
投票

doc_words应该是作为字符串的各个单词标记的列表，等同于培训期间每个培训文档的words。也就是说：它应该已经像训练数据一样经过预处理和标记。

（（当您在问题中问到““将文档中的经过标记的单词表示为字符串列表，或者只是将文档中的经过标记的单词表示为字符串列表”，据我所知，这两个选择是相同的：Python [ C0]，其中每个项目都是一个字符串。）

[list的其他重要注意事项：

推理总是从低幅度的随机向量开始，然后迭代地改善该向量
模型不知道的单词将被忽略。在极端情况下，如果您提供一个带有所有未知单词的文本，则不会进行推理–但是由于上面的随机初始化，您仍然会得到一个向量[]]
如果未指定infer_vector()值，它将重用模型中缓存的值（模型初始化或上一次epochs调用留下的值）。通常，您会希望它使用至少与训练中使用的纪元一样大的纪元–最通常是10-20，但有时更大。（而且，较大的值可能对较短的文本特别有用。）