了解doc2vec gensim的参数model.infer_vector

问题描述 投票:0回答:1

enter image description here

这是否意味着我必须为输入的doc_words提供文档的标记化单词作为字符串列表,或者仅仅是文档作为字符串列表。请澄清

python gensim doc2vec
1个回答
0
投票

doc_words应该是作为字符串的各个单词标记的列表,等同于培训期间每个培训文档的words。也就是说:它应该已经像训练数据一样经过预处理和标记。

((当您在问题中问到““将文档中的经过标记的单词表示为字符串列表,或者只是将文档中的经过标记的单词表示为字符串列表”,据我所知,这两个选择是相同的:Python [ C0],其中每个项目都是一个字符串。)

[list的其他重要注意事项:

  • 推理总是从低幅度的随机向量开始,然后迭代地改善该向量

  • 模型不知道的单词将被忽略。在极端情况下,如果您提供一个带有所有未知单词的文本,则不会进行推理–但是由于上面的随机初始化,您仍然会得到一个向量[]]

  • 如果未指定infer_vector()值,它将重用模型中缓存的值(模型初始化或上一次epochs调用留下的值)。通常,您会希望它使用至少与训练中使用的纪元一样大的纪元–最通常是10-20,但有时更大。 (而且,较大的值可能对较短的文本特别有用。)

© www.soinside.com 2019 - 2024. All rights reserved.