我正在与一个稳步增长的语料库一起工作。我使用在Python中实现的Doc2Vec训练我的文档向量。
是否可以更新文档向量?
我想将文档向量用于文档建议。
单个向量可以被更新,但是gensim
Doc2Vec
模型类不支持向其自身添加更多文档向量。
但是,它可以通过.infer_vector(words)
方法返回与现有向量兼容(可比)的新文本的各个向量。您可以将这些向量保留在自己的数据结构中以进行查找。
[当收到足够多的新文档以至于您认为您的核心模型会更好时,如果对所有文档进行了训练,则可以使用所有可用数据重新训练模型,并将其用作.infer_vector()
的新基础。 (请注意,经过重新训练的模型中的向量通常与先前模型中的向量不兼容/不可比:每个训练会话都会引导不同的自洽坐标空间。)