加快Elasticsearch more_like_this查询的速度>>

问题描述 投票:1回答:1

我有兴趣为给定的输入文档(类似于KNN)获取相似的文档。由于对尺寸不相似的文档(使用doc2vec)进行矢量化处理会导致不一致的文档向量,然后为用户输入计算向量(可能只是几个术语/句子比较了在何处训练了doc2vec模型的文档)每个文档将由100或1000个单词组成),由于缺乏功能,试图找到k最近邻居会产生不正确的结果。

因此,我继续使用more_like_this

查询,与kNN相比,它的工作类似,而与用户输入的大小无关,因为我只想分析文本字段。

但是当我在Elasticsearch中索引了数百万个文档时,我担心性能。该文档说,使用term_vector在索引时间存储术语向量可以加快分析速度。但是我不理解的是文档在这种情况下指的是哪种类型的术语向量。由于存在三种不同类型的术语向量:术语信息,术语统计信息和字段统计信息。术语统计和字段统计可计算相对于索引中其他文档的术语频率,当我在索引中引入新文档时,这些向量不会过时。因此,我认为more_like_this文档是指术语信息(这是一个特定文档中术语的信息,与其他文档无关)。

有人可以让我知道在索引时间仅计算术语信息向量是否足以加快more_like_this的速度吗?

我有兴趣为给定的输入文档(类似于KNN)获取相似的文档。由于矢量化大小不相似的文档(使用doc2vec)将导致文档不一致...

elasticsearch bigdata knn morelikethis
1个回答
0
投票

[term vectors不会过时,因为它们存储在每个文档中,所以将分别进行更新。

© www.soinside.com 2019 - 2024. All rights reserved.