加快Elasticsearch more_like_this查询的速度>>

问题描述投票：1回答：1

我有兴趣为给定的输入文档（类似于KNN）获取相似的文档。由于对尺寸不相似的文档（使用doc2vec）进行矢量化处理会导致不一致的文档向量，然后为用户输入计算向量（可能只是几个术语/句子比较了在何处训练了doc2vec模型的文档）每个文档将由100或1000个单词组成），由于缺乏功能，试图找到k最近邻居会产生不正确的结果。

因此，我继续使用more_like_this

查询，与kNN相比，它的工作类似，而与用户输入的大小无关，因为我只想分析文本字段。

但是当我在Elasticsearch中索引了数百万个文档时，我担心性能。该文档说，使用term_vector在索引时间存储术语向量可以加快分析速度。但是我不理解的是文档在这种情况下指的是哪种类型的术语向量。由于存在三种不同类型的术语向量：术语信息，术语统计信息和字段统计信息。术语统计和字段统计可计算相对于索引中其他文档的术语频率，当我在索引中引入新文档时，这些向量不会过时。因此，我认为more_like_this文档是指术语信息（这是一个特定文档中术语的信息，与其他文档无关）。

有人可以让我知道在索引时间仅计算术语信息向量是否足以加快more_like_this的速度吗？

我有兴趣为给定的输入文档（类似于KNN）获取相似的文档。由于矢量化大小不相似的文档（使用doc2vec）将导致文档不一致...

elasticsearch

bigdata

knn

morelikethis

1个回答

0
投票

[term vectors不会过时，因为它们存储在每个文档中，所以将分别进行更新。

加快Elasticsearch more_like_this查询的速度>>

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1