如何根据Elasticsearch中的最大单词数对句子进行标记?

问题描述 投票:1回答:2

我有一个字符串,例如“这是美好的一天”我应该使用什么标记器或标记器和标记过滤器的什么组合来产生包含最多2个单词的术语的输出?理想情况下,输出应为:“这就是一个美好的一天,美好的一天,一天,这一天,”到目前为止,我已经尝试了所有内置的标记器,“ pattern”标记器似乎是我可以使用的标记器,但是我不知道如何为我的情况编写正则表达式模式。有帮助吗?

elasticsearch filter tokenize
2个回答
1
投票

似乎您正在寻找shingle token filter,它确实满足您的要求。


0
投票

正如@Oleksii所说的。在您的情况下,max_shingle_size = 2(默认值),min_shingle_size = 1。

© www.soinside.com 2019 - 2024. All rights reserved.