像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

问题描述 投票:0回答:1

我正在一个购物网站上工作,要求从产品名称中生成有意义的字符串标记,以实现自动完成的功能。

如果产品名称是: "Red Beryl条纹棉质衬衫"

那么意思是说,完整的令牌可以是 "红衫"。 "棉质衬衫"、"条纹棉质衬衫 "和 "贝丽尔衬衫"。

我曾尝试通过 "瓦片 "过滤器 elasticsearch的,但由于产品名称中的 "Red "和 "Shirt "没有延续,所以无法生成 "Red Shirt "token。

任何帮助将是巨大的。

先谢谢你。

string elasticsearch text nlp tokenize
1个回答
0
投票

你所描述的是 slop 在...中 match_phrase 疑问. 虽然对于那个例子查询,你需要一个3的斜率,这可能是昂贵的。

一般来说,我认为你会需要一个 布尔型查询 与should子句上。

  • 在你的搜索输入中的每个标记。
  • 在完整的搜索输入上进行短语搜索(可能会有一个斜线)。

对于自动完成 search_as_you_type 会像Nate提到的那样最有意义,但对于这个例子,它不会自动完成 "红衫"。

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.