如何同时支持标记化和未标记化的搜索

Question

我尝试使hibernate搜索支持标记化和未标记化搜索（请原谅我，如果我在这里使用错误的术语）。一个例子如下。

我有一个以下类型的实体列表。

@Entity
@Indexed
@NormalizerDef(name = "lowercase",
    filters = {
        @TokenFilterDef(factory = ASCIIFoldingFilterFactory.class),
        @TokenFilterDef(factory = LowerCaseFilterFactory.class)
    }
)
public class Deal {
    //other fields omitted for brevity purposes

    @Field(store = Store.YES)
    @Field(name = "name_Sort", store = Store.YES, normalizer= @Normalizer(definition="lowercase"))
    @SortableField(forField = "name_Sort")
    @Column(name = "NAME")
    private String name = "New Deal";

    //Getters/Setters omitted here
}

我还使用关键字方法来构建如下所示的查询构建器。 getSearchableFields方法返回可搜索字段的列表。在此示例中，“name”将位于此返回的列表中，因为Deal中的字段名称是可搜索的。

    protected Query inputFilterBuilder() {
        return queryBuilder.keyword()
            .wildcard().onFields(getSearchableFields())
            .matching("*" + searchRequest.getQuery().toLowerCase() + "*").createQuery();
    }

当我只使用整个单词进行搜索时，此设置工作正常。例如，如果我有两个Deal实体，一个名字是“Practical Concrete Hat”，另一个名字是“Practical Cotton Cheese”。当通过“实用”搜索时，我得到了这两个实体。但是当通过“Practical Co”搜索时，我得到了0个实体。原因是因为字段名称被标记化并且“Practical Co”不是关键字。

我的问题是如何同时支持两个搜索，以便在通过“Practical”或“Practical Co”搜索时返回这两个实体。

我阅读了官方的hibernate搜索文档，我的预感是我应该添加一个用于未加入搜索的字段。也许构建查询构建器的方式也需要更新？

更新

使用SimpleQueryString不起作用的解决方案。

根据提供的答案，我编写了以下查询构建器逻辑。但是，它不起作用。

    protected Query inputFilterBuilder() {
        String[] searchableFields = getSearchableFields();
        if(searchableFields.length == 0) {
            return queryBuilder.simpleQueryString().onField("").matching("").createQuery();
        }
        SimpleQueryStringMatchingContext simpleQueryStringMatchingContext = queryBuilder.simpleQueryString().onField(searchableFields[0]);
        for(int i = 1; i < searchableFields.length; i++) {
            simpleQueryStringMatchingContext = simpleQueryStringMatchingContext.andField(searchableFields[i]);
        }
        return simpleQueryStringMatchingContext
            .matching("\"" + searchRequest.getQuery() + "\"").createQuery();
    }

使用单独的分析器进行查询和短语查询的工作解

我从官方文档中发现，我们可以使用短语查询来搜索多个单词。所以我编写了以下查询构建器方法。

    protected Query inputFilterBuilder() {
        String[] searchableFields = getSearchableFields();
        if(searchableFields.length == 0) {
            return queryBuilder.phrase().onField("").sentence("").createQuery();
        }
        PhraseMatchingContext phraseMatchingContext = queryBuilder.phrase().onField(searchableFields[0]);
        for(int i = 1; i < searchableFields.length; i++) {
            phraseMatchingContext = phraseMatchingContext.andField(searchableFields[i]);
        }
        return phraseMatchingContext.sentence(searchRequest.getQuery()).createQuery();
    }

这对于使用多个单词并且中间有空格的搜索不起作用。然后我按照建议添加了用于索引和查询的单独分析器，突然之间，它起作用了。

分析仪定义：

@AnalyzerDef(name = "edgeNgram", tokenizer = @TokenizerDef(factory = WhitespaceTokenizerFactory.class),
    filters = {
        @TokenFilterDef(factory = ASCIIFoldingFilterFactory.class),
        @TokenFilterDef(factory = LowerCaseFilterFactory.class),
        @TokenFilterDef(factory = EdgeNGramFilterFactory.class,
                        params = {
                            @Parameter(name = "minGramSize", value = "1"),
                            @Parameter(name = "maxGramSize", value = "10")
                        })
    })
@AnalyzerDef(name = "edgeNGram_query", tokenizer = @TokenizerDef(factory = WhitespaceTokenizerFactory.class),
    filters = {
        @TokenFilterDef(factory = ASCIIFoldingFilterFactory.class),
        @TokenFilterDef(factory = LowerCaseFilterFactory.class)
    })

交易名称字段的注释：

    @Field(store = Store.YES, analyzer = @Analyzer(definition = "edgeNgram"))
    @Field(name = "edgeNGram_query", store = Store.YES, analyzer = @Analyzer(definition = "edgeNGram_query"))
    @Field(name = "name_Sort", store = Store.YES, normalizer= @Normalizer(definition="lowercase"))
    @SortableField(forField = "name_Sort")
    @Column(name = "NAME")
    private String name = "New Deal";

覆盖名称字段的分析器以使用查询分析器的代码

            String[] searchableFields = getSearchableFields();
            if(searchableFields.length > 0) {
                EntityContext entityContext = fullTextEntityManager.getSearchFactory()
                    .buildQueryBuilder().forEntity(this.getClass().getAnnotation(SearchType.class).clazz()).overridesForField(searchableFields[0], "edgeNGram_query");

                for(int i = 1; i < searchableFields.length; i++) {
                    entityContext.overridesForField(searchableFields[i], "edgeNGram_query");
                }
                queryBuilder = entityContext.get();
            }

跟进问题为什么上述调整确实有效？

Answer 1

这里的问题是通配符查询。通配符查询不支持标记化：它们仅适用于单个标记。实际上，它们甚至不支持规范化，这就是为什么你必须自己小写用户输入的原因......

解决方案不是混合标记化和未标记化的搜索（这是可能的，但不会真正解决您的问题）。解决方案是完全忘记通配符查询并在分析器中使用edgengram过滤器。

有关详细说明，请参阅this answer。

如果使用ELasticsearch集成，则必须依靠hack来使“仅查询”分析器正常工作。见here。

如何同时支持标记化和未标记化的搜索

问题描述投票：0回答：1

1个回答

最新问题

如何同时支持标记化和未标记化的搜索

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1