我使用TIKA索引文档。然后我想从段落开始到包含关键词的段落结尾。我尝试使用HighlightFragsize,但它不起作用。例如:有一个如下文档:
上面有两段。如果我搜索“我的父母”,我希望我能得到整段“当我很小的时候,我的父母.......很多美丽的风景”。不仅是本段的一部分。我使用HighlightFragsize来限制句子,但结果不是我想要的。请帮忙。提前致谢
你还没有提供很多信息,但我假设你正在使用荧光笔,所以这里有一些你应该检查的东西:
maxAnalyzedChars
的设置51200
。这意味着突出显示器不会从匹配文档中突出显示的字段处理超过51200个字符以查找突出显示。如果是这种情况,请增加此值,直到获得所需结果。突出显示极大的字段可能会导致显着的性能损失,在选择配置之前应注意这一点。有关详细信息,请参阅this。
我不认为有任何名为HighlightFragsize的参数,但有一个名为hl.fragsize
,可以在设置为零时执行您想要的操作。
尝试以下查询,看看它是否适合您:q=my+parents&hl=true&hl.fl=my_field&hl.fragsize=0
此外,在任何情况下,您都应该注意我在上面发布的前2个点。
更新2我认为没有直接的方法来做你想要的。您可以将字段拆分为多值字段,每个段落都存储为单独的值。
然后你可以使用hl.preserveMulti
,hl.maxMultiValuedToExamine
和hl.maxMultiValuedToMatch
来实现你所需要的。