Solr 9.1.0 中的错误:文档在 field="text" 中包含至少一个巨大的术语(其 UTF8 编码长于最大长度 32766)

问题描述 投票:0回答:0

如何修复此错误以在 Solr 9.1.0 中索引大文件?在网上找到的一些解决方案要么适用于旧版本,要么不适用于最新版本的 solr 9.1.0: 这个错误发生在这个字段 name = "textcontent"

架构.XML:

<field name="textcontent" type="text_general" indexed="true" stored="true"  />
<field name="catch_all" type="string" uninvertible="false" indexed="true" stored="false" multiValued="true"/> -->
<copyField source="textcontent" dest="catch_all"/>
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
        <analyzer type="index">
            <tokenizer name="standard"/>
            <filter name="stop" ignoreCase="true" words="stopwords.txt" />
            <filter name="lowercase"/>
        </analyzer>
        <analyzer type="query">
            <tokenizer name="standard"/>
            <filter name="stop" ignoreCase="true" words="stopwords.txt" />
            <filter name="synonymGraph" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
            <filter name="lowercase"/>
        </analyzer>
</fieldType>

完整错误信息:

将文档id 2222写入索引异常;可能的分析 错误:文档中至少包含一个巨大的术语 field="textcontent"(UTF8编码大于最大长度 32766), 所有这些都被跳过了。请更正分析仪不 产生这样的条款。第一个巨大术语的前缀是:'[37, 80, 68, 70, 45, 49, 46, 55, 13, 10, 37, -17, -65, -67, -17, -65, -67, -17, -65, -67, -17, -65, -67, 13, 10, 49, 32, 48, 32, 111]...',原始消息:字节长度最多为32766;得到 960117。 也许文档有一个索引字符串字段(solr.StrField),它 太大了 org.apache.solr.client.solrj.impl.Http2SolrClient.processErrorsAndResponse(Http2SolrClient.java:822)

solr solrj
© www.soinside.com 2019 - 2024. All rights reserved.