从亚马逊云搜索sdf中删除无效字符

Question

[尝试将从pdf文件提取的数据发布到亚马逊云搜索域进行索引时，由于数据中的无效字符，因此索引编制失败。

在发布到搜索端点之前，如何删除这些无效的字符？

我尝试转义并替换字符，但没有用。

Answer 1

我已使用可用的解决方案here解决了问题>

RE_XML_ILLEGAL = u'([\u0000-\u0008\u000b-\u000c\u000e-\u001f\ufffe-\uffff])' + \
                 u'|' + \
                 u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])' % \
                  (unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),
                   unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),
                   unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff))
x = u"<foo>text\u001a</foo>"
x = re.sub(RE_XML_ILLEGAL, "?", x)

Answer 2

在将文档上传到CloudSearch时（使用aws sdk / json）时出现这样的错误：

从亚马逊云搜索sdf中删除无效字符

问题描述投票：1回答：2

2个回答

最新问题

从亚马逊云搜索sdf中删除无效字符

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2