Apache Tika排除了一些html标签

问题描述 投票:6回答:1

我正在通过python测试Apache Tika REST Api来解​​析HTML文件。一切都有效,除了一件事。 <noscript>标签的内部也被解析为文本,我在我的文本中有一些CSS样式内容,这是不可取的。此外,还提取了<div style="display:none">的身体。有没有办法在Tika rest API中将一些html标签列入黑名单?

python apache-tika
1个回答
2
投票

我没有立即解决方案,但请求似乎合理,所以请在我们的JIRA上打开一个问题让团队讨论:https://issues.apache.org/jira/projects/TIKA/summary

© www.soinside.com 2019 - 2024. All rights reserved.