我正在通过python测试Apache Tika REST Api来解析HTML文件。一切都有效,除了一件事。 <noscript>
标签的内部也被解析为文本,我在我的文本中有一些CSS样式内容,这是不可取的。此外,还提取了<div style="display:none">
的身体。有没有办法在Tika rest API中将一些html标签列入黑名单?
我没有立即解决方案,但请求似乎合理,所以请在我们的JIRA上打开一个问题让团队讨论:https://issues.apache.org/jira/projects/TIKA/summary