Apache Tika排除了一些html标签

问题描述投票：6回答：1

我正在通过python测试Apache Tika REST Api来解析HTML文件。一切都有效，除了一件事。 <noscript>标签的内部也被解析为文本，我在我的文本中有一些CSS样式内容，这是不可取的。此外，还提取了<div style="display:none">的身体。有没有办法在Tika rest API中将一些html标签列入黑名单？

python apache-tika

1个回答

2
投票

我没有立即解决方案，但请求似乎合理，所以请在我们的JIRA上打开一个问题让团队讨论：https://issues.apache.org/jira/projects/TIKA/summary

最新问题

合并在其他表中作为外键引用的表行
`count_matches` 具有多个选项
TypeError：this.getOptions不是一个函数（不是vue）-故事书
Pandas/Python - 每 X 行将一列转换为新列
使用 -O2 编译时，Eigen::Vector2f 未正确初始化
字符串选择收集器无法正常工作 Discord JS v14
仅使用 CSS 在 pre 上创建行号
Python：继续请求输入，直到给出有效响应
EventAggregator 替代品
eslint 规则禁止按原样检查数字
使用 MultiBodyPlant 添加的 Drake 几何体太闪亮了
没有这样的服务：laravel.test
Azure Function 启动的配置未被调用
如何在NestJS中设置仅HTTP cookie
针对特定服务的 Google App Engine 到 python3 的迁移
Swift：使用字符串目录中的参数获取本地化字符串
如何在 xstate 5 中组合 2 个状态机
python注释函数将参数传递给另一个函数
oracle sql 查询将如何拆分列中的值？
将可选 JSON 映射到 RealmSwift @Persisted 时出错

Apache Tika排除了一些html标签

问题描述 投票：6回答：1

1个回答

最新问题

问题描述投票：6回答：1