使用Apache Any23从HTML中提取JSON-LD。

问题描述 投票:8回答:1

我的目的是从网页中提取结构化数据。我使用的代码是在 这个问题. 我在用 Apache Any23 CLI 库的依赖性。

通过使用它,我能够从网页中提取HTML5微数据(Schema.org)。但是,我不能提取网页中的JSON-LD格式。当我检查 Apache Any23'的文档,其中支持JSON-LD格式。没有找到更多关于它的文档。

java extract json-ld any23
1个回答
0
投票

通常情况下,如果你创建一个新的Any23提取器与 new Any23() 它应该可以正常工作。如果你使用其他构造函数,比如 Any23(String... extractorNames) 你必须确保为嵌入式JSON LD添加了正确的,那就是 "html-embedded-jsonld".

现在,如果在提取过程中出现任何错误,Any23都会默默地丢弃它们。(这是伟大的,我知道!)

我发现它可以设置一个断点,在 org.apache.any23.extractorExtractionResultImpl 办法 notifyIssue. 有了这些,你也许能找到更详细的问题原因。

© www.soinside.com 2019 - 2024. All rights reserved.