解析器维基百科

问题描述 投票:13回答:7

我下载了一个维基百科的转储,我想维基格式转换成我的对象格式。是否有一个维基分析器可将对象转换为XML?

java mediawiki nlp nsxmlparser wikipedia
7个回答
7
投票

java-wikipedia-parser。我从来没有使用过,但根据文档:

分析器配备了一个HTML生成。但是,您可以控制正被传递自己实现be.devijver.wikipedia.Visitor接口生成的输出。


2
投票

我不知道究竟怎么看维基百科转储的XML格式。但是,如果文本的一部分是在维基百科的标记,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html。这是维基百科包的Apache Lucene的的类之一。我没有使用它,但Apache Lucene是一个相当成熟的项目,所以它是值得尝试的 - 在这种情况下的实验 - 包。


2
投票

所述JWPL解析器分析搭配MediaWiki标记的文本的结构和其表示为Java对象。这允许结构化访问的例如内容维基百科或维基词典。还有就是解析器没有独立发布,因为它是JWPL维基百科的API发布的一部分。但是,它可以完美地使用了未经JWPL访问维基百科。

http://code.google.com/p/jwpl/wiki/JWPLParser


1
投票

这可能帮助:a page with converters from mediawiki to other formats, including docbook。 DocBook是一个标准的XML格式的基础可能会满足您的需求(的内容链接到MediaWiki XML表示)


0
投票

您可以使用范围广泛的工具来分析你的内容。所有的脚本语言都具有模块。例如Perl语言有Text::Markup::Trac这是文本Trac的wiki语法分析器::标记。它生成一个HTML文件。


0
投票

Wiki Parser转换维基百科转储到解析的XML。可能正是你需要的。


-1
投票

ü可以尝试wikiprep这是一个Perl的维基百科解析器check it's page

它输出的许多文件有些是

1-维基解析成XML 2-猫票数文件,它包含维基百科类别层次结构

我试过它,它是,它需要高内存可用于处理超过4GB的RAM最有可能更多也ü可以从here这也提供网页上下载一个XML预先制备的版本只问题非常有用

© www.soinside.com 2019 - 2024. All rights reserved.