解析维基百科页面内容

我正在寻找一个解析html页面的库，特别是维基百科文章，例如：http://en.wikipedia.org/wiki/Railgun，我想提取文章的文字和图像（全尺寸或原始图像而不是拇指）。那里有一个HTML解析器吗？我宁愿不使用维基媒体api，因为我似乎无法弄清楚如何用它们提取文章的文本和全尺寸图像。谢谢，抱歉我的英语。

编辑：我忘了说结尾的结果应该是有效的HTML

编辑：我得到了json字符串：https://en.wikipedia.org/w/api.php?action=parse&pageid=218930&prop=text&format=json所以现在我需要解析json。我知道在javascript中我可以这样做：var pageHTML = JSON.parse（“the json string”）。parse.text [“*”];既然我知道了一些html / javascript和python，我怎样才能发出那个http请求并解析python 3中的json？

2
投票

我认为你应该能够通过web api获得所有东西，

https://www.mediawiki.org/wiki/API:Main_page https://www.mediawiki.org/wiki/API:Parsing_wikitext

或者你可以下载整个维基百科

https://meta.wikimedia.org/wiki/Research:Data

2
投票

您也可以从api获取html，查看https://www.mediawiki.org/wiki/Extension:TextExtracts/pt上的信息，就像这个例子：https://en.wikipedia.org/w/api.php?action=query&prop=extracts&exchars=175&titles=hello%20world。

根据您需要的页数，如果页面量很大，则应考虑使用公共转储。

0
投票

我制作了一个名为wikipedia-to-json（用javascript编写）的Node.js module，用于解析维基百科文章中的HTML，并为您提供结构化的JSON对象，这些对象按顺序描述了文章的布局。（标题，段落，图像，列表，子标题......）

如果您只想快速提取文本和部分并了解事物的样子，那么这可能很有用。

问题描述投票：1回答：3

3个回答

最新问题

解析维基百科页面内容

问题描述 投票：1回答：3

3个回答

最新问题

问题描述投票：1回答：3