解析维基百科页面内容

问题描述 投票:1回答:3

我正在寻找一个解析html页面的库,特别是维基百科文章,例如:http://en.wikipedia.org/wiki/Railgun,我想提取文章的文字和图像(全尺寸或原始图像而不是拇指)。那里有一个HTML解析器吗?我宁愿不使用维基媒体api,因为我似乎无法弄清楚如何用它们提取文章的文本和全尺寸图像。谢谢,抱歉我的英语。

编辑:我忘了说结尾的结果应该是有效的HTML

编辑:我得到了json字符串:https://en.wikipedia.org/w/api.php?action=parse&pageid=218930&prop=text&format=json所以现在我需要解析json。我知道在javascript中我可以这样做:var pageHTML = JSON.parse(“the json string”)。parse.text [“*”];既然我知道了一些html / javascript和python,我怎样才能发出那个http请求并解析python 3中的json?

html json parsing python-3.x wikipedia-api
3个回答
2
投票

我认为你应该能够通过web api获得所有东西,

https://www.mediawiki.org/wiki/API:Main_page https://www.mediawiki.org/wiki/API:Parsing_wikitext

或者你可以下载整个维基百科

https://meta.wikimedia.org/wiki/Research:Data


2
投票

您也可以从api获取html,查看https://www.mediawiki.org/wiki/Extension:TextExtracts/pt上的信息,就像这个例子:https://en.wikipedia.org/w/api.php?action=query&prop=extracts&exchars=175&titles=hello%20world

根据您需要的页数,如果页面量很大,则应考虑使用公共转储。


0
投票

我制作了一个名为wikipedia-to-json(用javascript编写)的Node.js module,用于解析维基百科文章中的HTML,并为您提供结构化的JSON对象,这些对象按顺序描述了文章的布局。 (标题,段落,图像,列表,子标题......)

如果您只想快速提取文本和部分并了解事物的样子,那么这可能很有用。

© www.soinside.com 2019 - 2024. All rights reserved.