我使用维基百科API检索给定类别的页面列表。然而,这些页面是由他们的page_id表示的。我如何使用维基百科API通过page_id获取一个页面的实际文本内容?
虽说没有直接的方法可以从pageid中获取维基页面的文本,但有几个变通的方法。
获取URL,然后进行解析通过调用API来获取wikipage的URL,如 http://en.wikipedia.org/w/api.php?action=query&prop=info&pageids=<your_pageid_here>&inprop=url
然后进入URL并解析文本
获取页面名称,然后获取内容
维基百科API允许提取文本,如果pagename是已知的。但是,如果你现在只知道pageid,你将需要通过使用API调用将pageid转换为pagename,如
http://en.wikipedia.org/w/api.php?action=query&pageids=<your_pageid_here>&format=json
这将给你pagename,然后你可以再调用API来获取内容。
http://en.wikipedia.org/w/api.php?action=parse&prop=text&page=<your_pagename_here>&format=json