仅使用 HTTPs 请求,无需包装器,我可以在单个请求中获取页面图像及其 URL。
现在,我的工作流程由每个页面的两个请求组成(批处理为每约 50 页两个请求)。第一个获取页面信息及其图像:
prop=images|info&inprop=url
这为我提供了一个图像列表,我可以检查这些图像以查找哪些可能是我想要链接的图像。我还需要其他信息,特别是标准化标题、标题和页面 URL。从那里,我使用图像标题作为请求来获取其热链接 URL:
prop=imageinfo&iiprop=url
然后我终于可以获取图片URL了。
如果可能的话,我希望能够在第一个请求中获取图像 URL。我尝试将
imageinfo
添加到 prop
项目,但它没有给我任何新内容。我尝试使用 prop=pageimages
,但这每页只能显示一张图像,这可能不是我想要的图像。
我必须提出两个完整的请求才能获取此信息吗?我试图抓取的 Wiki 没有安装任何我知道的扩展(但我可以加入不和谐并尝试我的运气来说服操作员......也许)。
谢谢。
我已经设法使用generator=images、prop=imageinfo、iiprop=url参数来实现它。示例网址:https://en.wikipedia.org/w/api.php?action=query&generator=images&prop=imageinfo&iiprop=url&format=json&titles=heart