如何在不注册Bot帐户的情况下从Wikimedia Commons有问题地下载图像?

问题描述 投票:15回答:5

似乎获得Bot帐户批准的唯一方法是,如果该帐户添加或编辑了Wikimedia上已经存在的信息。如果尝试在没有Bot帐户的情况下下载任何图像,则使用其中的一些api库会收到错误消息而不是图像。似乎他们阻止了任何不来自浏览器的人?其他人对此有任何经验吗?我在这里想念什么吗?

image wikipedia-api mediawiki-api pywikibot wikimedia-commons
5个回答
5
投票

尝试确切说明您想做什么?您尝试了什么?您收到什么错误消息?您不太清楚...

您尝试过哪些图书馆?如果您不积极,则下载WM内容没有任何限制。我从未听说过任何限制。为避免愚蠢的垃圾邮件,某些用户代理被禁止编辑,但实际上,我从未听说过下载限制。

[如果您尝试刮取大量图像,并通过Commons下载它们,那么您做错了(tm)。如果您要获取几张图像(从10到200),则应该能够用几行代码编写一个不错的工具,前提是您遵守节流的要求:当API告诉您放慢速度时,如果您不这样做,系统管理员可能会将您赶出场。

如果您需要完整的图像转储,(我们正在谈论几个TB),请尝试询问wikitech-l。图片较少时,我们可以使用种子,现在种子更复杂了,但仍然doable

关于漫游器帐户。您对系统有多深的了解?您需要一个机器人帐户来进行快速,无监督的编辑。 Bot特权还会打开一些功能,例如增加查询大小。但是请记住:机器人帐户?这只是一个增加的用户帐户。您是否尝试过使用经典帐户运行任何内容?


18
投票

我自己做了这个,我觉得我应该分享:

http://www.mediawiki.org/wiki/API:Allimages

此API文档确实声明您可以查询图像:

http://en.wikipedia.org/w/api.php?action=query&list=allimages&aiprop=url&format=xml&ailimit=10&aifrom=Albert

使用aiprop = url,您将获得所要查找图像的URL。


1
投票

请注意,过去使用LWP存在一个问题:这不是概念上的,而是实用的,代理可以在已经拉伸的服务器上创建大量负载。代理用户可以遵循一些明智的策略来减少负载-请在www.mediawiki.org上询问,或en:Village pump-Technical


1
投票

如果您需要10到100万个文件,则使用Magnus Manske的工具来递归类别是一个不错的选择。 http://tools.wmflabs.org/magnustools/can_i_haz_files.html生成UNIX命令列表,您可以在本地直接运行它们。

[仅在德国但很简单的界面是https://tools.wmflabs.org/wikilovesdownloads/


0
投票

没有真正找到我要找的答案..但是此页面很有趣:: http://www.makeuseof.com/tag/4-free-tools-for-taking-wikipedia-offline/

特别是#4 ..但页面似乎已关闭..项目已死?

© www.soinside.com 2019 - 2024. All rights reserved.