我正在fr.wikipedia.org的Acadie门户上进行数据分析。
我正在使用WikipediR :: pages_in_category列出门户中的页面列表:
library(WikipediR)
portal_acadie <- pages_in_category(language = "fr",
project = "wikipedia",
categories = "Portail:Acadie/Articles liés",
limit = 500,
clean_response = TRUE)
该函数的输出有限,但是我知道门户网站有1900多个页面。如何提取剩余的1400 +?
[我尝试将limit
参数更改为limit = 2000
,但是我收到一条警告消息,指出
用户的'“ cmlimit”不得超过500(设置为2000)。
仅显示前500页。
这似乎是一个已知问题。 https://github.com/Ironholds/WikipediR/issues/27
如@ user2554330所示,维基百科的上限为500。我已经看到其他站点通过提供用户可以批量下载的页面ID列表来解决此问题,但这里似乎并非如此。也许您可以通过手动创建页面列表来解决它?