我正在搜索法语维基百科项目的任何页面的总页面浏览量(从2015年7月,PageViews API的发布日期,到2019年1月1日)。
使用PageViews API(How to use Wikipedia API to get the page view statistics of a particular page in wikipedia?)似乎对我来说太沉重了:我需要超过2百万页的数据。
使用MassViews(https://tools.wmflabs.org/massviews/)和返回所有页面标题(https://quarry.wmflabs.org/query/34473)的查询也不起作用:MassView受到20000页限制,并且无法从我的查询结果中检索某些页面标题的数据。
你知道一些更有效的工具吗?
您可以从这里下载所有综合浏览量的转储:https://dumps.wikimedia.org/other/pageviews/
发现这个:https://dumps.wikimedia.org/other/pagecounts-ez/merged/这是一个合并的页面视图转储。记录在这里:https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews
下面是一个Python脚本示例,它可以轻松打印其中一个文件的每一行。
import csv
import bz2
from pprint import pprint
with bz2.open("pagecounts-2011-12-views-ge-5-totals.bz2", "rt", errors = "replace") as fichier:
for line in fichier:
text = line.split()
if(text[0] == "fr"):
pprint(text)
有了这个kinf文件,每月一个,很容易设置这种工作流程:过滤我真正想要的留置权(法语维基),将数据传输加载到MySQL数据库中,并再次使用Python查询它。