从页面获取(法语)维基百科的总页面视图

问题描述 投票:0回答:2

我正在搜索法语维基百科项目的任何页面的总页面浏览量(从2015年7月,PageViews API的发布日期,到2019年1月1日)。

使用PageViews API(How to use Wikipedia API to get the page view statistics of a particular page in wikipedia?)似乎对我来说太沉重了:我需要超过2百万页的数据。

使用MassViews(https://tools.wmflabs.org/massviews/)和返回所有页面标题(https://quarry.wmflabs.org/query/34473)的查询也不起作用:MassView受到20000页限制,并且无法从我的查询结果中检索某些页面标题的数据。

你知道一些更有效的工具吗?

wikipedia wikipedia-api pageviews
2个回答
0
投票

您可以从这里下载所有综合浏览量的转储:https://dumps.wikimedia.org/other/pageviews/


0
投票

发现这个:https://dumps.wikimedia.org/other/pagecounts-ez/merged/这是一个合并的页面视图转储。记录在这里:https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews

下面是一个Python脚本示例,它可以轻松打印其中一个文件的每一行。

import csv
import bz2
from pprint import pprint

with bz2.open("pagecounts-2011-12-views-ge-5-totals.bz2", "rt", errors = "replace") as fichier:
    for line in fichier:
        text = line.split()
        if(text[0] == "fr"):
            pprint(text)

有了这个kinf文件,每月一个,很容易设置这种工作流程:过滤我真正想要的留置权(法语维基),将数据传输加载到MySQL数据库中,并再次使用Python查询它。

© www.soinside.com 2019 - 2024. All rights reserved.