在哪里/如何通过网页浏览获得前10,000名维基百科文章?

问题描述 投票:-1回答:1

我想通过英文Wiki项目中的页面浏览量获得前10,000个维基百科文章标题。

我不需要网页浏览量来获取数据。我只需要知道我有10,000篇文章。

前10,000的列表将是伟大的,因为我可以用它来刮。顶级X的JSON会更好!

TopviewsMassviews是一个很好的资源,并且非常接近我正在寻找的东西!

但是,热门视图将列表限制为490,而Massviews需要搜索字词。我希望整个英语项目中最受欢迎的Wiki文章。

我对数据转储,API或任何其他现有工具持开放态度。感谢帮助Wikis。

json dataset wikipedia wikipedia-api wikidata
1个回答
0
投票

以下是Massviews / Topviews工具的创建者,精彩的Leon Ziemba先生对我的上述问题的回答:

我不确定你所说的“所有类别”是什么意思。你是指所有项目中的所有文章吗?如果有帮助的话,有https://tools.wmflabs.org/topviews

或者你的意思是你想一次给Massviews几个类别?如果是这样,解决方法是使用Petscan,Page Pile,然后使用Massviews:*转到https://petscan.wmflabs.org/添加添加类别,选择“union”作为“组合”,然后点击“Do it!”。 *单击右上角的“输出”选项卡,选择“PagePile”作为格式。其他选项可能原样保留。点击“Do It!”再一次。 *你现在应该在PagePile上。在左上角,它将显示“桩123”,其中123是桩号。请注意这一点。 *回到Massviews。选择“Page Pile”作为源,并输入桩号。 *利润!

在Massviews中,有一个选项“包含所有子类别”。也许那会对你有所帮助。但是出于性能原因,您将获得超过20,000个结果。

如果您需要10,000页的网页浏览量,对于所有英语维基百科的所有页面,必须使用原始数据集手动计算。一个工具实时查看每篇维基百科文章都是不可行的。可以在https://dumps.wikimedia.org/other/pageviews/找到原始数据集转储。

© www.soinside.com 2019 - 2024. All rights reserved.