将Wikipedia转储导入SQL不完整

问题描述 投票:0回答:1

我从http://download.wikipedia.com/enwiki/latest/enwiki-latest-pages-articles.xml.bz2下载了一个Wikipedia转储。将其解压缩到enwiki.xml并运行php importDump.php < enwiki.xml。大约需要2天才能完成。不知何故,我的本地mediawiki的文章/页面/类别比在线wiki少得多。

select count(*) from page;仅给我691716。另一个很好的例子是我的本地mediawiki缺少页面United States

我还尝试从https://en.wikipedia.org/wiki/Special:Export导出一个小的xml,并使用importDump.php将xml插入MySQL。结果看起来不错。没有页面丢失。

1。我是否下载了错误的Wikipedia图像,或者xml很大时导入过程出了点问题?

我还根据this question on Stackoverflow尝试了mwdumper.jar和perl脚本。即使我将页表更改为具有page_counter列,但所有文章都缺少它们的内容。每个页面都在说:

此页面当前没有文本。

2。 mwimport.perl和mwdumper.jar是否已过期?

3。从哪里可以得到完整的Wikipedia转储,如何将转储正确导入MySQL?

谢谢。

java mysql import wikipedia dump
1个回答
1
投票

您可以在以下位置找到所有维基百科(和同级项目)转储:

https://dumps.wikimedia.org/backup-index.html

尤其是如果您正在寻找英文维基百科:

https://dumps.wikimedia.org/enwiki/

您可以根据需要找到几个转储。特别是我使用“ pages-articles”,其中包含所有名称空间中所有页面的最新修订:

https://dumps.wikimedia.org/enwiki/20190901/enwiki-20190901-pages-articles.xml.bz2

还要考虑到大约每个月会产生一次新的转储。

© www.soinside.com 2019 - 2024. All rights reserved.