从实时dbpedia转储生成不同的数据集

问题描述 投票:4回答:2

我在dbpedia download page提供的不同数据集上玩耍,发现它已经过时了。

然后我从dbpedia live站点下载了最新的转储。当我提取6月30日的文件时,我只有一个巨大的37GB .nt文件。

我想从最新的转储中获得不同的数据集(如下载页面上提供的不同.nt文件)。是否有脚本或流程可以做到?

dbpedia
2个回答
1
投票

解决方案1:

您可以使用dbpedia实时提取器。https://github.com/dbpedia/extraction-framework。您需要配置适当的提取器(例如:信息框属性提取器,抽象提取器..etc)。它将下载最新的Wikipedia转储并生成dbpedia数据集。

您可能需要进行一些代码更改才能仅获取所需的数据。我的一位同事针对德国数据集进行了此操作。您仍然需要大量的磁盘空间。

解决方案2(我不知道这是否真的可能。):

对数据集的所需属性进行grep。您需要知道要获取的属性的确切URI。

例如:要获取所有主页,请执行以下操作:bzgrep'http://xmlns.com/foaf/0.1/homepage'dbpedia_2013_03_04.nt.bz2> homepages.nt

它将为您提供所有带有首页的N-三元组。您可以将其加载到rdf存储中。


0
投票

@ Sudar,对于您的问题,我无济于事,但我确实需要一个容量为37GB的Dbpedia的大文件。链接无效。您可以和我分享一下吗,或者告诉我在哪里可以下载包含所有Dbpedia数据的一个文件。

提前感谢。

© www.soinside.com 2019 - 2024. All rights reserved.