我如何才能得到Freebase Easy的数据集作为一个结构化文件?

问题描述 投票:0回答:1

我下载了Freebase Easy 数据集 (3.3GB)。我想研究一下这个数据集在输入一些实体时的情况,如 German (在freebase中的类型:位置,国家,土地......)。enter image description here

我怎样才能将这三个文件CONCATENATE为完整的数据集?

wikipedia-api freebase freebase-acre
1个回答
0
投票

这些文件(facts.txt freebase-links.txt scores.txt)的格式都是一样的,所以可以简单地进行连接。在类似Unix的系统中,你可以使用命令:

cat facts.txt freebase-links.txt scores.txt > all.txt

或者你也可以用类似于

unzip -ca freebase-easy-latest.zip \*.txt | gzip > freebase-easy-all.txt.gz

一个例子会是这样的

$ unzip -ca freebase-easy-latest.zip \*.txt | grep $"^B\t" 
B   prominence-score    1758.0  .
B   freebase-entity <http://rdf.freebase.com/ns/m.0560cf>   .
B   Transit System  New York City Subway    .
B   is-a    Topic   .
B   is-a    Transit Line    .
B   kg/object_profile/prominent_type    Transit Line    .

其中第一行来自 scores.txt,第二行从 freebase-links.txt剩余部分来自 facts.txt.

© www.soinside.com 2019 - 2024. All rights reserved.