我下载了Freebase Easy 数据集 (3.3GB)。我想研究一下这个数据集在输入一些实体时的情况,如 German (在freebase中的类型:位置,国家,土地......)。
我怎样才能将这三个文件CONCATENATE为完整的数据集?
这些文件(facts.txt freebase-links.txt scores.txt)的格式都是一样的,所以可以简单地进行连接。在类似Unix的系统中,你可以使用命令:
cat facts.txt freebase-links.txt scores.txt > all.txt
或者你也可以用类似于
unzip -ca freebase-easy-latest.zip \*.txt | gzip > freebase-easy-all.txt.gz
一个例子会是这样的
$ unzip -ca freebase-easy-latest.zip \*.txt | grep $"^B\t"
B prominence-score 1758.0 .
B freebase-entity <http://rdf.freebase.com/ns/m.0560cf> .
B Transit System New York City Subway .
B is-a Topic .
B is-a Transit Line .
B kg/object_profile/prominent_type Transit Line .
其中第一行来自 scores.txt
,第二行从 freebase-links.txt
剩余部分来自 facts.txt
.