如何在OpenRefine中按维基百科文章标题进行核对?

问题描述 投票:0回答:1

我想对大量的记录进行核对,其中我有准确的维基百科文章标题(包括括号中的歧义)。什么是最快速的方法来匹配这些大量的记录,根据他们的 确切 OpenRefine中的维基百科标题?如果我只是简单地通过文本进行核对,可信度很低,而且具有相同标题的Wikidata条目会被混淆。

sparql wikipedia wikidata openrefine grel
1个回答
2
投票

将你的值转化为维基百科的URL,比如用下面的GREL公式(假设所有文章都在英文维基百科上)。

'https://en.wikipedia.org/wiki/'+value

然后,你可以将此列与Wikidata调和服务进行调和,后者将识别这些URL,并通过站点链接解析Wikidata项目。

如果你的文章标题包含消除歧义的页面,调和服务会给你消除歧义的项目,所以最好的做法是仔细检查它们的类型 (P31)通过调和后取来。


1
投票

我认为你的做法是反其道而行之。使用@Wikidata编号,它也可以用于歧义页! Wikidata项在左侧窗格中。它提供了消除歧义的功能,并且是语言中立和可查询的。每个维基百科条目都有一个Wikidata条目。

也许还有一个SPARQL查询可以为你完成这项工作。如果你问一些Wikidatans,他们可以帮助你。试试 Twitter 上的 @wikidatafacts。

如果你需要包含非链接文本,这可能是在一些disamb页面列表中,维基百科的手动性质不会帮助你。但你可以抽查这些异常值。

热门问题
推荐问题
最新问题