我一直在深入研究Wikidata,但发现了一个可能令人困扰的问题。我期望每个标签都与标识符一一对应(bijective)。但是,我发现情况并非如此。
我不确定是否应该向Wikidata员工提出这个重大问题。
例如,Wikidata中的标签“ noise”具有三个QID:
[现在,每个QID与Wikipedia页面具有1对1的对应关系,每个页面的标题都消除了它所指的“噪声”的歧义。
这里是上述问题的说明:
那么,为什么Wikidata没有标签来区分它是什么类型的“噪音”?例如,Q11306265应该有一个名为“噪声(电子)”的标签。
我已经发现300多个这样的模糊标签。这里有更多示例:
“乔治·华盛顿”:
“四个季节”:
“第9交响曲”:
但是,绝大多数Wikidata标签是明确的。例如,“足球”可以像这样正确地消除歧义:
这就是预期的样子,并且可能有成千上万个这样的项目。
Wikidata的命名方法是使[[label为“该项目将由其获知的最通用名称”(WD Help:Label)
需要人为消除歧义的地方,可以使用description
字段;有一项技术要求,即在任何给定语言中都有标签+说明的情况下,该对应该是唯一的,但都允许[相同标签] + [不同描述]或[相同标签] + [没有描述]。] >当然,一般规则并不总是精确地在实践中起作用。有时您会看到人们选择了歧义优先的方法,例如两种足球-尽管在这种情况下,使用“联合足球”巧妙地解决了“足球”和“足球”之间的冲突。您有时还会看到名称中带有Wikipedia类型的“(disambiguator)”注释的项目-该注释通常是偶然导入的,从未清除。但是通常,标签不是唯一的,也不是唯一的。
您提到了Wikipedia-在这里,文章标题是唯一的,因为每个文章标题都必须位于特定的URL,并且页面标题定义为与URL相同。要求标题中的歧义是必不可少的,因为在单个URL上不能显示两个不同的概念而不会引起很多混乱。 Wikidata项在其URL中使用数字ID,因此消除了压力。