DBpedia Spotlight 的参数是什么意思?

问题描述 投票:0回答:1

我对使用 DBpedia Spotlight 感兴趣。但是,我们需要为两个参数confidencesupport插入一个值。这两个参数到底意味着什么?

我想识别文本中重要、突出的 n 元语法。在这种情况下,通常建议的置信度和支持参数经验法则)是什么?

ontology dbpedia linked-data spotlight-dbpedia
1个回答
5
投票

当您要求 DBpedia Spotlight 注释文本(查找实体/主题)时,它会搜索在 DBpedia 中具有 URI 的 n-gram(n-gram 是维基百科标题)。这些 n-gram 称为 DBpedia 资源。

支持:这是资源突出参数,它可以帮助您忽略不重要或无信息的资源。当您为其设置值 X 时,这意味着 维基百科内链接数量小于 X 的资源 将被忽略并且不会返回给您。

置信度:这是消歧置信度参数,它是一个阈值,取值在0到1之间。当你为其设置一个较高的值时,你会得到更好、更值得信赖的注释,但你会面临丢失的风险一些正确的

选择这些(或任何其他)参数的值取决于您的用例。

示例:

  • 如果您有一些测试集或您感兴趣的 n-gram 类型的黄金标准,您可以调整您的选择,直到获得满足您的黄金标准的足够好的结果。

  • 如果您只关心检索前 N 个 n 元语法以推断文本主题,则可以调整参数,选择高值以获得少量(大部分)正确的 n 元语法,并按置信度对它们进行排序。

  • 如果您想获得尽可能多的 n 元语法,并且您的任务不会因错误而受到影响或偏差,您可以设置较低的值。

© www.soinside.com 2019 - 2024. All rights reserved.