命名实体识别信心

问题描述 投票:1回答:1

我需要对每个提取的实体都有信心(不是为了打印而是为了得到它),但是,我找不到一种能够恢复信心的方法。

首先,我尝试在Java上使用Stanford Named Entity Recognizer库,这个解决方案:

Display Stanford NER confidence score

但它不起作用(我猜getCliqueTree方法不可用)。我也曾尝试在Python和Stanford NER模型中使用NLTK来提取实体,但再次找不到获得信心的方法。

我知道如何在Spacy上做到这一点:

https://github.com/explosion/spaCy/issues/831

但正如作者所说,效率低下。

所以,你能告诉我,如何获得每个提取实体的概率?

nltk stanford-nlp named-entity-recognition
1个回答
0
投票

通常NER是令牌级别分类任务。

置信度通常来自每个预测,这通常是某种类型的softmax的输出。

那么问题就出现了,我怎样才能对一系列信心产生信心?

有多种方式:

  1. 熵[信心是信息量]
  2. 平均值(平均值)[置信度是平均值]
  3. 最小/最大置信度[置信度是最小值/最大值]

所有这些都给出了不同的答案,没有一个是“更好”,这实际上取决于你的用例。

如果您想订购可能的实体类型,可以从以下开始:

  1. 假设每个令牌都有相同的标签
  2. 获得置信度(概率)序列的熵
  3. 按熵排序
© www.soinside.com 2019 - 2024. All rights reserved.