多类分类器评估

问题描述 投票:0回答:2

我正在阅读分类器,尤其是多类分类器。我的问题是,当我使用精度和回忆来评估分类器时,我不理解多类分类器评估中的假阳性和假阴性的含义。

例如,当我对文档(其真实类别为C-1)进行分类时,分类器将其分类为C-2。那么,我应该增加C-2的假阳性并增加C-1的假阴性吗? (因为真正的答案是C-1。)

classification information-retrieval confusion-matrix
2个回答
0
投票

由于您给出的示例是一个两类问题,我在您的示例的上下文中解释了False Positive和False Negative。

在2级案例中,混淆矩阵通常如下所示:

       | Declare C-1 | Declare C-2 |
|Is C-1|    TP       |   FN        |
|Is C-2|    FP       |   TN        |

我用过的符号表示以下内容:

  • TP =真阳性(分类为C-1,实际上是C-1)
  • FN =假阴性(归类为C-2但实际上是C-1)
  • FP =误报
  • TN =真阴性

从原始数据中,表中的值通常是每次出现在测试数据上的计数。由此,我们可以相应地计算精度,召回率和其他值。

例如,您有一个表格如下。

       | Declare C-1 | Declare C-2 |
|Is C-1|    12       |    6        |
|Is C-2|     8       |   11        |

上表代表以下信息:

  • 12份文件被归类为C-1,它们实际上属于C-1。
  • 6份文件被归类为C-2,但它们实际上属于C-1。
  • 8份文件被归类为C-1,但它们实际上属于C-2。
  • 11份文件被归类为C-2,它们实际上属于C-2。

对于C-1类:

Precision = 12 / (12 + 8)
Recall = 12 / (12 + 6)

对于C-2类:

Precision = 11 / (11 + 6)
Recall = 11 / (11 + 8)

例如,当我对文档进行分类(其真实类别为C-1)时,分类器将其分类为C-2。那么,我应该增加C-2的假阳性并增加C-1的假阴性吗? (因为真正的答案是C-1。)

你应该增加与Declare C-2Is C-1相关的混淆矩阵的单元格值的计数,下面用*表示。

       | Declare C-1 | Declare C-2 |
|Is C-1|     0       |    0*       |
|Is C-2|     0       |    0        |

0
投票

在一行中回答 - 是的,这一错误分类的影响将增加C-2的假阳性和C-1的假阴性将增加。因此,C-2的精确度会下降,C-1的召回率会下降。

stats.stackexchange.com上有一个类似的问题,它也有详细的答案:

https://stats.stackexchange.com/questions/51296/how-do-you-calculate-precision-and-recall-for-multiclass-classification-using-co

© www.soinside.com 2019 - 2024. All rights reserved.