我正在阅读分类器,尤其是多类分类器。我的问题是,当我使用精度和回忆来评估分类器时,我不理解多类分类器评估中的假阳性和假阴性的含义。
例如,当我对文档(其真实类别为C-1)进行分类时,分类器将其分类为C-2。那么,我应该增加C-2的假阳性并增加C-1的假阴性吗? (因为真正的答案是C-1。)
由于您给出的示例是一个两类问题,我在您的示例的上下文中解释了False Positive和False Negative。
在2级案例中,混淆矩阵通常如下所示:
| Declare C-1 | Declare C-2 |
|Is C-1| TP | FN |
|Is C-2| FP | TN |
我用过的符号表示以下内容:
从原始数据中,表中的值通常是每次出现在测试数据上的计数。由此,我们可以相应地计算精度,召回率和其他值。
例如,您有一个表格如下。
| Declare C-1 | Declare C-2 |
|Is C-1| 12 | 6 |
|Is C-2| 8 | 11 |
上表代表以下信息:
对于C-1类:
Precision = 12 / (12 + 8)
Recall = 12 / (12 + 6)
对于C-2类:
Precision = 11 / (11 + 6)
Recall = 11 / (11 + 8)
例如,当我对文档进行分类(其真实类别为C-1)时,分类器将其分类为C-2。那么,我应该增加C-2的假阳性并增加C-1的假阴性吗? (因为真正的答案是C-1。)
你应该增加与Declare C-2
和Is C-1
相关的混淆矩阵的单元格值的计数,下面用*
表示。
| Declare C-1 | Declare C-2 |
|Is C-1| 0 | 0* |
|Is C-2| 0 | 0 |
在一行中回答 - 是的,这一错误分类的影响将增加C-2的假阳性和C-1的假阴性将增加。因此,C-2的精确度会下降,C-1的召回率会下降。
stats.stackexchange.com上有一个类似的问题,它也有详细的答案: