我如何解释这个10 * 10混淆矩阵？

Question

我在混淆矩阵下面有10个Y类别。如何计算A，D和E类的准确性，并分别找到TP，TM，FP和FN？

    A    B   C   D   E   F   G   H   I   J
   [41,  0,  0,  2,  1,  0,  0,  0,  0,  4],
   [ 1,  0,  0,  0,  4,  0,  0,  0,  0,  2],
   [ 3,  0, 12,  0,  1,  0,  0,  0,  0,  0],
   [ 0,  0,  0, 51, 10,  0,  0,  0,  0,  0],
   [ 1,  0,  0,  3, 78,  0,  0,  0,  0,  5],
   [ 1,  0,  0,  0,  0,  0,  0,  0,  0,  3],
   [ 4,  0,  0,  0,  2,  0,  5,  0,  0,  4],
   [ 0,  0,  1,  1,  3,  0,  0,  2,  0,  1],
   [ 4,  0,  0,  0,  1,  0,  0,  0,  0,  0],
   [10,  0,  0,  5, 15,  0,  0,  0,  0, 24]

谢谢您的帮助！

Answer 1

可视化您的混淆矩阵

X = [[41, 0, 0, 2, 1, 0, 0, 0, 0, 4],
 [1, 0, 0, 0, 4, 0, 0, 0, 0, 2],
 [3, 0, 12, 0, 1, 0, 0, 0, 0, 0],
 [0, 0, 0, 51, 10, 0, 0, 0, 0, 0],
 [1, 0, 0, 3, 78, 0, 0, 0, 0, 5],
 [1, 0, 0, 0, 0, 0, 0, 0, 0, 3],
 [4, 0, 0, 0, 2, 0, 5, 0, 0, 4],
 [0, 0, 1, 1, 3, 0, 0, 2, 0, 1],
 [4, 0, 0, 0, 1, 0, 0, 0, 0, 0],
 [10, 0, 0, 5, 15, 0, 0, 0, 0, 24]]

cm = pd.DataFrame(X, columns=list("ABCDEFGHIJ"), index=list("ABCDEFGHIJ")) 

print(cm)

输出：

    A  B   C   D   E  F  G  H  I   J
A  41  0   0   2   1  0  0  0  0   4
B   1  0   0   0   4  0  0  0  0   2
C   3  0  12   0   1  0  0  0  0   0
D   0  0   0  51  10  0  0  0  0   0
E   1  0   0   3  78  0  0  0  0   5
F   1  0   0   0   0  0  0  0  0   3
G   4  0   0   0   2  0  5  0  0   4
H   0  0   1   1   3  0  0  2  0   1
I   4  0   0   0   1  0  0  0  0   0
J  10  0   0   5  15  0  0  0  0  24

读取混乱矩阵的过程如下：行是实际标签，列是预测标签。完美的模型将具有对角线混淆矩阵，因为它将始终正确预测！ Read more on confusion matrices。

在这里，您可以看到您的模型有时是错误的。当答案实际上是A时，它预测J的次数是10倍...但是对于类别G来说特别好：在预测的5次上，它总是正确的！

类别准确度

分类准确度是指在预测的所有次数中，您对预测的正确性进行计数的次数：

>>> cm["A"]["A"] / cm.sum(axis=0)["A"]                                                                                                               
0.6307692307692307

>>> cm["D"]["D"] / cm.sum(axis=0)["D"]                                                                                                               
0.8225806451612904

>>> cm["E"]["E"] / cm.sum(axis=0)["E"]                                                                                                               
0.6782608695652174

每个TP，TN，FP，FN

这些度量通常在二进制分类设置中有意义，但是对于给定的类别，您可以想象处于一对一的设置（考虑的类别与所有其余部分）的设置（看起来像二进制），因此计算这些度量。

利用this answer，您可以使用以下方法获得每个类别的所有TP，TN，FP，FN值：

FP = cm.sum(axis=0) - np.diag(cm)   
FN = cm.sum(axis=1) - np.diag(cm) 
TP = pd.Series(np.diag(cm), index=list("ABCDEFGHIJ"))
TN = np.matrix(cm).sum() - (FP + FN + TP)

现在，类别A的FP是：

>>> FP["A"]
24  #  you can verify, it's the sum of all values except diagonal element

相同的逻辑适用于所有其他度量。

Answer 2

要添加到另一个答案中，真阳性和假阳性以及其他指标仅在二项式响应的情况下才有意义。维基百科页面对此进行了更详细的概述：

Precision and Recall

在上述情况下，不一定要计算总的TP或FP速率，但是可以计算False'A'和True'A'，依此类推，如上面的答案所述。

我如何解释这个10 * 10混淆矩阵？

问题描述投票：2回答：2

2个回答

可视化您的混淆矩阵

类别准确度

每个TP，TN，FP，FN

最新问题

我如何解释这个10 * 10混淆矩阵？

问题描述 投票：2回答：2

2个回答

可视化您的混淆矩阵

类别准确度

每个TP，TN，FP，FN

最新问题

问题描述投票：2回答：2