Crosstab和confusion_matrix在Python中导致的结果分歧

Question

我需要使用Python中的crosstab函数生成一个混淆矩阵（作为练习）。我一直在使用各种数据集进行此操作，并且效果很好，但是这次我遇到了一个奇怪的问题。

数据集分为训练集和测试集（X_train，y_train，X_test，y_test）。测试集是构成响应变量的一系列0和1。我对训练集进行了逻辑回归，并预测了测试集的价值：

logit1 = sm.Logit(y_train, X_train).fit()
pred = logit1.predict(X_test)

然后，我使用0.5的临界值对响应的值进行分类，结果，我得到了一系列与y_test（2500）相同长度的0和1。该系列称为res，现在我要使用交叉表创建混淆表：

cross_table = pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True)

但是这给了我下表总计不超过2500：

Predicted  0.0  1.0  All
Actual                  
0.0        413   52  465
1.0        140   20  160
All        553   72  625

当我使用sklearn的confusion_matrix函数时，我得到的总正确值为2500：

confusion_matrix(y_test, res)

array([[1817,  110],
       [ 369,  205]])

我的交叉表在这里出什么问题？？？

包装：

from pandas import Series, DataFrame
import pandas as pd
import statsmodels.api as sm
from sklearn.metrics import confusion_matrix

Answer 1

cross_table = pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True,dropna=False)

检查结果。没有数据集，我无法尝试。

您应该在问题的末尾张贴完整的代码清单，因为它恰好检查了总数组的1/4的事实，怀疑先前是否有过意料之外的操作