我需要使用Python中的crosstab函数生成一个混淆矩阵(作为练习)。我一直在使用各种数据集进行此操作,并且效果很好,但是这次我遇到了一个奇怪的问题。
数据集分为训练集和测试集(X_train,y_train,X_test,y_test)。测试集是构成响应变量的一系列0和1。我对训练集进行了逻辑回归,并预测了测试集的价值:
logit1 = sm.Logit(y_train, X_train).fit()
pred = logit1.predict(X_test)
然后,我使用0.5的临界值对响应的值进行分类,结果,我得到了一系列与y_test(2500)相同长度的0和1。该系列称为res,现在我要使用交叉表创建混淆表:
cross_table = pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True)
但是这给了我下表总计不超过2500:
Predicted 0.0 1.0 All
Actual
0.0 413 52 465
1.0 140 20 160
All 553 72 625
当我使用sklearn的confusion_matrix函数时,我得到的总正确值为2500:
confusion_matrix(y_test, res)
array([[1817, 110],
[ 369, 205]])
我的交叉表在这里出什么问题???
包装:
from pandas import Series, DataFrame
import pandas as pd
import statsmodels.api as sm
from sklearn.metrics import confusion_matrix
cross_table = pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True,dropna=False)
检查结果。没有数据集,我无法尝试。
您应该在问题的末尾张贴完整的代码清单,因为它恰好检查了总数组的1/4的事实,怀疑先前是否有过意料之外的操作