我应用了logistic regression
,我想测试总体模型的统计显着性。
现在,伪Rsquared(McFaddon)Rsquared = 1 - L(c)/L(null)
返回模型解释的方差-其中L(c)
表示拟合模型的最大似然值,L(null)
表示空值的对应值模型(无协变量,仅拦截)。
[[似然性检验统计量是LR = 2 * (L(c) - L(null))
,它遵循Chi-squared
分布,可以根据模型的自由度来检验其重要性。
Chi-squared
来计算一个非常有效的p-value
,但是 pseudo Rsquared
在0.021
附近?
为什么Rsquared和总体p值相差如此大?
使用某些测试数据metrics.accuracy_score(y_test, y_pred)
的准确度计算,我发现测试数据的准确度仅约为55%(对于训练数据,其准确度约为60%)。 有人可以帮助我解释我的结果吗?
变量为1的示例有50%的可能性属于1类,而变量为0的示例有48%的机会属于1类。
如果存在很多具有该变量的示例,则效果可能仍然很明显(p值),但仅靠其很难预测出正确的类别(解释方差-r平方)。
这可能是参考,可以帮助您以图形方式了解另一个问题:https://blog.minitab.com/blog/adventures-in-statistics-2/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values