这里有很多关于运行logisitc回归时statsmodels中“完美分离错误”的文章。但是我没有在进行逻辑回归。我正在使用频率权重和高斯分布进行GLM。所以基本上是OLS。
我所有的自变量都是具有很多类别的类别。因此是高维的二进制编码功能集。
但是我经常从statsmodels中收到“ perfectseperationerror”
我正在运行许多模型。我认为当我的数据对于许多变量来说太薄时,我会收到此错误;但是,从理论上讲,频率加权实际上比数据帧具有更多的功能,因为观测值应乘以频率。
关于如何进行的任何指导?
reg = sm.GLM(dep,印度,freq_weights = freq)
错误:类'statsmodels.tools.sm_exceptions.PerfectSeparationError'>
支票具有完美的预测,并且独立于家庭使用。
当前,使用irls
时有解决方法。使用scipy优化器,例如method="bfgs"
,避免进行完美的预测/分离检查。
https://github.com/statsmodels/statsmodels/issues/2680
仅针对二进制情况(即GLM中的家族二项式,定义了完全分离,并且可以将其扩展到其他离散模型。
但是,如果残差方差为零,即我们具有完美的拟合度,则推理可能会遇到其他问题。这是OLS中完美预测的问题https://github.com/statsmodels/statsmodels/issues/1459