为什么从glmnet模型中获取回归系数的统计汇总信息是不可取的?

问题描述 投票:15回答:2

我有一个带二元结果的回归模型。我用glmnet拟合了模型并得到了选定的变量及其系数。

由于glmnet不计算变量重要性,我想将精确输出(选定变量及其系数)提供给glm以获取信息(标准错误等)。

我搜索了r文件,似乎我可以在glm中使用“method”选项来指定用户定义的函数。但我没有这样做,有人可以帮助我吗?

r statistics regression glm glmnet
2个回答
32
投票

“要求回归系数或其他估计量的标准误差是一个非常自然的问题。原则上,这样的标准误差可以很容易地计算,例如使用自举。

不过,这个软件包故意不提供它们。其原因在于标准误差对于强烈偏差估计而言并不是非常有意义,例如由惩罚估计方法引起的。惩罚估计是通过引入实质偏差来减少估计量方差的过程。因此,每个估计量的偏差是其均方误差的主要组成部分,而其方差可能只贡献一小部分。

不幸的是,在惩罚性回归的大多数应用中,不可能获得足够精确的偏差估计。任何基于bootstrap的计算都只能评估估计的方差。只有在可靠的无偏估计可用时才能获得可靠的偏差估计,而在使用惩罚估计的情况下通常不是这种情况。

因此,报告惩罚估计的标准误差只能说明故事的一部分。它可能给人一种极其精确的错误印象,完全忽略了偏差造成的不准确性。做出基于对估计方差的评估的置信度陈述肯定是错误的,例如基于引导程序的置信区间。

Jelle Goeman, Ph.D. Leiden University, Author of the Penalized package in R.


1
投票

有CRAN包hdiselectiveInference提供高维模型的推断,你可能想看看那些......我也看到人们只使用glm选择的预测变量运行glmnet,但这不是考虑到最佳模型本身选择过程产生的不确定性......

© www.soinside.com 2019 - 2024. All rights reserved.