为什么从glmnet模型中获取回归系数的统计汇总信息是不可取的？

问题描述投票：15回答：2

我有一个带二元结果的回归模型。我用glmnet拟合了模型并得到了选定的变量及其系数。

由于glmnet不计算变量重要性，我想将精确输出（选定变量及其系数）提供给glm以获取信息（标准错误等）。

我搜索了r文件，似乎我可以在glm中使用“method”选项来指定用户定义的函数。但我没有这样做，有人可以帮助我吗？

statistics

regression

glm

glmnet

2个回答

32
投票

“要求回归系数或其他估计量的标准误差是一个非常自然的问题。原则上，这样的标准误差可以很容易地计算，例如使用自举。

不过，这个软件包故意不提供它们。其原因在于标准误差对于强烈偏差估计而言并不是非常有意义，例如由惩罚估计方法引起的。惩罚估计是通过引入实质偏差来减少估计量方差的过程。因此，每个估计量的偏差是其均方误差的主要组成部分，而其方差可能只贡献一小部分。

不幸的是，在惩罚性回归的大多数应用中，不可能获得足够精确的偏差估计。任何基于bootstrap的计算都只能评估估计的方差。只有在可靠的无偏估计可用时才能获得可靠的偏差估计，而在使用惩罚估计的情况下通常不是这种情况。

因此，报告惩罚估计的标准误差只能说明故事的一部分。它可能给人一种极其精确的错误印象，完全忽略了偏差造成的不准确性。做出基于对估计方差的评估的置信度陈述肯定是错误的，例如基于引导程序的置信区间。

Jelle Goeman, Ph.D. Leiden University, Author of the Penalized package in R.

1
投票

有CRAN包hdi和selectiveInference提供高维模型的推断，你可能想看看那些......我也看到人们只使用glm选择的预测变量运行glmnet，但这不是考虑到最佳模型本身选择过程产生的不确定性......

为什么从glmnet模型中获取回归系数的统计汇总信息是不可取的？

问题描述 投票：15回答：2

2个回答

最新问题

问题描述投票：15回答：2