什么是直接之间绘制拟合函数并绘制出预测值(它们具有相同的形状,但不同的范围)的区别是什么?

问题描述 投票:2回答:1

我想学习gam() R中使用的预测样条曲线回归。在我的代码绘制的两种方法给出了同样的形状,但在罗吉特规模反应的不同范围,似乎是一个拦截在一人失踪。两者都应该是正确的,但,为什么在范围的差异?

library(ISLR)
attach(Wage)
library(gam)

gam.lr = gam(I(wage >250) ~ s(age), family = binomial(link = "logit"), data = Wage)
agelims = range(age)
age.grid = seq(from = agelims[1], to = agelims[2])
pred=predict(gam.lr, newdata = list(age = age.grid), type = "link")
par(mfrow = c(2,1))
plot(gam.lr)
plot(age.grid, pred)

我预计,这两种方法都将给予完全一样的情节。 plot(gam.lr)绘制各组分的累加效应,因为只有在这里有一个,这样它应该给出预测分对数函数。该预测方法也给我估计在链路规模。但实际的输出在不同的范围。第一种方法的最小值是-4,而所述第二的是小于-7。

r logistic-regression spline gam
1个回答
0
投票

第一条曲线仅是估计的平滑函数s(age)的。平滑受到识别性约束中用于parametrise平滑的基础扩张,存在被完全与截距混淆功能的功能或组合。因此,你可以不适合顺利和截距在相同的模型,你可以减去截距一定的价值,并将其添加回顺利和你有同样的健康,而且不同的系数。正如你可以加减值的无限你的车型的无限供给,这是没有帮助的。

因此可识别性约束施加到基础扩展,并且一个是最有用的是确保在协变量的范围的平滑总和为零。这涉及定心平滑在0℃,用截距然后表示响应的总体平均值。

所以,第一个情节是光滑的,除本和为零的约束,所以它横跨0在这个模型中的截距是:

> coef(gam.lr)[1]
(Intercept) 
    -4.7175 

如果你在这个情节内容添加到值,你在第二个情节,这是完整的模型,您所提供的数据,拦截+ F(年龄)的应用价值。

这一切也发生在链路规模,日志赔率规模,因此所有的负值。

© www.soinside.com 2019 - 2024. All rights reserved.