从拟合的lm或glm [R]中获取每个因子级别（以及交互）的数据数量

Question

我在R中有一个逻辑回归模型，其中所有预测变量都是分类变量而不是连续变量（除了响应变量，它也显然是分类/二进制）。

在调用summary(model_name)时，有没有办法在每个因子级别中包含一个表示观察数量的列？

Answer 1

我在R中有一个逻辑回归模型，其中所有预测变量都是分类变量而不是连续变量。

如果所有协变量都是因子（不包括截距），这很容易，因为模型矩阵只包含0和1，而数字1表示数据中该因子水平（或交互级别）的出现。所以只做colSums(model.matrix(your_glm_model_object))。

由于模型矩阵具有列名，colSums将为您提供具有“名称”属性的向量，这与coef(your_glm_model_object)的“名称”字段一致。

对于任何分布族，相同的解决方案适用于线性模型（通过lm）和广义线性模型（通过glm）。

这是一个简单的例子：

set.seed(0)
f1 <- sample(gl(2, 50))  ## a factor with 2 levels, each with 50 observations
f2 <- sample(gl(4, 25))  ## a factor with 4 levels, each with 25 observations
y <- rnorm(100)
fit <- glm(y ~ f1 * f2)  ## or use `lm` as we use `guassian()` family object here
colSums(model.matrix(fit))
#(Intercept)         f12         f22         f23         f24     f12:f22 
#        100          50          25          25          25          12 
#    f12:f23     f12:f24 
#         12          14

在这里，我们有100个观察/完整案例（在(Intercept)下指出）。

有没有办法显示每个因子的基线水平的计数？

基线水平是对比的，因此它们不会出现在用于拟合的模型矩阵中。但是，我们可以从您的公式生成完整的模型矩阵（没有对比）而不是您的拟合模型（如果您在模型中有这些变量，这也为您提供了删除数字变量的方法）：

SET_CONTRAST <- list(f1 = contr.treatment(nlevels(f1), contrast = FALSE),
                     f2 = contr.treatment(nlevels(f2), contrast = FALSE))
X <- model.matrix(~ f1 * f2, contrasts.arg = SET_CONTRAST)
colSums(X)
#(Intercept)         f11         f12         f21         f22         f23 
#        100          50          50          25          25          25 
#        f24     f11:f21     f12:f21     f11:f22     f12:f22     f11:f23 
#         25          13          12          13          12          13 
#    f12:f23     f11:f24     f12:f24 
#         12          11          14

请注意，当您有许多因子变量时，在设置对比时很快就会变得乏味。

model.matrix绝对不是唯一的方法。传统方式可能是

table(f1)
table(f2)
table(f1, f2)

但是当你的模型变得复杂时，也会变得乏味。

从拟合的lm或glm [R]中获取每个因子级别（以及交互）的数据数量

问题描述投票：1回答：1

1个回答

最新问题

从拟合的lm或glm [R]中获取每个因子级别（以及交互）的数据数量

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1