边距包命令运行时间太长

Question

我希望使用像这样的数据集（具有40k观测值）来评估logit回归中变量的边际效应：

d1<- structure(list(dummy.eleito = c(1, 0, 0, 0, 0, 1, 1, 1, 1, 0), 
                     dummy.tratamento = c(1, 1, 0, 0, 0, 0, 0, 0, 0, 0), 
                     Escolaridade = c("SUPERIOR_INCOMPLETO", "FUNDAMENTAL_INCOMPLETO", 
                                      "SUPERIOR_COMPLETO", "FUNDAMENTAL_INCOMPLETO", 
                                     "SUPERIOR_COMPLETO", "SUPERIOR_COMPLETO", "SUPERIOR_INCOMPLETO", 
                                     "SUPERIOR_INCOMPLETO", "SUPERIOR_COMPLETO", "SUPERIOR_INCOMPLETO"), 
                     Raca = c("Preta_Parda", "Preta_Parda", "Preta_Parda", "Preta_Parda", 
                              "Preta_Parda", "Preta_Parda", "BRANCA", "BRANCA", "BRANCA", "BRANCA"),
                     DESCRICAO_SEXO = c("MASCULINO", "MASCULINO", "MASCULINO", 
                                        "MASCULINO", "MASCULINO", "MASCULINO", "MASCULINO", 
                                        "MASCULINO", "MASCULINO", "MASCULINO"), 
                     votos.cidade = c(6483, 6483, 6483, 6483, 6483, 6483, 4735, 
                                      4735, 4735, 4735), 
                     dummy.prefeito = c(0,1, 0, 0, 0, 1, 0, 0, 0, 1), 
                     Intensidade.Trat0.Mun = c(0.0152671755725191, 0.0152671755725191, 0.0152671755725191, 0.0152671751, 
                                               0.0152671755725191, 0.01526717, 0.02857142856, 0.028571428, 0.028571, 0.0285714), 
                     Var.Receitas = c(3.25607407, 11.424, 4.5549, -0.832116880227985, 5.78901737320675, -0.02459246, 
                                      1.151009, -0.3058719238, 0.742947247, -0.2711)), 
                .Names = c("dummy.eleito", "dummy.tratamento", "Escolaridade", "Raca", 
                           "DESCRICAO_SEXO", "votos.cidade", "dummy.prefeito", "Intensidade.Trat0.Mun", 
                           "Var.Receitas"), row.names = c(NA, 10L), class = "data.frame")

我使用glm:运行以下回归

model <- glm(dummy.eleito ~  dummy.tratamento + factor(Escolaridade) +
                       factor(Raca) + factor(DESCRICAO_SEXO) +
                       votos.cidade + dummy.prefeito +
                       dummy.tratamento:Intensidade.Trat0.Mun +
                       Var.Receitas + Var.Receitas:dummy.tratamento, 
                       data = d1, 
                       family = binomial(link = 'logit'))

然后我在某些方面评估边际效应：

m <- margins(model, at = list(dummy.tratamento = 1,
                              Intensidade.Trat0.Mun = fivenum(d1$Intensidade.Trat0.Mun)                               
                              Var.Receitas = fivenum(d1$Var.Receitas))

R试图在整个晚上跑这个...早上，仍然没有。这是正常的吗？任何可能的原因？数据太复杂了吗？或者回归公式本身？即使我在不使用margins规范的情况下运行at，它仍然不会去。

有帮助吗？

编辑：

将R更新到最新版本之后，这就是我最终得到的：

R运行我需要的回归和使用整个数据集的margins命令，R花时间完成这项工作，但最终确实如此。

但是，在at中使用margins参数时问题仍然存在。我怀疑这是因为回归有factor变量。我想我可能会使用我将放在at命令中的参数手动计算我的因变量的预测值，只是为了掌握结果。

欢迎任何建议的替代方案。

Answer 1

我想我已经找到了问题。您的代码产生了错误，因为您只有一个级别的因子DESCRICAO_SEXO：

contrasts<-中的错误（*tmp*，value = contr.funs [1 + isOF [nn]]）：对比度仅适用于具有2级或更多级别的因素

接下来，我建议你在glm电话之外创建因素：

d1$dummy.eleito <- as.factor(d1$dummy.eleito)
d1$dummy.tratamento <- as.factor(d1$dummy.tratamento)
d1$Escolaridade <- as.factor(d1$Escolaridade)
d1$Raca <- as.factor(d1$Raca)
d1$DESCRICAO_SEXO <- as.factor(d1$DESCRICAO_SEXO)
d1$dummy.prefeito <- as.factor(d1$dummy.prefeito)

运行以下模型（没有DESCRICAO_SEXO）有效：

model <- glm(dummy.eleito ~  dummy.tratamento + Escolaridade + 
 Raca + votos.cidade + dummy.prefeito + Intensidade.Trat0.Mun + 
   Var.Receitas, data = d1, family = binomial(link = 'logit'))

但是，它仍会抛出以下警告：

警告消息：glm.fit：拟合概率数字0或1发生

你可以读一下这个警告here和here。此警告可能仅发生在您提供的小数据集中，而不是在完整数据集中。你必须试着看。

Answer 2

我遇到了同样的问题并做了两件事来解决它。首先我将R更新到最新版本，然后我创建了一个新的数据框，其中包含我感兴趣的每个变量组合，而不是具有超过300000个观察结果的原始数据框，例如：

newdata<- with(d1,data.frame(dummy.eleito= rep(seq(from =0,to = 1, by = 1)
    ,length(levels(Escolaridade)))
,Escolaridade= as.character(sapply(levels(Escolaridade),rep,2))))

然后我在新数据集上使用了边距，因此它给了我感兴趣的所有组合的边际效果，并且没有花费这么长时间。

边距包命令运行时间太长

问题描述投票：0回答：2

2个回答

最新问题

边距包命令运行时间太长

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2