使用model.matrix进行一次热编码

Question

model.matrix中有些我不理解的东西。当我输入一个没有截距的二进制变量时，它将返回两个级别。

> temp.data <- data.frame('x' = sample(c('A', 'B'), 1000, replace = TRUE))
> temp.data.table <- model.matrix( ~ 0 + x, data = temp.data)
> head(temp.data.table)
  xA xB
1  1  0
2  0  1
3  0  1
4  0  1
5  1  0
6  0  1

但是，当我输入另一个二进制级别时，它仅创建3列。这是为什么？是什么使功能的行为突然不同？我该如何避免呢？

> temp.data <- data.frame('x' = sample(c('A', 'B'), 1000, replace = TRUE),
+                         'y' = sample(c('J', 'D'), 1000, replace = TRUE))
> temp.data.table <- model.matrix( ~ 0 + x + y, data = temp.data)
> head(temp.data.table)
  xA xB yJ
1  0  1  0
2  0  1  1
3  0  1  1
4  0  1  0
5  1  0  1
6  0  1  0

Answer 1

您需要使用factors并将contrasts设置为FALSE。试试这个：

n <- 10
temp.data <- data.frame('x'=sample(c('A', 'B'), n, replace=TRUE),
                        'y'=factor(sample(c('J', 'D'), n, replace=TRUE)))
model.matrix( ~ 0 + x + y, data=temp.data,
              contrasts=list(y=contrasts(temp.data$y, contrasts=FALSE)))

#    xA xB yD yJ
# 1   0  1  1  0
# 2   1  0  0  1
# 3   0  1  1  0
# 4   1  0  0  1
# 5   0  1  0  1
# 6   1  0  1  0
# 7   1  0  1  0
# 8   0  1  1  0
# 9   0  1  0  1
# 10  0  1  1  0
# attr(,"assign")
# [1] 1 1 2 2
# attr(,"contrasts")
# attr(,"contrasts")$x
# [1] "contr.treatment"
# 
# attr(,"contrasts")$y
# D J
# D 1 0
# J 0 1

要了解为什么会发生这种情况，请尝试：

contrasts(temp.data$y)
# J
# D 0
# J 1

contrasts(temp.data$y, contrasts=F)
#   D J
# D 1 0
# J 0 1

使用您的x变量，这可以通过设置0 +删除截距自动发生。（实际上x也应编码为factor。）>

原因是，在线性回归中，通常将因子变量的水平与参考水平进行比较（您可以使用relevel进行更改）。在模型矩阵中，使用0 +删除第一个变量的截距，但不去除其后的截距（尝试使用model.matrix( ~ 0 + y + x, data=temp.data)，您仅获得一个x，但得到y）。默认情况下，这是在标准contrasts设置中使用处理对比度确定的。

您可能想阅读Rose Maier（2015）

的相关文章，对此进行详细解释：

Contrasts in R

Answer 2

您需要重置因子变量的对比。参见this post。

使用model.matrix进行一次热编码

问题描述投票：2回答：2

2个回答

最新问题

使用model.matrix进行一次热编码

问题描述 投票：2回答：2

2个回答

最新问题

问题描述投票：2回答：2