分组和计数实例?

问题描述 投票:3回答:2

是否可以使用R(dplyr)对所有其他列的实例进行分组和计数?例如,以下数据帧

x  a  b  c
1  0  0  0
1  1  0  1
1  2  2  1
2  1  2  1

转向此(注意:y是正在计算的值)

编辑: - 解释转换,x是我正在分组的,对于每个分组的数字,我想计算0和1和2被提及的次数,如在转换数据帧的第一行中,我们计算了多少在其他列(y)中,x = 1等于0,因此0在列a中一次,列b两次,列c一次

x  y  a  b  c
1  0  1  2  1
1  1  1  0  2
1  2  1  1  0
2  1  1  0  1
2  2  0  1  0
r dplyr plyr
2个回答
4
投票

我将使用来自gather包的spreadtidyr以及来自countdplyr的组合:

library(dplyr)
library(tidyr)
df = data.frame(x = c(1,1,1,2), a = c(0,1,2,1), b = c(0,0,2,2), c = c(0,1,1,1))
res = df %>% 
    gather(variable, value, -x) %>% 
    count(x, variable, value) %>% 
    spread(variable, n, fill = 0)
# Source: local data frame [5 x 5]
#
#   x value a b c
# 1 1     0 1 2 1
# 2 1     1 1 0 2
# 3 1     2 1 1 0
# 4 2     1 1 0 1
# 5 2     2 0 1 0

基本上,您首先将数据集的格式更改为:

head(df %>% 
    gather(variable, value, -x))
#  x variable value
#1 1        a     0
#2 1        a     1
#3 1        a     2
#4 2        a     1
#5 1        b     0
#6 1        b     0

这允许您使用count获取有关某些值在列ac中出现的频率的信息。之后,使用spread将数据集重新格式化为所需的格式。


5
投票

结合使用data.table或reshape2的meltdcast函数的方法:

library(data.table) # v1.9.5+
dt.new <- dcast(melt(setDT(df), id.vars="x"), x + value ~ variable)

这给了:

dt.new
#    x value a b c
# 1: 1     0 1 2 1
# 2: 1     1 1 0 2
# 3: 1     2 1 1 0
# 4: 2     1 1 0 1
# 5: 2     2 0 1 0

dcast中,您可以指定要使用的聚合函数,但在这种情况下,这不是必需的,因为默认聚合函数是length。如果不使用聚合函数,您将收到有关该函数的警告:

聚合函数缺失:默认为长度

此外,如果您没有将数据帧显式转换为数据表,data.table将重定向到reshape2(请参阅注释中@Arun的解释)。因此,此方法也可以与reshape2一起使用:

library(reshape2)
df.new <- dcast(melt(df, id.vars="x"), x + value ~ variable)

使用数据:

df <- read.table(text="x  a  b  c
1  0  0  0
1  1  0  1
1  2  2  1
2  1  2  1", header=TRUE)
© www.soinside.com 2019 - 2024. All rights reserved.