我正在寻找一种通过 data.table 进行简单聚合/计数的方法。
考虑鸢尾花数据,其中每个物种有 50 个观察值。为了计算每个物种的观察结果,我必须对物种以外的列进行汇总,例如“Sepal.Length”。
library(data.table)
dt = as.data.table(iris)
dt[,length(Sepal.Length), Species]
我觉得这很令人困惑,因为乍一看,我似乎正在对 Sepal.Length 做一些事情,但实际上只有物种才是重要的。
这是我想说的,但我没有得到有效的输出:
dt[,length(Species), Species]
> dt[,length(Sepal.Length), Species]
Species V1
1: setosa 50
2: versicolor 50
3: virginica 50
> dt[,length(Species), Species]
Species V1
1: setosa 1
2: versicolor 1
3: virginica 1
data.table
有几个可以在 j
表达式中使用的符号。值得注意的是
.N
将为您提供每组中的行数。详情请参阅
?data.table
下的by
高级:按
或i分组时,j表达式中可以使用符号.SD、.BY和.N,定义如下。by
....
.N 是一个整数,长度为 1,包含组中的行数。
例如:
dt[, .N ,by = Species]
Species N
1: setosa 50
2: versicolor 50
3: virginica 50
更通用的方法是
dt[, table(col2)%>%as.data.frame, col1]
主要优点是列
col1
和 col2
可以不同,这意味着您可以计算由不同列分组的一列中的频率。