在R数据帧中聚合两列

问题描述 投票:0回答:3

我在R中有一个名为food的数据框:

foodID   calories   fat    protein

 123       0.5      0.4     0.9
 432       0.65     0.3     0.7
 123       0.32     0.6     0.5
 983       0.82     0.2     0.6

而我正试图通过foodID平均卡路里和蛋白质列。

我试过了:

cal_pro <- aggregate(food[2,4], list(food$foodID), function(df) mean(df))

但似乎我无法通过食物选择要应用平均功能的列[2,4]?任何人都可以帮我解决这个问题。

r
3个回答
1
投票

使用dplyr,你可以只使用group_bysummarize

food %>%
    group_by(foodID) %>%
    summarize(calories_average = mean(calories),
              protein_average = mean(protein))

# A tibble: 3 x 3
  foodID calories_average protein_average
   <int>            <dbl>           <dbl>
1    123             0.41             0.7
2    432             0.65             0.7
3    983             0.82             0.6

您可以使用summarize_at选择多个变量来一次汇总,而不是指定每个变量。我们传递了两个参数:要汇总的变量,以及要应用于它们的函数列表。如果列表已命名,就像在此处一样,那么名称将作为后缀添加到摘要列中(给出“calores_average”和“protein_average”:

food %>%
    group_by(foodID) %>%
    summarize_at(c('calories', 'protein'), list(average = mean))

summarize_at还允许您使用各种辅助函数通过前缀,后缀或正则表达式选择变量(如下所示)。你可以在这里了解更多关于它们的信息:?tidyselect::select_helpers

food %>%
    group_by(foodID) %>%
    summarize_at(vars(matches('calories|protein')), list(average = mean))

0
投票

我们可以使用公式方法

aggregate(cbind(calories, protein) ~ foodID, food, mean)

或者使用OP的代码,它应该是c(2,4),因为如果我们做2, 4,它是通过行/列索引选择第4列的第2行

aggregate(food[c(2, 4)], list(food$foodID), mean)

编辑:基于@RuiBarradas评论


0
投票

你可以使用data.table包 -

> setDT(dt)[,list(avg_calorie=mean(calories),avg_protein=mean(protein)),by=foodID]

输出 -

    foodID avg_calorie avg_protein
1:    123        0.41         0.7
2:    432        0.65         0.7
3:    983        0.82         0.6
© www.soinside.com 2019 - 2024. All rights reserved.