计算一个变量(工资)的平均值和sd,取决于另一个变量(工作满意度)。

问题描述 投票:0回答:1

我在数据集上有两列,我知道我必须使用函数ddply和summaryise,但我不知道如何开始。

r plyr
1个回答
1
投票

希望这个能让你入门。

data %>%
  group_by(Satisfaction) %>%
  summarise(Mean = mean(Salary),
            SD = sd(Salary))
# A tibble: 7 x 3
  Satisfaction    Mean     SD
         <int>   <dbl>  <dbl>
1            1  12481.  1437.
2            2  31965.  5235.
3            3  45844.  7631.
4            4  69052.  9257.
5            5  79555. 12975.
6            6 100557. 13739.
7            7 111414. 19139.

首先,你应该使用 group_by 动词来对你感兴趣的变量进行数据分组。然后,正如你所提到的,你可以使用 summarise 动词来执行分组数据的功能。您可以同时执行多个功能,通过用新的列隔开您要制作的 ,.

回顾 %>% 管道操作符将一个函数的输出引导到下一个函数作为第一个参数。

示例数据:

set.seed(3)
data <- data.frame(Salary = sapply(rep(1:7,each = 10), function(x){floor(runif(1,x*10000,x*20000))}),
                   Satisfaction = rep(1:7,each = 10))
© www.soinside.com 2019 - 2024. All rights reserved.