我有一个具有2000个值的数据库,它看起来像这样:
Status Job Hours Salary
Permanent Programmer 40 45k
Permanent Analyst 35 50k
Temporary Programmer 35 47k
Permanent Programmer 40 47k
Temporary Technician 35 50k
.
.
.
我想用这个数据库做不同的事情,你们能帮我吗?>
1:我需要计算多少程序员
是永久。并计算%。我使用了此代码,但没有用(它只计算前200名员工,而不计算2000名员工)。此外,我不知道如何使用结果来计算%:(的平均值(小时)。我试过了,但是没用:filter(database, Job == "Programmer" & Status == "Permanent")
2:我相信这比较容易,但是我也不明白。我需要计算所有Analysts
,我知道这一点,但是它不是太有效ahhahaa(很难用R开头吗?或者仅仅是我吗?)。我需要抽样50名员工,并重复此过程1000次。目的是计算90%的置信区间。我尝试过这个:if(Job == "Analyst"){mean(Hours)}
3:我需要为此使用sample
x <- 1 if(x != 1000){sample(database, 50)}
但是它行不通啊哈哈,在置信区间部分,我没有启动它。
由于有远程班,我的老师很难帮助我们,所以我们需要独自找到答案。他提供给我们的所有文档都是分布(标准,泊松,几何...)和图形(历史,箱线图...)。
非常感谢大家:)祝你有美好的一天!
我有一个具有2000个值的数据库,它看起来像这样:状态工时薪金永久程序员40 45k永久分析师35 50k临时程序员35 ...
这里是您的前两个问题的答案。假设您的小时和薪水列是数字,而45k不是字符,实际上是45000。
关于您的最后一个问题,您可以澄清一下,是否需要进行交叉验证?这就是为什么您需要样品吗?