问题陈述 - 据统计证明,5组相同或不同
df['Salary']
稍微向右倾斜。我试图ANOVA和Kruskal测试。
方差分析结果
如果我使用的所有数据 - P值表明,群体统计学意义(P
如果我使用的每个基团P值增加内10K随机样本至〜0.002333
如果使用每个组的p值内1000个随机样本超过0.05,并且是顺序的〜0.5
我不知道如何评价这些成果?什么应该被视为样本的大小,我应该考虑什么其他的方法
平均值和5组的SD都低于(当我考虑每个组100,000个随机样本:
1基团 - (12.134831460674159,5.1823701530849995)
2基团 - (11.64860907759883,5.092876703946831)
3基团 - (11.660195118395315,4.952100116921575)
4基团 - (12.052747507535358,5.091383288751849)
5基团 - (11.468062169943916,4.996349965883181)
KRUSKAL结果
当样本大小= 100
KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)
当样本量万
KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)
你有一个庞大的样本大小,100K为每个组。有了这么多的数据点,你几乎肯定会找到一个统计学显著差异/结果。这些统计检验并没有真正专为这么大的样本量。
你应该用你所有的数据,以获得最好的估计,但是你将不得不使用领域知识来决定差异是否实际上是显著。你也应该看看置信区间确定的效果。
此外,方差分析,使对残差,而不是数据的正态分布的假设。