5个不同组的参数或非参数试验组

问题描述 投票:0回答:1

问题陈述 - 据统计证明,5组相同或不同

  • 我的工作与数据集大小〜60万的问题。
  • 有5个组说[A,B,C,d,E]和每组周围〜100k的观察相应的薪水。

df['Salary']稍微向右倾斜。我试图ANOVA和Kruskal测试。

方差分析结果

如果我使用的所有数据 - P值表明,群体统计学意义(P

如果我使用的每个基团P值增加内10K随机样本至〜0.002333

如果使用每个组的p值内1000个随机样本超过0.05,并且是顺序的〜0.5

我不知道如何评价这些成果?什么应该被视为样本的大小,我应该考虑什么其他的方法

平均值和5组的SD都低于(当我考虑每个组100,000个随机样本:

1基团 - (12.134831460674159,5.1823701530849995)

2基团 - (11.64860907759883,5.092876703946831)

3基团 - (11.660195118395315,4.952100116921575)

4基团 - (12.052747507535358,5.091383288751849)

5基团 - (11.468062169943916,4.996349965883181)

KRUSKAL结果

当样本大小= 100

KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)

当样本量万

KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)

Distribution of Avg salary - Total population of ~600k

statistics anova t-test
1个回答
0
投票

你有一个庞大的样本大小,100K为每个组。有了这么多的数据点,你几乎肯定会找到一个统计学显著差异/结果。这些统计检验并没有真正专为这么大的样本量。

你应该用你所有的数据,以获得最好的估计,但是你将不得不使用领域知识来决定差异是否实际上是显著。你也应该看看置信区间确定的效果。

此外,方差分析,使对残差,而不是数据的正态分布的假设。

© www.soinside.com 2019 - 2024. All rights reserved.