数据集中所有分类变量的 P 值为 0.0

问题描述 投票:0回答:0

我正在使用的数据集的值在各列之间变化很大。例如,这是一个结果。 这是我正在使用的代码:

` table = pd.crosstab(musicdata['genre'],musicdata['mode'], 边距 =假) 打印(表格)

stat, p, dof, expected = chi2_contingency(table)
print('dof=%d' % dof)
print(expected)
# interpret test-statistic
prob = 0.95
critical = chi2.ppf(prob, dof)
print('probability=%.3f, critical=%.3f, stat=%.3f' % (prob, critical, stat))
if abs(stat) >= critical:
 print('Dependent (reject H0)')
else:
 print('Independent (fail to reject H0)')
# interpret p-value
alpha = 1.0 - prob
print('significance=%.3f, p=%.3f' % (alpha, p))
if p <= alpha:
 print('Dependent (reject H0)')
else:
 print('Independent (fail to reject H0)')`

代码有问题吗? 这是数据集链接:https://www.kaggle.com/zaheenhamidani/ultimate-spotify-tracks-db#SpotifyFeatures.csv。我正在尝试使用卡方检验找到流派与其他分类变量之间的相关性。

我得到所有分类变量的 p 值 0.0。这是正常的吗?我需要对我的数据集做些什么来使值分布更均匀,以便获得更准确的 p 值,还是有其他方法可以找到两个分类值之间的相关性?

python data-analysis chi-squared exploratory-data-analysis
© www.soinside.com 2019 - 2024. All rights reserved.