数据集中所有分类变量的 P 值为 0.0

Question

我正在使用的数据集的值在各列之间变化很大。例如，这是一个结果。这是我正在使用的代码：

` table = pd.crosstab(musicdata['genre'],musicdata['mode'], 边距 =假）打印（表格）

stat, p, dof, expected = chi2_contingency(table)
print('dof=%d' % dof)
print(expected)
# interpret test-statistic
prob = 0.95
critical = chi2.ppf(prob, dof)
print('probability=%.3f, critical=%.3f, stat=%.3f' % (prob, critical, stat))
if abs(stat) >= critical:
 print('Dependent (reject H0)')
else:
 print('Independent (fail to reject H0)')
# interpret p-value
alpha = 1.0 - prob
print('significance=%.3f, p=%.3f' % (alpha, p))
if p <= alpha:
 print('Dependent (reject H0)')
else:
 print('Independent (fail to reject H0)')`

代码有问题吗？这是数据集链接：https://www.kaggle.com/zaheenhamidani/ultimate-spotify-tracks-db#SpotifyFeatures.csv。我正在尝试使用卡方检验找到流派与其他分类变量之间的相关性。

我得到所有分类变量的 p 值 0.0。这是正常的吗？我需要对我的数据集做些什么来使值分布更均匀，以便获得更准确的 p 值，还是有其他方法可以找到两个分类值之间的相关性？

数据集中所有分类变量的 P 值为 0.0

问题描述投票：0回答：0

最新问题

数据集中所有分类变量的 P 值为 0.0

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0