我想在 python 中对我的数据集中的一些分类特征进行卡方检验,以去除一些高度相关的特征。我注意到有
sklearn.feature_selection.chi2
函数可用于在特征 X
和目标 y
之间执行卡方检验以进行特征选择。
我可以使用这个函数来比较特征对吗(在这种情况下,
X
和 y
都是特征),而不是在特征和目标之间进行比较(我已经这样做了) ?换句话说,这个函数是专门用于将特征与目标进行比较,还是可以用于测试特征对的普通卡方检验?
编辑:所有特征都是binary(one-hot编码的结果)。
编辑#2:也许我应该使用
scipy.stats.chi2_contingency
?