Weka PCA中的排名告诉我们有关特征选择的什么?

问题描述 投票:-3回答:1

我的数据集是31000行,具有13个属性。但是因为大多数是分类的,所以我不得不对这些属性使用NominalToBinary,因此属性增加到61。

我已经将数据采样到18000行,并在Weka中将PCA与排名应用了。 centerData为false,因此应为我对其进行规范化。

这是我的结果:

 0.945     1 -0.367Marial_Status= Married-civ-spouse-0.365Relationship= Husband+0.298Marial_Status= Never-married+0.244Age=0_23+0.232Gender= Female...

我知道排名是差异。那么排名1是94.5%?现在,我在选择功能时遇到的问题是如何知道要保留哪些功能?这些属性大多数都是分类的,对于PCA更改为数字。因此,对于具有分类和数值的原始数据集,对于此输出,它对特征选择有何看法?

我的数据集是31000行,具有13个属性。但是因为大多数是分类的,所以我不得不对这些属性使用NominalToBinary,因此属性增加到61。我将数据采样到...

machine-learning data-science weka pca feature-selection
1个回答
0
投票

PCA假定为数值数据。如果对分类变量进行二进制编码,则基本上会费劲,并使数据符合模型假设。

© www.soinside.com 2019 - 2024. All rights reserved.