不同的数据类型会影响特征选择算法的规范化

问题描述 投票:0回答:1

假设我们的数据集有1000个数据(矩阵行)和700个要素(矩阵列)。我想运行各种类型的特征选择算法以找到最佳特征。这个数据集的特征彼此不同,我想说的是这些数据中的一些是离散的(例如,数据集特征之一是血液类型,并且具有不同的A,B,AB和o类型。我们将此功能转移到1,2,3和4。),其中一些仍在继续。

这是我的问题,如果我将这些数据标准化,然后将其传递给某些特征选择算法,我是否会通过标准化而丢失信息?如果我同时对离散特征和连续特征进行归一化,是否会对特征选择算法的结果产生影响?

machine-learning dataset data-mining feature-extraction feature-selection
1个回答
0
投票

[特征选择的几种方法。您可以标准化值。如果是标签特征(例如血液类型),则可以将值转换为二进制值或整数。

无论如何,在选择了哪些特征后,您需要使用eigenvalues(主成分分析)中最大的eigenvectors(EV)及其对应的PCA进行表示。由于较大的EV表示该数据方向上的差异更大,因此在隔离功能后可以得到更大的粒度。这是减少问题尺寸的好方法。

现在,在减少要素数量之后,可能不会选择转换后的要素。但是请记住:由于某种原因未选择它!(因为特征选择算法选择排除它们)。

在大多数情况下,您不必为此担心。但是,如果您确实想要保留功能,则>]

© www.soinside.com 2019 - 2024. All rights reserved.