不同的数据类型会影响特征选择算法的规范化

问题描述投票：0回答：1

假设我们的数据集有1000个数据（矩阵行）和700个要素（矩阵列）。我想运行各种类型的特征选择算法以找到最佳特征。这个数据集的特征彼此不同，我想说的是这些数据中的一些是离散的（例如，数据集特征之一是血液类型，并且具有不同的A，B，AB和o类型。我们将此功能转移到1,2,3和4。），其中一些仍在继续。

这是我的问题，如果我将这些数据标准化，然后将其传递给某些特征选择算法，我是否会通过标准化而丢失信息？如果我同时对离散特征和连续特征进行归一化，是否会对特征选择算法的结果产生影响？

machine-learning

dataset

data-mining

feature-extraction

feature-selection

1个回答

0
投票

[特征选择的几种方法。您可以标准化值。如果是标签特征（例如血液类型），则可以将值转换为二进制值或整数。

无论如何，在选择了哪些特征后，您需要使用eigenvalues（主成分分析）中最大的eigenvectors（EV）及其对应的PCA进行表示。由于较大的EV表示该数据方向上的差异更大，因此在隔离功能后可以得到更大的粒度。这是减少问题尺寸的好方法。
现在，在减少要素数量之后，可能不会选择转换后的要素。但是请记住：由于某种原因未选择它！（因为特征选择算法选择排除它们）。
在大多数情况下，您不必为此担心。但是，如果您确实想要保留功能，则>]

不同的数据类型会影响特征选择算法的规范化

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1