是否建议对已经one-hot编码的数据进行主成分分析（PCA）

问题描述投票：0回答：1

我正在做一个项目，虽然机器学习模型做得还不错，但我觉得还可以更好。该模型可以很好地预测多数类别，但不能很好地预测少数类别。大多数类的召回率和精度分别为 84% 和 82%，而少数类的召回率和精度分别为 39% 和 52%。

我向数据中添加了更多特征，并使用 SMOTE 来平衡数据的分布，少数类别的召回率和精度分别提高到 54% 和 52%，这是一个显着的结果，但多数类别的召回率和精度仍然分别保持在 84% 和 82%。

我希望少数类的查全率和查准率都在 70% 以上，我想尝试的一种方法是对数据进行 one-hot 编码，然后使用主成分分析 (PCA) 来减小特征空间的大小，同时保留尽可能多的信息，但我不知道这是否值得推荐。

那么有谁知道是否建议对经过 one-hot 编码的数据进行主成分分析（PCA）？

machine-learning

data-science

pca

1个回答

0
投票

一般不建议对one-hot编码数据进行主成分分析（PCA）。原因是 one-hot 编码为分类特征中的每个类别创建二进制变量（0 或 1），导致稀疏矩阵包含大量零。 PCA 在处理连续变量时最有效，当数据呈正态分布且特征之间具有线性关系时，它的假设更能得到满足。