是否建议对已经one-hot编码的数据进行主成分分析(PCA)

问题描述 投票:0回答:1

我正在做一个项目,虽然机器学习模型做得还不错,但我觉得还可以更好。该模型可以很好地预测多数类别,但不能很好地预测少数类别。大多数类的召回率和精度分别为 84% 和 82%,而少数类的召回率和精度分别为 39% 和 52%。

我向数据中添加了更多特征,并使用 SMOTE 来平衡数据的分布,少数类别的召回率和精度分别提高到 54% 和 52%,这是一个显着的结果,但多数类别的召回率和精度仍然分别保持在 84% 和 82%。

我希望少数类的查全率和查准率都在 70% 以上,我想尝试的一种方法是对数据进行 one-hot 编码,然后使用主成分分析 (PCA) 来减小特征空间的大小,同时保留尽可能多的信息,但我不知道这是否值得推荐。

那么有谁知道是否建议对经过 one-hot 编码的数据进行主成分分析(PCA)?

machine-learning data-science pca
1个回答
0
投票

一般不建议对one-hot编码数据进行主成分分析(PCA)。原因是 one-hot 编码为分类特征中的每个类别创建二进制变量(0 或 1),导致稀疏矩阵包含大量零。 PCA 在处理连续变量时最有效,当数据呈正态分布且特征之间具有线性关系时,它的假设更能得到满足。

© www.soinside.com 2019 - 2024. All rights reserved.