我正在做一个项目,虽然机器学习模型做得还不错,但我觉得还可以更好。该模型可以很好地预测多数类别,但不能很好地预测少数类别。大多数类的召回率和精度分别为 84% 和 82%,而少数类的召回率和精度分别为 39% 和 52%。
我向数据中添加了更多特征,并使用 SMOTE 来平衡数据的分布,少数类别的召回率和精度分别提高到 54% 和 52%,这是一个显着的结果,但多数类别的召回率和精度仍然分别保持在 84% 和 82%。
我希望少数类的查全率和查准率都在 70% 以上,我想尝试的一种方法是对数据进行 one-hot 编码,然后使用主成分分析 (PCA) 来减小特征空间的大小,同时保留尽可能多的信息,但我不知道这是否值得推荐。
那么有谁知道是否建议对经过 one-hot 编码的数据进行主成分分析(PCA)?
一般不建议对one-hot编码数据进行主成分分析(PCA)。原因是 one-hot 编码为分类特征中的每个类别创建二进制变量(0 或 1),导致稀疏矩阵包含大量零。 PCA 在处理连续变量时最有效,当数据呈正态分布且特征之间具有线性关系时,它的假设更能得到满足。