如何恢复或转换one-hot编码列并显示原始特征的特征重要性而不是编码形式?

问题描述 投票:0回答:1

使用

RandomForestClassifier
,这是当前重要的功能列表:

bill_length          0.367075
flipper_length_mm    0.196314
bill_depth           0.153329
body_mass_g          0.152304
Island_Biscoe        0.079014
Island_Dream         0.027223
Island_Torgersen     0.024742

假设有两个编码特征:

bill
bill_length
bill_depth
)和
Island
Island_Biscoe
Island_Dream
Island_Torgersen
),如何获得以下格式的特征重要性列表相反?

bill                 0.520404
flipper_length_mm    0.196314
body_mass_g          0.152304
Island               0.130379

谢谢

random-forest feature-selection one-hot-encoding
1个回答
0
投票

获取整个编码特征的特征重要性的一种方法是通过总结相同概念特征的重要性来聚合它们。

但是,我个人会考虑使用另一种方法:您可以考虑使用本地处理分类特征的分类器,而不需要将它们编码为单独的虚拟变量。

XGBoost
LightGBM
HistGradientBoostingClassifier
等分类器可以直接处理分类特征。通过这样做,这些分类器提供了对特征重要性的更直接的解释,因为每个分类特征都被视为单个实体。

© www.soinside.com 2019 - 2024. All rights reserved.