使用
RandomForestClassifier
,这是当前重要的功能列表:
bill_length 0.367075
flipper_length_mm 0.196314
bill_depth 0.153329
body_mass_g 0.152304
Island_Biscoe 0.079014
Island_Dream 0.027223
Island_Torgersen 0.024742
假设有两个编码特征:
bill
(bill_length
,bill_depth
)和Island
(Island_Biscoe
,Island_Dream
,Island_Torgersen
),如何获得以下格式的特征重要性列表相反?
bill 0.520404
flipper_length_mm 0.196314
body_mass_g 0.152304
Island 0.130379
谢谢
获取整个编码特征的特征重要性的一种方法是通过总结相同概念特征的重要性来聚合它们。
但是,我个人会考虑使用另一种方法:您可以考虑使用本地处理分类特征的分类器,而不需要将它们编码为单独的虚拟变量。
XGBoost
、LightGBM
或HistGradientBoostingClassifier
等分类器可以直接处理分类特征。通过这样做,这些分类器提供了对特征重要性的更直接的解释,因为每个分类特征都被视为单个实体。