对单个表数据使用特征工具的正确方法是什么?

问题描述 投票:0回答:1

假设我有一个包含单个表的数据集,例如,您可以考虑kaggle上的泰坦尼克号数据集。

现在,使用特征工具获得最大收益的正确方法是什么?因为featuretools特别用于关系数据。

现在是'适当的',我的意思是,我知道在创建实体集时,索引参数将只是数据集的索引,但是在规范实体时我的新索引应该是什么?盲目使用RFE进行特征选择还可以吗?

data-science feature-selection feature-engineering featuretools
1个回答
0
投票

通过标准化实体集,您可以从Featuretools中获得最大的收益。实体集规格化的程度越高,DFS可以利用关系结构生成更好的功能的可能性就越大。

标准化过程的目标是消除冗余数据。因此,带有附加变量的新索引应该是有助于实现该目标的索引。 guide在根据非规范化表创建实体时更加深入。

对于特征选择,我认为可以合理地将RFE与目标结合使用,以提高准确性并降低模型的复杂性。

© www.soinside.com 2019 - 2024. All rights reserved.