假设我有一个包含单个表的数据集,例如,您可以考虑kaggle上的泰坦尼克号数据集。
现在,使用特征工具获得最大收益的正确方法是什么?因为featuretools特别用于关系数据。
现在是'适当的',我的意思是,我知道在创建实体集时,索引参数将只是数据集的索引,但是在规范实体时我的新索引应该是什么?盲目使用RFE进行特征选择还可以吗?
通过标准化实体集,您可以从Featuretools中获得最大的收益。实体集规格化的程度越高,DFS可以利用关系结构生成更好的功能的可能性就越大。
标准化过程的目标是消除冗余数据。因此,带有附加变量的新索引应该是有助于实现该目标的索引。 guide在根据非规范化表创建实体时更加深入。
对于特征选择,我认为可以合理地将RFE与目标结合使用,以提高准确性并降低模型的复杂性。