一些特征是数字的,例如“学校毕业率”,而其他特征是分类的,例如学校名称。我在分类特征上使用了标签编码器,将它们转换为整数。
我现在有一个包含浮点数和整数的数据框,分别表示数字特征和分类特征(用标签编码器转换)。
我不确定如何继续学习,我是否需要使用一种热编码?如果是这样,我该怎么做?根据我目前的理解,我不能简单地将数据帧传递给 sklearn OneHotEncoder,因为存在浮点数。我是否只需将标签编码器应用于所有功能即可解决问题?
OneHotEncoder
categorical_features
参数来选择特征是分类的:
categorical_features:“全部”或索引或掩码数组:
指定哪些特征被视为分类特征。
- ‘all’(默认):所有特征都被视为分类特征。
- 索引数组:分类特征索引数组。
mask:长度为 n_features 且 dtype=bool 的数组。
非分类特征始终堆叠在矩阵的右侧。