如何在具有分类和数字特征的 pandas 数据帧上应用一种热编码?

问题描述 投票:0回答:1

一些特征是数字的,例如“学校毕业率”,而其他特征是分类的,例如学校名称。我在分类特征上使用了标签编码器,将它们转换为整数。

我现在有一个包含浮点数和整数的数据框,分别表示数字特征和分类特征(用标签编码器转换)。

我不确定如何继续学习,我是否需要使用一种热编码?如果是这样,我该怎么做?根据我目前的理解,我不能简单地将数据帧传递给 sklearn OneHotEncoder,因为存在浮点数。我是否只需将标签编码器应用于所有功能即可解决问题?

Sample data from my dataframe. OPEID and opeid6 were transformed using a label encoder

python-2.7 machine-learning scikit-learn sklearn-pandas one-hot-encoding
1个回答
0
投票

只需使用

OneHotEncoder
categorical_features
参数来选择特征是分类的:

categorical_features:“全部”或索引或掩码数组:

指定哪些特征被视为分类特征。

  • ‘all’(默认):所有特征都被视为分类特征。
  • 索引数组:分类特征索引数组。
  • mask:长度为 n_features 且 dtype=bool 的数组。

    非分类特征始终堆叠在矩阵的右侧。

© www.soinside.com 2019 - 2024. All rights reserved.