LabelEncoder:在'float'和'str'的实例之间不支持TypeError:'>'

问题描述 投票:33回答:3

即使处理缺失值,我也面临多个变量的错误。例如:

le = preprocessing.LabelEncoder()
categorical = list(df.select_dtypes(include=['object']).columns.values)
for cat in categorical:
    print(cat)
    df[cat].fillna('UNK', inplace=True)
    df[cat] = le.fit_transform(df[cat])
#     print(le.classes_)
#     print(le.transform(le.classes_))


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-24-424a0952f9d0> in <module>()
      4     print(cat)
      5     df[cat].fillna('UNK', inplace=True)
----> 6     df[cat] = le.fit_transform(df[cat].fillna('UNK'))
      7 #     print(le.classes_)
      8 #     print(le.transform(le.classes_))

C:\Users\paula.ceccon.ribeiro\AppData\Local\Continuum\Anaconda3\lib\site-packages\sklearn\preprocessing\label.py in fit_transform(self, y)
    129         y = column_or_1d(y, warn=True)
    130         _check_numpy_unicode_bug(y)
--> 131         self.classes_, y = np.unique(y, return_inverse=True)
    132         return y
    133 

C:\Users\paula.ceccon.ribeiro\AppData\Local\Continuum\Anaconda3\lib\site-packages\numpy\lib\arraysetops.py in unique(ar, return_index, return_inverse, return_counts)
    209 
    210     if optional_indices:
--> 211         perm = ar.argsort(kind='mergesort' if return_index else 'quicksort')
    212         aux = ar[perm]
    213     else:

TypeError: '>' not supported between instances of 'float' and 'str'

检查导致错误的变量导致ins:

df['CRM do Médico'].isnull().sum()
0

除了nan值,还有什么可能导致这个错误?

python pandas scikit-learn
3个回答
90
投票

这是由于包含具有不同数据类型的元素的系列df[cat],例如(字符串和/或浮点数)。这可能是由于数据被读取的方式,即数字被读取为float,文本被读取为字符串,或者数据类型是float并且在fillna操作之后被更改。

换一种说法

pandas数据类型'Object'表示混合类型而不是str类型

所以使用以下行:

df[cat] = le.fit_transform(df[cat].astype(str))

应该有所帮助


1
投票

由于字符串数据类型具有可变长度,因此默认情况下将其存储为对象类型。在处理缺失值后我也遇到了这个问题。在我的情况下,在标签编码之前将所有这些列转换为类型'category'。

df[cat]=df[cat].astype('category')

然后检查df.dtypes并执行标签编码。


0
投票

或者使用具有分裂到均匀类型的str的强制转换

unique, counts = numpy.unique(str(a).split(), return_counts=True)
© www.soinside.com 2019 - 2024. All rights reserved.