我有一个数据帧命名的数据。我想选择所有不包括名为test的一列对象和分类数据类型。
我有下面的代码,但它是选择所有列
| testid | color | age | mark |
+--------+-------+-----+------+
| a | red | 20 | pass |
| d | green | 30 | fail |
| c | blue | 40 | pass |
data = pd.DataFrame([['a', 'red', 20, 'pass'], ['d', 'green', 30, 'fail'], ['c', 'blue', 40, 'pass']], columns=['testid', 'color', 'age', 'mark'])
for i in data.select_dtypes(include=['object','category']).columns:
data[i]=le.fit_transform(data[i])
我想改造排除testid
所有行
您可以使用pd.Index.difference
:
cols = data.select_dtypes(include=['O', 'category']).columns.difference(['testid'])
for i in cols:
data[i] = le.fit_transform(data[i])
你可以把一个if语句是这样的:
for i in data.select_dtypes(include=['object','category']).columns:
if i == 'testid':
continue
data[i]=le.fit_transform(data[i])
另一个简短的解决方案:
cols = data.dtypes.isin(['O','category']).drop('testid').index
for i in cols:
data[i] = le.fit_transform(data[i])