在pandas数据框中重新分类列

Question

我正在尝试为存储在pandas dataframe train中的数据构建一个简单的分类模型。为了使这个模型更有效，我创建了一个列名列表，列出了我知道的列，用于存储分类数据，称为category_cols。我将这些列分类如下：

# Define the lambda function: categorize_label
categorize_label = lambda x: x.astype('category')

# Convert train[category_cols] to a categorical type
train[category_cols] = train[category_cols].apply(categorize_label, axis=0)

我的目标变量material是分类的，并且可以分配64个唯一标签。然而，这些标签中的一些仅在train中出现一次，这对于很好地训练模型来说太少了。所以我想过滤train中有这些稀有材料标签的任何观察结果。这个answer提供了一个有用的groupby +过滤器组合：

print('Num rows: {}'.format(train.shape[0]))
print('Material labels: {}'.format(len(train['material'].unique())))

min_count = 5
filtered = train.groupby('material').filter(lambda x: len(x) > min_count)
print('Num rows: {}'.format(filtered.shape[0]))
print('Material labels: {}'.format(len(filtered['material'].unique())))
----------------------
Num rows: 19999
Material labels: 64
Num rows: 19963
Material labels: 45

这很有效，因为它使用稀有材料标签过滤观察结果。然而，category类型的引擎盖似乎保持material以前的所有值，即使它们被过滤后。这在尝试创建虚拟变量时会出现问题，即使我尝试重新运行相同的分类方法也会发生这种情况：

filtered[category_cols] = filtered[category_cols].apply(categorize_label, axis=0)
print(pd.get_dummies(train['material']).shape)
print(pd.get_dummies(filtered['material']).shape)
----------------------
(19999, 64)
(19963, 64)

我原本预计过滤后的假人的形状是（19963,45）。但是，pd.get_dummies包含在filtered中没有外观的标签列。我认为这与category类型的工作原理有关。如果是这样，有人可以解释如何重新分类列吗？或者，如果这不可能，如何摆脱过滤的假人中不必要的列？

谢谢！

Answer 1

你可以使用category.cat.remove_unused_categories：

Usage

df['category'].cat.remove_unused_categories(inplace=True)

Example

df = pd.DataFrame({'label': list('aabbccd'),
                   'value': [1] * 7})
print(df)

  label  value
0     a      1
1     a      1
2     b      1
3     b      1
4     c      1
5     c      1
6     d      1

让我们将label设置为类型类别

df['label'] = df.label.astype('category')
print(df.label)

0    a
1    a
2    b
3    b
4    c
5    c
6    d
Name: label, dtype: category
Categories (4, object): [a, b, c, d]

过滤DataFrame去除label d

df = df[df.label.ne('d')]
print(df)

  label  value
0     a      1
1     a      1
2     b      1
3     b      1
4     c      1
5     c      1

删除未使用的类别

df.label.cat.remove_unused_categories(inplace=True)
print(df.label)

0    a
1    a
2    b
3    b
4    c
5    c
Name: label, dtype: category
Categories (3, object): [a, b, c]

Answer 2

根据this answer，这可以通过重新索引和转置虚拟数据帧来解决：

labels = filtered['material'].unique()

dummies = pd.get_dummies(filtered['material'])
dummies = dummies.T.reindex(labels).T
print(dummies.shape)
----------------------
(19963, 45)

在pandas数据框中重新分类列

问题描述投票：2回答：2

2个回答

Usage

Example

最新问题

在pandas数据框中重新分类列

问题描述 投票：2回答：2

2个回答

Usage

Example

最新问题

问题描述投票：2回答：2