一种热编码后如何预处理测试数据

Question

我在这里有点困惑，我对所有<10个唯一值low_cardinality_cols的分类列进行了热编码，并删除了训练和验证数据的其余分类列。

现在，我打算将模型应用于test.csv中的新数据。预处理测试数据以匹配训练/验证格式的最佳方法是什么？

我担心的是：1.对于这些列，Test_data.csv当然具有不同的基数2.如果我使用训练中的低基数列对测试数据进行热编码，则会得到Input contains NaN，但我的火车的有效列和测试列都为相同编号。

下面是一个热编码示例，用于kaggle竞赛/中级课程here

# Apply one-hot encoder to each column with categorical data
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[low_cardinality_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[low_cardinality_cols]))

# One-hot encoding removed index; put it back
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Remove categorical columns (will replace with one-hot encoding)
# This also saves us the hassle of dropping columns 

num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

# Add one-hot encoded columns to numerical features
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

我在这里有点困惑，我对所有<10个唯一值low_cardinality_cols的分类列进行了热编码，并删除了Training和...的剩余分类列。]

Answer 1

据我所知，有两种可能的解决方案，在此我将举例说明，您可以选择适合您的任何一种。

解决方案1

一种热编码后如何预处理测试数据

问题描述投票：1回答：1

1个回答

最新问题

一种热编码后如何预处理测试数据

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1