在Python中进行批量评分时处理类别变量中缺少的级别

问题描述 投票:1回答:1

我遇到了一个独特的问题。我的模型在DNN框架上进行了训练,并且模型参数已保存,我现在正在使用它们对数据进行评分。由于我的数据非常庞大,因此我要对数据进行批处理。我在创建批次之前没有对类别变量进行热编码,因为当我将其应用于完整数据集时,Onehotencode函数会遇到内存错误。这使我探索了批处理中热编码的选项,但是,由于所有批处理在分类变量中均未包含所有级别的值,因此该方法失败了。如果有人遇到类似问题,您可以推荐或建议解决方法吗?

python encoding categorical-data one-hot-encoding
1个回答
0
投票

我认为,如果我们知道您的数据结构,此问题将更容易回答。您是否尝试过将数据加载到pandas数据框中并用虚拟值替换丢失的数据?然后将对它们进行热编码,您可以对其进行相应的处理。

© www.soinside.com 2019 - 2024. All rights reserved.