如何处理超过33000个城市的分类变量?

问题描述 投票:0回答:1

我使用Python。我的分类变量-“ city”有问题。

我正在大型数据集上构建预测模型-超过100万行。我有超过100个功能。其中之一是“城市”,由33 000个不同城市

组成

除了例如,还有其他方法可以处理此变量。一种热编码,假人等?(例如,在使用One Hot Encoding时,我遇到了性能问题,模型中的功能太多,并且内存不足。)

有什么办法解决这个问题?

python forecasting
1个回答
0
投票

您可以使用熊猫进行数据分析。它对于大型数据集也非常有效。谢谢

© www.soinside.com 2019 - 2024. All rights reserved.