我使用Python。我的分类变量-“ city”有问题。
我正在大型数据集上构建预测模型-超过100万行。我有超过100个功能。其中之一是“城市”,由33 000个不同城市。
除了例如,还有其他方法可以处理此变量。一种热编码,假人等?(例如,在使用One Hot Encoding时,我遇到了性能问题,模型中的功能太多,并且内存不足。)
有什么办法解决这个问题?
您可以使用熊猫进行数据分析。它对于大型数据集也非常有效。谢谢