应用标签编码器后对用户Standard Scaler有意义吗？

问题描述投票：0回答：1

我正在一个包含超过5k个类别的唯一值的数据集上开始一个项目。

[我的问题是，在使用标签编码器“枚举”类别之后，使用Standard Scaler使数据对于我的机器学习模型更具“可管理性”是否有意义？

请记住，在此特定列中，我总共有超过500k条目和5k个唯一类别。

这更多是关于其背后的直觉，而不是如何编码，但我认为这应该是要问的地方。

python

machine-learning

label-encoding

1个回答

0
投票

如果将LabelEncoder用于类别，则需要确保类别具有可比性。例如，对于类别['high'，'med'，'low']，项目是可比较的，因此对LabelEncoding和标准缩放它是有意义的。

但是，当您的类别无法相互比较时，对其进行标签编码将毫无意义。例如，您不能将“星期一”与“星期二”进行比较。

TL; DR如果您的类别具有可比性（普通），则很有意义。如果没有，请尝试找到减少类别的方法，有很多方法可以这样做。