应用标签编码器后对用户Standard Scaler有意义吗?

问题描述 投票:0回答:1

我正在一个包含超过5k个类别的唯一值的数据集上开始一个项目。

[我的问题是,在使用标签编码器“枚举”类别之后,使用Standard Scaler使数据对于我的机器学习模型更具“可管理性”是否有意义?

请记住,在此特定列中,我总共有超过500k条目和5k个唯一类别。

这更多是关于其背后的直觉,而不是如何编码,但我认为这应该是要问的地方。

python machine-learning label-encoding
1个回答
0
投票

如果将LabelEncoder用于类别,则需要确保类别具有可比性。例如,对于类别['high','med','low'],项目是可比较的,因此对LabelEncoding和标准缩放它是有意义的。

但是,当您的类别无法相互比较时,对其进行标签编码将毫无意义。例如,您不能将“星期一”与“星期二”进行比较。

TL; DR如果您的类别具有可比性(普通),则很有意义。如果没有,请尝试找到减少类别的方法,有很多方法可以这样做。

© www.soinside.com 2019 - 2024. All rights reserved.