我正在一个包含超过5k个类别的唯一值的数据集上开始一个项目。
[我的问题是,在使用标签编码器“枚举”类别之后,使用Standard Scaler使数据对于我的机器学习模型更具“可管理性”是否有意义?
请记住,在此特定列中,我总共有超过500k条目和5k个唯一类别。
这更多是关于其背后的直觉,而不是如何编码,但我认为这应该是要问的地方。
如果将LabelEncoder用于类别,则需要确保类别具有可比性。例如,对于类别['high','med','low'],项目是可比较的,因此对LabelEncoding和标准缩放它是有意义的。
但是,当您的类别无法相互比较时,对其进行标签编码将毫无意义。例如,您不能将“星期一”与“星期二”进行比较。
TL; DR如果您的类别具有可比性(普通),则很有意义。如果没有,请尝试找到减少类别的方法,有很多方法可以这样做。