我一直在寻找一种矢量化分类变量的方法,然后我遇到了category_encoders。它支持多种分类方法。
我尝试过TargetEncoder和BinaryEncoder,但是文档没有解释它的工作原理吗?
如果有人能解释目标编码器和二进制编码器如何工作以及它们与一个热编码的区别,我真的很感激?
目标编码将分类变量映射到目标变量的平均值。在使用目标时,必须采取措施以避免过度拟合(通常使用平滑处理)。
二进制编码将每个整数转换为二进制数字,每个二进制数字具有一列。它本质上是一种特征散列的形式。
两者都有助于降低分类变量的基数,这有助于提高某些模型的性能,尤其是基于树的模型。