如何预处理高基数分类功能？

Question

我有一个具有不同移动设备功能的数据文件。具有分类数据类型的一列具有1421种不同类型的值。我正在尝试训练逻辑回归模型以及我拥有的其他数据。我的问题是：上面描述的高基数列会影响我正在训练的模型吗？如果是，我该如何预处理此列以使其具有较少数量的不同值？

Answer 1

您可以在这里做的最好的事情是使用您拥有的领域知识对功能进行分组。例如手机品牌。如果您没有该信息，那么您可以按频率对功能进行分组。例如，任何未表示超过5％数据的功能，您可以将其分组为其他功能。您也可以同时使用这两种方法。欲了解更多信息，请参阅this article。

由于逻辑回归是基于距离的模型（主要是最小二乘法），它受到curse of dimensionality的影响。

希望这有助于尽管很晚。

谢谢

迈克尔

Answer 2

通常，执行降维任务（例如PCA和FA）以确定哪些特征是最重要的。

例如，在PCA是最受欢迎且易于使用的维度减少任务的情况下，重要性由值的最大变化来定义。

通过执行PCA，您可以“清除”不显着但可能导致过度拟合的变量。我建议您熟悉PCA，FA和SVD等主题。

Answer 3

您可以计算证据权重（WOE）来转换您的数字或分类变量。请参阅此链接http://www.kdnuggets.com/2016/08/include-high-cardinality-attributes-predictive-model.html以了解WOE。