如何在随机森林模型培训中最好地使用邮政编码？

问题描述投票：3回答：2

我有一个带有zipcode列的数据集。它们在输出中有一些意义，我想用它作为一个功能。我正在使用随机森林模型。

我需要一个关于使用zipcode列作为功能的最佳方法的建议。（例如，我应该为该zipcode获得lat / long而不是直接提供zipcodes等）

提前致谢！！

machine-learning

random-forest

h2o

feature-selection

zipcode

2个回答

3
投票

处理邮政编码或任何高基数分类列的常用方法称为“目标编码”或“影响编码”。在H2O中，您可以将target encoding应用于任何分类列。从H2O 3.20开始，这仅适用于R，但在下一个稳定版本3.22中，它将在所有客户端提供（JIRA门票here）。

如果您正在使用R，我的建议是尝试目标编码以及Lauren提到的GLRM方法并比较结果。如果您使用的是Python或其他语言，那么现在尝试使用GLRM，并在H2O 3.22发布时尝试使用目标编码。

1
投票

我是Erin LeDell关于目标编码的第二部分。

以下是一些其他选项，并非所有选项都适用：