如何在随机森林模型培训中最好地使用邮政编码?

问题描述 投票:3回答:2

我有一个带有zipcode列的数据集。它们在输出中有一些意义,我想用它作为一个功能。我正在使用随机森林模型。

我需要一个关于使用zipcode列作为功能的最佳方法的建议。 (例如,我应该为该zipcode获得lat / long而不是直接提供zipcodes等)

提前致谢 !!

machine-learning random-forest h2o feature-selection zipcode
2个回答
3
投票

处理邮政编码或任何高基数分类列的常用方法称为“目标编码”或“影响编码”。在H2O中,您可以将target encoding应用于任何分类列。从H2O 3.20开始,这仅适用于R,但在下一个稳定版本3.22中,它将在所有客户端提供(JIRA门票here)。

如果您正在使用R,我的建议是尝试目标编码以及Lauren提到的GLRM方法并比较结果。如果您使用的是Python或其他语言,那么现在尝试使用GLRM,并在H2O 3.22发布时尝试使用目标编码。


1
投票

我是Erin LeDell关于目标编码的第二部分。

以下是一些其他选项,并非所有选项都适用:

  • 将邮政编码的粒度减少到前1,2,3或4位数。因此邮政编码90210变为902(902XX)并代表洛杉矶县。 902 zipcodes
  • 你能用MSACBSA分组邮政编码吗?
  • 是否有关于邮政编码的功能可以附加,即城市/城市/农村等。
  • 你可以提供一些邮政编码人口统计,人口规模或收入
  • 到/从关键位置(机场,市中心等)的距离
  • 目标编码然后分组到非常高,高,中和低(或任何有意义的)example这将有助于防止过度训练你的模型。
© www.soinside.com 2019 - 2024. All rights reserved.