我有一个带有zipcode列的数据集。它们在输出中有一些意义,我想用它作为一个功能。我正在使用随机森林模型。
我需要一个关于使用zipcode列作为功能的最佳方法的建议。 (例如,我应该为该zipcode获得lat / long而不是直接提供zipcodes等)
提前致谢 !!
处理邮政编码或任何高基数分类列的常用方法称为“目标编码”或“影响编码”。在H2O中,您可以将target encoding应用于任何分类列。从H2O 3.20开始,这仅适用于R,但在下一个稳定版本3.22中,它将在所有客户端提供(JIRA门票here)。
如果您正在使用R,我的建议是尝试目标编码以及Lauren提到的GLRM方法并比较结果。如果您使用的是Python或其他语言,那么现在尝试使用GLRM,并在H2O 3.22发布时尝试使用目标编码。
我是Erin LeDell关于目标编码的第二部分。
以下是一些其他选项,并非所有选项都适用: