Sagemaker-随机砍伐森林-特征归一化?预处理?

问题描述 投票:1回答:1

我在理解RCF算法时遇到困难,尤其是它如何期望/预期数据或应该完成的预处理?例如,我具有大约50万条记录的以下数据/功能(带有示例值):

valuesandheader

我的RCF模型的结果(在50万条记录上针对57个特征进行了训练-数量,30个国家/地区被虚拟化,以及26个类别被虚拟化)(例如,所有异常均高于大约1000.00,绝对没有基于变化的结果)在国家或类型上)。

此外,我还对金额字段进行了归一化,其结果也不是那么强。实际上,可以肯定地说我的结果非常糟糕,我显然对此一无所知。

[总体而言,我正在寻找正确使用功能的指南(同样-1个数量字段和2个分类为1和0的虚拟字段-导致大约57个字段)。我想知道我是否会喜欢kmeans。

我浏览了大多数可用的文档(https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_how-it-works.html),但找不到任何描述此内容的信息!

非常感谢您的提前帮助!

编辑:不确定在这一点上是否至关重要,在这一点上我什至没有半合理的结果,但是我使用了以下超参数:num_samples_per_tree = 256,num_trees = 100

scikit-learn amazon-sagemaker feature-engineering
1个回答
0
投票

我从未使用过Amazon RCF,但是通常,在使用One Hot Encoding(或虚拟编码)时,基于树的模型的性能不是特别好。从这个意义上讲,我宁愿使用数字编码(将数字从1分配给len(类别))或二进制编码器(相同的东西,但使用二进制变量)。这应该允许树在这些变量上具有更有意义的划分。

就超参数而言,很难说num_samples_per_trees取决于您期望的异常值的比率,而num_trees将影响每个分区中的数据量,因此会影响单个树的大小,因此取决于大小数据集。

尝试更改这些内容,如果看不到任何改进,可以尝试其他方法。但是我确实建议在Kmeans上使用DBSCAN,但是据我所知,它们都需要定义点之间的距离或度量,这并非易事,因为您使用的是混合分类数值变量

© www.soinside.com 2019 - 2024. All rights reserved.