Sagemaker-随机砍伐森林-特征归一化？预处理？

我在理解RCF算法时遇到困难，尤其是它如何期望/预期数据或应该完成的预处理？例如，我具有大约50万条记录的以下数据/功能（带有示例值）：

我的RCF模型的结果（在50万条记录上针对57个特征进行了训练-数量，30个国家/地区被虚拟化，以及26个类别被虚拟化）（例如，所有异常均高于大约1000.00，绝对没有基于变化的结果）在国家或类型上）。

此外，我还对金额字段进行了归一化，其结果也不是那么强。实际上，可以肯定地说我的结果非常糟糕，我显然对此一无所知。

[总体而言，我正在寻找正确使用功能的指南（同样-1个数量字段和2个分类为1和0的虚拟字段-导致大约57个字段）。我想知道我是否会喜欢kmeans。

我浏览了大多数可用的文档（https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_how-it-works.html），但找不到任何描述此内容的信息！

非常感谢您的提前帮助！

编辑：不确定在这一点上是否至关重要，在这一点上我什至没有半合理的结果，但是我使用了以下超参数：num_samples_per_tree = 256，num_trees = 100

0
投票

我从未使用过Amazon RCF，但是通常，在使用One Hot Encoding（或虚拟编码）时，基于树的模型的性能不是特别好。从这个意义上讲，我宁愿使用数字编码（将数字从1分配给len（类别））或二进制编码器（相同的东西，但使用二进制变量）。这应该允许树在这些变量上具有更有意义的划分。

就超参数而言，很难说num_samples_per_trees取决于您期望的异常值的比率，而num_trees将影响每个分区中的数据量，因此会影响单个树的大小，因此取决于大小数据集。

尝试更改这些内容，如果看不到任何改进，可以尝试其他方法。但是我确实建议在Kmeans上使用DBSCAN，但是据我所知，它们都需要定义点之间的距离或度量，这并非易事，因为您使用的是混合分类数值变量