交叉验证中的平衡类

问题描述 投票:2回答:2

我想用H2O建立GBM模型。我的数据集不平衡,所以我正在使用balance_classes参数。对于网格搜索(参数调整),我想使用5倍交叉验证。我想知道在这种情况下H2O如何处理类平衡。只有训练倍数会重新平衡吗?我想确保测试折叠不重新平衡。

谢谢。

machine-learning cross-validation h2o gbm imbalanced-data
2个回答
4
投票

在类不平衡设置中,人为地平衡测试/验证集没有任何意义:这些集必须保持realistic,即您要在现实世界中测试分类器的性能,例如,否定类别将包括99%的样本,以便了解您的模型在预测1%正面兴趣类别而没有太多误报的情况下的表现如何。人为地夸大少数派或减少少数派将导致性能指标不切实际,与您要解决的现实问题没有任何实际联系。

重新平衡仅在训练集中才有意义,以防止分类器将所有实例简单且天真地分类为负,以达到99%的感知准确性。

因此,您可以放心,在您描述的设置中,重新平衡仅适用于训练组/折叠次数。


0
投票

强制平衡的一种方法是使用权重列在H2O weights_column中为不同的类别使用不同的权重>

© www.soinside.com 2019 - 2024. All rights reserved.