使用列进行交叉验证折叠

问题描述 投票:-1回答:1

我有一个数据集,包含超过100k行和大约1k列,包括binary classification预测问题的目标列。我在H2O中使用python GBM(最新的3.30xx),具有5倍交叉验证和80-20的火车测试拆分。我注意到,H2O会自动对其进行分层,这很好。我的问题是,我有一个产品的整个数据集,其中有一些子产品作为单独的列或组。这些子产品中的每一个都有5k至10k行的合理大小,因此最好检查一下我认为的每个产品的单独模型。我正在寻找是否可以指定此子产品组用于H2O模型培训中的交叉验证。目前,在进行火车测试拆分时,我正在遍历这些子产品,因为根据目前为止我阅读的文档,我尚不清楚如何进行此拆分。我可以在H2O中使用任何选项来直接将此子产品列用于交叉验证吗?这样,我就不必控制脚本中的所有模型输出。我希望问题清楚。如果没有,请告诉我。谢谢。

python machine-learning h2o
1个回答
0
投票

fold_column选项有效,文档中有一些简短示例:http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2o.grid.H2OGridSearch

© www.soinside.com 2019 - 2024. All rights reserved.