跨多个模型的交叉验证折叠的一致性

问题描述 投票:0回答:1

我目前正在做一个机器学习项目,其中使用三种不同的模型:随机森林、AdaBoost 和梯度提升。对于每个模型,我将它们应用于一组训练和测试数据。此外,我计划将五重交叉验证纳入我的实验中。

我的问题涉及这些模型之间交叉验证的实施。具体来说,我是否应该对所有三个模型(RF、ADA 和 GB)使用相同的五倍,以确保每个模型训练和测试的数据的一致性?或者,为每个模型生成不同的折叠集,从而独立地对 RF、ADA 和 GB 进行交叉验证过程是否更合适?

我有兴趣了解哪种方法更有利于实验的完整性,以及在这种情况下是否有任何标准实践或建议。

您可以分享的任何见解或经验将不胜感激。谢谢!

我在网上发现了相互矛盾的信息。

machine-learning random-forest xgboost cross-validation
1个回答
0
投票

在机器学习实验中,对于不同模型选择使用相同的折叠集还是不同的折叠集取决于多种因素。以下是一些注意事项:

数据一致性: 相同的折叠:使用相同的折叠集可确保在每次折叠期间在相同的数据点上评估每个模型。这可以提供模型之间更公平的比较。 不同的折叠:使用不同的折叠可以在不同的数据子集上测试每个模型,从而可能捕获数据分布的不同方面。

数据集大小相同的折叠:如果您的数据集很小,使用相同的折叠可能有利于确保每个模型接触到尽可能多的数据进行训练和测试。 不同的折叠:在较大的数据集中,具有不同的折叠可能更可行,并且它可以提供更稳健的评估,特别是当数据集具有多样化的分布时。在这种情况下,使用相同的折叠可能需要更多资源,并且可能不会给出不同的结果。

在许多情况下,这两种方法都可以有效,并且选择取决于实验的具体目标和数据集的特征。但是,如果您的数据集很小,则使用相同的折叠来比较不同的模型更可靠

© www.soinside.com 2019 - 2024. All rights reserved.