用于预测的Bootstrap置信区间

问题描述 投票:1回答:1

我想计算样本外测试集预测中机器学习回归的RMSE的置信区间。

我的列车是样本的前80%,“样本外”测试集是样本的最后20%。我将测试集预测的RMSE视为样本外性能,并希望计算此RMSE的CI。

我的一个想法是在前80%中对列车集进行重新采样,但每次迭代使用相同的测试集。这似乎代表了跨越不同可能的训练场景的测试集上的RMSE的CI。但是,它不会考虑测试集中可能的变化。

这种方法是否明智?有没有更好的方法来解决我的问题?谢谢!

machine-learning statistics prediction bootstrapping confidence-interval
1个回答
0
投票

您是否有理由将测试集修复为精确的观测样本?

一种方法是重复将数据集拆分为您当前使用的80-20比例的训练和测试集。在每次随机(更换)拆分后,照常进行。也就是说,训练您的模型,然后计算测试数据的RMSE。例如,您可以执行此表单的10,000个引导,保存关联的RMSE值,并计算这些值的置信区间。

参见,例如,Hastie et al的第5章。

© www.soinside.com 2019 - 2024. All rights reserved.