我使用元启发式算法和人工神经网络开发了七种不同的混合机器学习模型。有趣的是,与训练阶段相比,大多数模型在测试阶段的决定系数值更高。这种差异提出了一个问题:这种现象背后的原因是什么? 如果可能的话,请为您的话提供参考。
很多因素都可能导致这种情况。
1- 小数据集:如果你的数据集很小,测试样本的数量就会很少,并且可以通过模型在有限数量的测试数据上表现良好的方式进行划分。
2- 您的测试数据与训练数据类似。
3- 测试数据中有重复样本。
绘制训练和测试子集的交叉图并评估它们的行为。通过分析这些数字你就可以找出原因了。