训练和测试错误之间的多少差异被认为合适?

问题描述 投票:-1回答:2

我正在研究回归问题,我使用带有决策树的ad-boost进行回归,并使用r ^ 2作为评估指标。我想知道训练r ^ 2和测试r ^ 2之间有多少区别被认为是合适的。我训练了r ^ 2为0.9438,测试r ^ 2为0.877。是过度拟合还是好的?。我只想知道exactly培训和测试之间的差异是acceptable还是suitable?。

machine-learning scikit-learn evaluation
2个回答
0
投票

您的问题有几个问题。

首先,当然建议将r ^ 2作为[[predictive问题的性能评估方法;引用我在another SO thread中的答案:整个R平方的概念实际上直接来自统计领域,其中重点放在

解释性

模型上,而在机器学习上下文中却很少使用,在机器学习上下文中,重点显然放在了[[预测性] >型号;至少是AFAIK,除了一些非常入门的课程之外,我从未(我的意思是[[never ...)没有看到过预测性建模问题,其中R平方用于任何类型的绩效评估;流行的[[机器学习介绍,例如安德鲁·伍(Andrew Ng)在Coursera的Machine Learning,甚至都不用理会它,也不是偶然的。并且,如上文Github thread所述(强调):

特别是当使用test集合时,我对R ^ 2的含义有点不清楚。

我当然同意。第二:

我训练的r ^ 2为0.9438,测试的r ^ 2为0.877。是合身还是不错?

训练与测试成绩之间的差异本身并不会[[not”表示过度拟合。这只是

generalization差距,即训练集和验证集之间的表现上的

expected

差距;引用最近的blog post by Google AI

理解泛化的一个重要概念是

泛化差距

,即模型在训练数据上的性能与在从相同分布中得出的未见数据上的性能之间的差异。
过度拟合的特征签名是您的验证损失开始增加,而训练损失则继续减少,即:enter image description here
((从Wikipedia entry on overfitting改编而成的图像]

我只想知道

确切地

培训和测试之间的差异是多少[[可接受或

适当

对此问题没有普遍的答案;一切都取决于数据的详细信息以及您要解决的

business问题。

很难从数量上回答这个问题,但是肯定有一些过拟合的情况。您的模型似乎没有应有的普遍性。我建议尝试L1,L2正则化并尝试进行k倍交叉验证。

© www.soinside.com 2019 - 2024. All rights reserved.