我正在研究回归问题,我使用带有决策树的ad-boost进行回归,并使用r ^ 2作为评估指标。我想知道训练r ^ 2和测试r ^ 2之间有多少区别被认为是合适的。我训练了r ^ 2为0.9438,测试r ^ 2为0.877。是过度拟合还是好的?。我只想知道exactly培训和测试之间的差异是acceptable还是suitable?。
您的问题有几个问题。
首先,当然建议将r ^ 2作为[[predictive问题的性能评估方法;引用我在another SO thread中的答案:整个R平方的概念实际上直接来自统计领域,其中重点放在解释性
特别是当使用test集合时,我对R ^ 2的含义有点不清楚。
我当然同意。第二:训练与测试成绩之间的差异本身并不会[[not”表示过度拟合。这只是我训练的r ^ 2为0.9438,测试的r ^ 2为0.877。是合身还是不错?
generalization差距,即训练集和验证集之间的表现上的
expected
差距;引用最近的blog post by Google AI:,即模型在训练数据上的性能与在从相同分布中得出的未见数据上的性能之间的差异。过度拟合的特征签名是您的验证损失开始增加,而训练损失则继续减少,即:理解泛化的一个重要概念是
泛化差距
((从Wikipedia entry on overfitting改编而成的图像]?我只想知道
培训和测试之间的差异是多少[[可接受或确切地
适当
对此问题没有普遍的答案;一切都取决于数据的详细信息以及您要解决的
business问题。
很难从数量上回答这个问题,但是肯定有一些过拟合的情况。您的模型似乎没有应有的普遍性。我建议尝试L1,L2正则化并尝试进行k倍交叉验证。