如何实现回归模型而不会导致拟合不足或过度拟合

问题描述 投票:0回答:1

我有我的大学项目,并给了我dataset,几乎所有功能与目标的关联都非常弱(只有1个特征与目标具有中等关联)。它的分布也不正常。我已经尝试应用简单的模型线性回归,它导致了underfitting,然后我应用了simple random forest regressor,但是却引起了overfitting,但是当我将random forest regressorrandomsearchcv一起优化使用时,则花费了很长时间。有什么方法可以在不欠拟合或过拟合的情况下以不太好的dataset来获得体面的模型?还是根本不可能?

python machine-learning data-science
1个回答
3
投票

坦率地说,如果您可以在不过度拟合或过度拟合的情况下拟合模型,则可以完全解决AI问题。

尽管有一些建议:

在随机森林中过度拟合

  • 我个人会尝试破解这条路线,因为您提到您的数据不是高度相关的。通常,修复过度拟合要比欠拟合容易,因此也有帮助。

  • 尝试查看您的树输出。如果使用python,则sci-kit learnexport_graphviz可能会有所帮助。

  • 尝试减小树木的最大深度。

  • 尝试增加一棵树必须具有的最大样本数才能分裂(或类似地,叶子应具有的最小样本数)。

  • 尝试增加RF中的树数。

线性回归的欠拟合

  • 添加更多参数。如果您有变量a,b,...等,加上它们的多项式特征,即a ^ 2,a ^ 3 ... b ^ 2,b ^ 3 ...等可能会有所帮助。如果您添加了足够多的多项式特征,那么您应该能够过拟合-尽管这并不一定意味着它可以很好地拟合训练集(RMSE值)。

  • 请尝试根据值绘制一些变量以进行预测(y)。也许您可以看到非线性模式(即对数关系)。

  • 您是否了解有关数据的任何信息?也许是一个倍数的变量,或者两个变量之间的除法可能是一个很好的指标。

  • 如果要正则化(或如果软件正在自动应用)您的回归,请尝试减少正则化参数。

© www.soinside.com 2019 - 2024. All rights reserved.