我有我的大学项目,并给了我dataset
,几乎所有功能与目标的关联都非常弱(只有1个特征与目标具有中等关联)。它的分布也不正常。我已经尝试应用简单的模型线性回归,它导致了underfitting
,然后我应用了simple random forest regressor
,但是却引起了overfitting
,但是当我将random forest regressor
与randomsearchcv
一起优化使用时,则花费了很长时间。有什么方法可以在不欠拟合或过拟合的情况下以不太好的dataset
来获得体面的模型?还是根本不可能?
坦率地说,如果您可以在不过度拟合或过度拟合的情况下拟合模型,则可以完全解决AI问题。
尽管有一些建议:
我个人会尝试破解这条路线,因为您提到您的数据不是高度相关的。通常,修复过度拟合要比欠拟合容易,因此也有帮助。
尝试查看您的树输出。如果使用python
,则sci-kit learn
的export_graphviz
可能会有所帮助。
尝试减小树木的最大深度。
尝试增加一棵树必须具有的最大样本数才能分裂(或类似地,叶子应具有的最小样本数)。
尝试增加RF中的树数。
添加更多参数。如果您有变量a,b,...等,加上它们的多项式特征,即a ^ 2,a ^ 3 ... b ^ 2,b ^ 3 ...等可能会有所帮助。如果您添加了足够多的多项式特征,那么您应该能够过拟合-尽管这并不一定意味着它可以很好地拟合训练集(RMSE值)。
请尝试根据值绘制一些变量以进行预测(y)。也许您可以看到非线性模式(即对数关系)。
您是否了解有关数据的任何信息?也许是一个倍数的变量,或者两个变量之间的除法可能是一个很好的指标。
如果要正则化(或如果软件正在自动应用)您的回归,请尝试减少正则化参数。