随机森林比线性回归更差?这是正常的,原因是什么?

问题描述 投票:1回答:1

我正在尝试使用机器学习来预测数据集。这是一个回归问题,具有180个输入要素和1个连续值输出。我尝试比较深度神经网络,随机森林回归和线性回归。

正如我所料,3隐藏层深度神经网络的表现优于其他两种方法,均方根误差(RMSE)为0.1。然而,我意外地发现随机森林甚至比线性回归表现更差(RMSE 0.29对0.27)。在我的期望中,随机森林可以发现功能之​​间更复杂的依赖关系,以减少错误。我试图调整随机森林的参数(树的数量,最大特征,max_depth等)。我也尝试了不同的K-cross验证,但性能仍然低于线性回归。

我在网上搜索,一个答案说如果特征对协变量具有平滑,几乎线性的依赖性,线性回归可能表现得更好。我不完全明白这一点,因为如果是这样的话,那么深度神经网络不应该提供很多性能提升吗?

我正在努力解释。在什么情况下,随机森林比线性回归更差,但深度神经网络可以表现得更好?

machine-learning deep-learning linear-regression random-forest
1个回答
3
投票

如果您的要素解释了与目标变量的线性关系,则线性模型通常比随机森林模型表现良好。它完全取决于您的功能之间的线性关系。

也就是说,线性模型不是优越的,或随机森林是任何劣质模型。

尝试使用来自MinMaxScaler()sciki-learn缩放和转换数据,看看线性模型是否进一步改进

专业提示

如果线性模型像魅力一样工作,你需要问自己为什么?如何?并深入了解这两个模型的基础知识,以了解它为什么对您的数据起作用。这些问题将使您更好地了解功能工程师。事实上,Kaggle Grand Masters在堆叠中使用线性模型通过捕获数据集中的线性关系来获得前1%的得分。

因此,在一天结束时,线性模型也可能是奇迹。

© www.soinside.com 2019 - 2024. All rights reserved.