随机森林与Logistic回归

问题描述 投票:0回答:1

我正在研究一个数据集。这是一个分类问题。在总共300k观测值中,数据集的一列有大约11000个缺失值(这是一个分类变量,因此不可能像数值那样缺失值插补)。

由于随机森林不受缺失值的影响,建议使用随机森林而不是Logistic回归吗?

我还需要在使用RF时处理独立变量之间的多重共线性,或者不需要这样做吗?

r
1个回答
1
投票
  1. 虽然RFM可以处理噪声数据和缺失值,但似乎很难说它比逻辑更好。因为逻辑也可以通过其他预处理(PCA或缺失数据插补)或集合方法来改进。
  2. 我认为RF不必考虑多重共线性。这是因为随机选择变量以创建不同的树并产生结果。在这个过程中,最重要的属性被选择和解释为解决具有类似趋势的多重共线性问题。
© www.soinside.com 2019 - 2024. All rights reserved.