随机森林与Logistic回归

问题描述投票：0回答：1

我正在研究一个数据集。这是一个分类问题。在总共300k观测值中，数据集的一列有大约11000个缺失值（这是一个分类变量，因此不可能像数值那样缺失值插补）。

由于随机森林不受缺失值的影响，建议使用随机森林而不是Logistic回归吗？

我还需要在使用RF时处理独立变量之间的多重共线性，或者不需要这样做吗？

r

1个回答

1
投票

虽然RFM可以处理噪声数据和缺失值，但似乎很难说它比逻辑更好。因为逻辑也可以通过其他预处理（PCA或缺失数据插补）或集合方法来改进。
我认为RF不必考虑多重共线性。这是因为随机选择变量以创建不同的树并产生结果。在这个过程中，最重要的属性被选择和解释为解决具有类似趋势的多重共线性问题。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.