我正在研究一个数据集。这是一个分类问题。在总共300k观测值中,数据集的一列有大约11000个缺失值(这是一个分类变量,因此不可能像数值那样缺失值插补)。
由于随机森林不受缺失值的影响,建议使用随机森林而不是Logistic回归吗?
我还需要在使用RF时处理独立变量之间的多重共线性,或者不需要这样做吗?