缺失数据的随机森林建模:寻求不需要插补或数据删除的包或方法

问题描述 投票:0回答:1

我有一个包含多个变量的数据集,其中包含缺失值,并且我不想估算或丢弃它们。我有兴趣在处理缺失的观察结果时将随机森林模型拟合到这些数据。谁能推荐专门设计的软件包或方法,用于将随机森林拟合到缺失值的数据,而不需要插补或删除不完整的记录?”

python r machine-learning bigdata random-forest
1个回答
0
投票

我想到了两个 OSS 选择:

  • Scikit-Learn >= 1.3.0。请参阅发行说明。引用的文档提到了基本决策树模型,但可以安全地假设相同的功能在集成决策树模型中仍然存在。
  • “随机森林”模式下的 XGBoost。请参阅
    XGBRFClassifier
    XGBRFRegressor
    课程。

请注意,这两个选项都使用最简单的方法处理缺失值 - “将缺失值发送给多数人的方式”。然而,它仍然比任何显式插补要好。

© www.soinside.com 2019 - 2024. All rights reserved.