对于大的缺失，插补与对随机森林的可用子集进行训练相比有什么优势？

我想在缺失较大的数据集上训练随机森林模型。我知道“标准方法”，即我们在训练集中估算丢失的数据，使用相同的估算规则估算测试集，然后在估算的训练集中训练随机森林模型，并使用相同的模型预测测试集（可能通过多次插补进行测试）。

我想理解的是与以下方法的区别，我想使用它：

根据丢失的模式对数据集进行分组。针对每种缺失模式训练随机森林模型。使用在缺失模式A上训练的随机森林模型来预测具有缺失模式A的测试集中的数据。在模式B上训练的模型来预测来自具有模式B的测试集中的数据等等。

此方法的名称是什么？两种方法的统计优势或劣势是什么？如果有人可以指导我介绍第二种方法或两者的比较，我将不胜感激。

0
投票

方法上的差异在于预测能力。

如果您将根据不同的缺失模式训练不同的模型，则将在较少的数据上进行训练（由于缺失的模式分离），并且将仅用于预测相应的测试集。使用这种方法，您可以轻松地遗漏所有数据集中数据的通用模式，否则（使用所有数据）您将检测到。

它仍然在很大程度上取决于您的特定情况和您的数据。一项很好的测试将检查您的模型是否由于特定的缺失模式而得到了很好的通用性，该测试将采用另一个缺失的模式数据集，对其进行简单快速的估算（均值/众数/中位数，e.t.c），并检查指标的差异。

我认为，这种方法听起来有些极端，因为您是自愿将火车数据集切割成比可能要小的得多的部分。也许，它可以在大量数据上表现更好，在这种情况下，训练数据集的减少不会严重损害模型性能。

关于文章-我不知道任何文章可以比较这两种方法，但是可以建议一些有关各种“标准”输入方法的好方法：