h2o的分布式随机森林如何处理多类问题？

问题描述投票：0回答：1

h2o 中分布式随机森林的文档指出，对于多类问题，“使用一棵树分别估计每个类的概率”。我可以在可视化树时看到这一点，每个类确实似乎都有一个完全独立的“一对一”树。

我想知道这些树的分数如何组合成最终的分数向量 - 它们是否只是标准化为总和为 1？

我还想了解为什么选择这种方法，以及它与在单个树中处理多个类的常用方法相比如何。对于单个类，我们发现多类分类器的性能通常比具有相同超参数的专用一对一分类器更差，即使在幕后多类分类器应该非常相似。

random-forest

h2o

multiclass-classification

1个回答

0
投票

感谢您的提问。我试着回答：

这些树的分数如何组合成最终的分数向量？ 你是对的。对于每个类别，都会训练一棵“one-vs-rest”树。最终的预测向量被计算为每棵树的预测，然后归一化以求和为 1。
为什么选择这种方法？ 好问题。但我不知道。它是我们在 H2O-3 中实现的最古老的算法之一。我的猜测是它更容易实施。 :) 您可以提出问题并要求实施另一种方法。我们愿意改进我们的算法基础。
多类分类器和一对多多类分类器的性能应该相似吗？ 嗯，我不确定。我认为这也取决于数据。您有什么性能比较可以分享吗？您使用的是哪种类型的数据？