在Spark中堆叠ML算法

问题描述 投票:0回答:1

是否有一个火花api来建立火花堆叠合奏或应该从头开始构建它们?我没有在网上找到有关此主题的任何资源

python apache-spark pyspark apache-spark-mllib ensemble-learning
1个回答
3
投票

正如在AKSW的评论中所说,在当前的Apache Spark MLlib中,只有两个特定的Ensemble Models实现,其中包括用于Bagging的Random Forests和用于Boosting的Gradient Boosted Trees

对于堆叠部分,我认为你在MLlib上找不到任何东西,你必须通过以下任何一种方式自己完成:

  1. 创建一个函数来生成一个管道,通过添加基础学习器和矢量汇编器以及最终堆叠算法来进行堆叠
  2. 创建一个Meta估算器,将您的基础学习者和堆叠算法作为参数

第二个是方便的,因为它可以作为Tuning Tools使用所有MLlib工具

对于第二个解决方案,我创建了一个包含Boosting,Bagging和Stacking Meta-Estimators的库:spark-ensemble

你可以从中获得一些实现的想法!

© www.soinside.com 2019 - 2024. All rights reserved.