大数据的随机森林

大数据的随机森林

问题描述投票：0回答：1

我正在处理超过 400 万条记录的大数据，我想根据 9 个变量预测 3 个标签。我使用了 RandomForest，但它需要几个小时，我想知道是否可以通过某种方式在我的代码中包含 Hadoop 来缩短时间。

注意事项：我使用 Kaggle 笔记本，会话配额为：最多 12 小时最大 30 克公羊

python

hadoop

random-forest

kaggle

1个回答

0
投票

在使用Hadoop之前，先搞清楚它提供了什么，你需要吗

Hadoop 是一个技术堆栈，提供分布式文件系统 (HDFS)、分布式处理资源协商器 (YARN) 和 MapReduce 框架。

当你想让你的计算分布式并使用更多资源更快地解决你的问题时，它很有用。但是为你的任务创建 hadoop 集群可能有点矫枉过正。

您可以使用 Spark 和 RandomForestClassifier。 Spark 是一个内存分布式计算引擎，对 ML 算法有很好的支持。

Spark 可以和Hadoop 一起运行，但不是严格要求。您也可以在独立模式下或与 Mesos 或 Kubernetes 一起运行 Spark。