大数据的随机森林

问题描述 投票:0回答:1

我正在处理超过 400 万条记录的大数据,我想根据 9 个变量预测 3 个标签。我使用了 RandomForest,但它需要几个小时,我想知道是否可以通过某种方式在我的代码中包含 Hadoop 来缩短时间。

注意事项: 我使用 Kaggle 笔记本,会话配额为: 最多 12 小时 最大 30 克公羊

python hadoop random-forest kaggle
1个回答
0
投票

在使用Hadoop之前,先搞清楚它提供了什么,你需要吗

Hadoop 是一个技术堆栈,提供分布式文件系统 (HDFS)、分布式处理资源协商器 (YARN) 和 MapReduce 框架。

当你想让你的计算分布式并使用更多资源更快地解决你的问题时,它很有用。但是为你的任务创建 hadoop 集群可能有点矫枉过正。

您可以使用 Spark 和 RandomForestClassifier。 Spark 是一个内存分布式计算引擎,对 ML 算法有很好的支持。

Spark 可以和Hadoop 一起运行,但不是严格要求。您也可以在独立模式下或与 Mesos 或 Kubernetes 一起运行 Spark。

© www.soinside.com 2019 - 2024. All rights reserved.