我正在处理超过 400 万条记录的大数据,我想根据 9 个变量预测 3 个标签。我使用了 RandomForest,但它需要几个小时,我想知道是否可以通过某种方式在我的代码中包含 Hadoop 来缩短时间。
注意事项: 我使用 Kaggle 笔记本,会话配额为: 最多 12 小时 最大 30 克公羊
在使用Hadoop之前,先搞清楚它提供了什么,你需要吗
Hadoop 是一个技术堆栈,提供分布式文件系统 (HDFS)、分布式处理资源协商器 (YARN) 和 MapReduce 框架。
当你想让你的计算分布式并使用更多资源更快地解决你的问题时,它很有用。但是为你的任务创建 hadoop 集群可能有点矫枉过正。
您可以使用 Spark 和 RandomForestClassifier。 Spark 是一个内存分布式计算引擎,对 ML 算法有很好的支持。
Spark 可以和Hadoop 一起运行,但不是严格要求。您也可以在独立模式下或与 Mesos 或 Kubernetes 一起运行 Spark。