建议用于学习目的的小型Hadoop集群的建议

问题描述 投票:1回答:1

我对我的大数据类进行了测试,我必须使用“较小”的数据集进行某种大数据分析。我实际上有我的东西弄清楚了。我从源代码在我的Ubuntu 16.04上以独立模式安装了Hadoop 2.8.1和Spark 2.2.0(我使用PySpark构建程序)。我真的很高兴自己去做我的事情。

问题是,我的一些朋友正在努力配置所有这些,我想自己“为什么我不和我的同学一起制作自己的小集群”。所以我在寻找建议。

我的笔记本电脑有12 GB RAM和Intel Core i5。

hadoop apache-spark cluster-computing distributed-computing
1个回答
0
投票

如果我理解正确,你的朋友在独立模式下设置火花有困难(意味着根本没有集群,只是本地计算)。我不认为建立一个他们可以使用的集群会消除他们将面临的复杂性。或者他们是否正在尝试建立集群?因为Spark的独立模式确实不需要太多配置。

另一种方法是使用预先配置的VM,每个人都可以单独使用。由您自己准备,或者由不同的提供商提供沙箱,例如ClouderaHortonworks

© www.soinside.com 2019 - 2024. All rights reserved.