建议用于学习目的的小型Hadoop集群的建议

问题描述投票：1回答：1

我对我的大数据类进行了测试，我必须使用“较小”的数据集进行某种大数据分析。我实际上有我的东西弄清楚了。我从源代码在我的Ubuntu 16.04上以独立模式安装了Hadoop 2.8.1和Spark 2.2.0（我使用PySpark构建程序）。我真的很高兴自己去做我的事情。

问题是，我的一些朋友正在努力配置所有这些，我想自己“为什么我不和我的同学一起制作自己的小集群”。所以我在寻找建议。

我的笔记本电脑有12 GB RAM和Intel Core i5。

hadoop

apache-spark

cluster-computing

distributed-computing

1个回答

0
投票

如果我理解正确，你的朋友在独立模式下设置火花有困难（意味着根本没有集群，只是本地计算）。我不认为建立一个他们可以使用的集群会消除他们将面临的复杂性。或者他们是否正在尝试建立集群？因为Spark的独立模式确实不需要太多配置。

另一种方法是使用预先配置的VM，每个人都可以单独使用。由您自己准备，或者由不同的提供商提供沙箱，例如Cloudera和Hortonworks。