我进行了广泛的搜索,以找到适用于Hadoop / spark的正确大小调整指南,但最终我只找到了与内存管理相关的文章。我的问题是,如何确定全新Hadoop集群的RAM,HDD和CPU大小。我们期望每天分析大约600G的数据(主要是日志文件和CSV)。我们将在YARN上运行Spark作业。
可以通过对系统进行基准测试来得出更准确的内核和内存分配。
在不同的配置上执行您的Spark代码,并检查作业处理和调度延迟。
开始于
理想的Spark集群可以是
计算堆开销= 21GB的7%= 3GB。所以,实际--executor-memory
= 21-3 = 18GB
总编号的执行人 = 29
每个执行者的内存 = 18 GB
每个执行者的核心数] = 5
NameNode内存的范围可以从2GB-8GB。大约是1GB / 100TB数据
边缘节点内存可以为48GB到96GB