理想的火花配置

问题描述 投票:0回答:1

在我们的项目中,我在带有MapR的HDFS上使用Apache Spark。我们在运行Spark Jobs时遇到了问题,因为它在数据少量增加后就失败了。我们正在从csv文件中读取数据,进行一些转换,聚集,然后存储在HBase中。

当前数据大小= 3TB

可用资源:总节点数:14可用内存:1TB核心总数:450总磁盘:150 TB

Spark Conf:executor核心:2executorInstance:50执行器内存:40GBminPartitions:600

请建议,如果上面的配置看起来不错,因为错误看起来像消失了。

apache-spark mapreduce hdfs mapr
1个回答
0
投票

您能否谈谈工作失败的原因?没有更多的信息,这将很难说。如果您要说出哪个版本的Spark,以及您是在Yarn下运行还是在独立的Spark集群上运行(甚至在Kubernetes上运行),这将大有帮助。

但是,即使没有任何信息,这里似乎也存在配置问题。可能发生的情况是,Spark被告知有关可用内存量的矛盾信息,因此当它尝试使用内存时,它认为允许使用,系统会拒绝。

© www.soinside.com 2019 - 2024. All rights reserved.