理想的火花配置

理想的火花配置

问题描述投票：0回答：1

在我们的项目中，我在带有MapR的HDFS上使用Apache Spark。我们在运行Spark Jobs时遇到了问题，因为它在数据少量增加后就失败了。我们正在从csv文件中读取数据，进行一些转换，聚集，然后存储在HBase中。

当前数据大小= 3TB

可用资源：总节点数：14可用内存：1TB核心总数：450总磁盘：150 TB

Spark Conf：executor核心：2executorInstance：50执行器内存：40GBminPartitions：600

请建议，如果上面的配置看起来不错，因为错误看起来像消失了。

apache-spark

mapreduce

hdfs

mapr

1个回答

0
投票

您能否谈谈工作失败的原因？没有更多的信息，这将很难说。如果您要说出哪个版本的Spark，以及您是在Yarn下运行还是在独立的Spark集群上运行（甚至在Kubernetes上运行），这将大有帮助。

但是，即使没有任何信息，这里似乎也存在配置问题。可能发生的情况是，Spark被告知有关可用内存量的矛盾信息，因此当它尝试使用内存时，它认为允许使用，系统会拒绝。