Spark中同规格硬件上本地处理和集群处理有什么区别?

问题描述 投票:0回答:1

本地模式 vs 集群模式

我是一个刚刚使用EMR的新手。 我正在使用 AWS EMR。

有主节点、核心节点、任务节点。 为什么要使用多核/任务?我不能只用一个吗?有任何性能优势吗?

例如

  • 128 核 CPU,1024 Gi RAM
  • 32核CPU * 4,256 Gi RAM * 4

在上面的例子中,本地运行和分发到集群有什么区别?事实上,单机上的速度更好。 (我觉得原因有很多。网络,随机播放等..)

amazon-web-services apache-spark amazon-emr
1个回答
0
投票

如果您的数据量较少且不是 CPU 密集型操作,则本地模式就足够了。

但是,如果您有大量数据和复杂的转换,那么您需要在集群模式下运行,其中 Spark 会水平扩展您的数据。

© www.soinside.com 2019 - 2024. All rights reserved.