本地模式 vs 集群模式
我是一个刚刚使用EMR的新手。 我正在使用 AWS EMR。
有主节点、核心节点、任务节点。 为什么要使用多核/任务?我不能只用一个吗?有任何性能优势吗?
例如
在上面的例子中,本地运行和分发到集群有什么区别?事实上,单机上的速度更好。 (我觉得原因有很多。网络,随机播放等..)
如果您的数据量较少且不是 CPU 密集型操作,则本地模式就足够了。
但是,如果您有大量数据和复杂的转换,那么您需要在集群模式下运行,其中 Spark 会水平扩展您的数据。