Spark 架构基础知识

问题描述 投票:0回答:2

我有一个关于 Spark Architecture 的基本问题。

在 databricks 社区版中,我可以创建一个具有 2 个核心的集群。

enter image description here

据我所知,每个核心只能创建一个任务,只能创建一个分区。

我尝试创建一个示例 rdd

rdd_first=spark.sparkContext.parallelize(range(15),6)

我看到它创建了 6 个任务。

现在我很困惑2核集群如何创建6个任务。

有人可以帮我吗

我希望知道任务和分区是否相同以及核心与任务和分区之间的关系

apache-spark databricks
2个回答
0
投票

我得到了这个问题的答案,说明什么时候它说 2 个核心意味着我们可以并行运行 2 个任务,但我们可以执行任意数量的任务。 如果我错了请纠正我


0
投票

在 Databricks Community 版中,由于只有一个节点,它执行基于线程的并行性。您将使用属性 spark.sparkContext.master 获得工作线程的数量。在您的情况下,默认设置(因为为您创建了一个 spark 会话),您可以检索此配置并查看自己的值。

您还可以在 Spark UI 中查看作业的时间,以及添加和删除任务的时间。 除此之外,每个核心都在一个任务上运行,每个任务都在一个分区上运行。是的,内核也可以重复用于执行其他任务。

相关问题
热门问答
最新问题