我有一个关于 Spark Architecture 的基本问题。
在 databricks 社区版中,我可以创建一个具有 2 个核心的集群。
据我所知,每个核心只能创建一个任务,只能创建一个分区。
我尝试创建一个示例 rdd
rdd_first=spark.sparkContext.parallelize(range(15),6)
我看到它创建了 6 个任务。
现在我很困惑2核集群如何创建6个任务。
有人可以帮我吗
我希望知道任务和分区是否相同以及核心与任务和分区之间的关系
我得到了这个问题的答案,说明什么时候它说 2 个核心意味着我们可以并行运行 2 个任务,但我们可以执行任意数量的任务。 如果我错了请纠正我
在 Databricks Community 版中,由于只有一个节点,它执行基于线程的并行性。您将使用属性 spark.sparkContext.master 获得工作线程的数量。在您的情况下,默认设置(因为为您创建了一个 spark 会话),您可以检索此配置并查看自己的值。
您还可以在 Spark UI 中查看作业的时间,以及添加和删除任务的时间。 除此之外,每个核心都在一个任务上运行,每个任务都在一个分区上运行。是的,内核也可以重复用于执行其他任务。
• 在Spark的Dataset<T>::map()函数中,我可以改变对象吗?
• 所有 Spark 文件路径基本上都是驱动程序节点中的路径吗?
• 使用 docker-image-tool.sh 创建的 spark-py 图像和 docker hub 中的图像有什么区别
• Presto + Spark 的 ThriftServer:null
• pyspark 根据字符串值的条件从结构的数组列中获取元素
• 错误:Spark-Submit DAG 无法在 Airflow 容器中找到 GCS 连接器文件
• java.io.IOException: Could not locate executable C:\spark in in\winutils.exe in the Hadoop binaries
• 为 Spark3 构建的 Apache Livy 错误:java.lang.ClassNotFoundException:org.apache.spark.sql.hive.HiveContext
• Java Spark SQL:合并和覆盖具有相同模式的数据集
• 在使用 PySpark 消费来自 Kafka 的消息时处理架构演变
• 从 dbt 配置文件连接到 Spark EMR thrift 服务器
• Laravel Spark 是否处理 SCA(强客户认证)?
• 如果 Spark 中的窗口未满,有没有办法不计算窗口函数
• 何时修改 spark 中的 maxPartitionBytes 值
• spark-submit CLI 无法运行作业,而使用 python3 CLI 运行 main.py 文件有效