使用部署模式群集的Apache Spark任务中的大调度程序延迟

问题描述 投票:6回答:1

使用带有spark-submit--master yarn --deploy-mode cluster命令会导致更大的调度程序延迟,而不是使用--master yarn --deploy-mode client

任务表现结果截图:

enter image description here

这主要涉及在RDD上调用collect操作的作业。

client模式下开始的火花应用大约需要3到4分钟,而cluster模式需要6到7分钟。阶段中每个任务的大小小于100 KB。 Cluster有8个数据节点,运行Cloudera Manager 5.9.0

apache-spark cluster-computing scheduler
1个回答
0
投票

针对这种特殊情况的解决方案。问题是由群集基础结构中的以太网电缆损坏引起的。更换后,时间大大减少了。

© www.soinside.com 2019 - 2024. All rights reserved.