减少Apache Spark启动时间

问题描述 投票:0回答:1

我正在运行一个独立的Spark集群,并在客户端模式下使用spark-submit提交我的应用程序(用SparkR编写)。我有一组应用程序,我必须根据用户的输入运行,所以我不能让它们继续运行。每次提交申请并开始处理数据,需要15-20秒。

这次可以以任何方式减少吗?我在驱动程序机器上读到了having a webserver,但不知道如何做到这一点。此外,我没有使用任何集群管理器(如YARN),只是一个独立的集群。

另外,客户端或集群上的资源(如CPU内核和内存)会影响此启动时间吗?

apache-spark spark-submit
1个回答
0
投票

使用Spark作业服务器跨应用程序共享SparkContexts可以帮助您减少启动时间。 (我不确定你是否需要这个,因为你的启动时间大约是20秒。)

提供上下文共享的流行Spark作业服务器是:

另外,客户端或集群上的资源(如CPU内核和内存)会影响此启动时间吗?

并不是的。可用资源应仅影响应用程序的执行时间。

© www.soinside.com 2019 - 2024. All rights reserved.