使用纱线资源管理器的困惑

问题描述 投票:0回答:1

我正在尝试在Amazon AWS中运行一个简单的pyspark作业,它已配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。

我看到一些示例代码如下:

conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-yarn')
sc = SparkContext(conf=conf)

并且我不确定在指定'yarn-client'的情况下如何执行spark作业。我通常按​​照以下步骤操作:

$spark-submit --deploy-mode client spark-job.py

但是]之间有什么区别>

$spark-submit --deploy-mode client spark-job.py

$spark-submit spark-job.py

我如何确定查看火花日志,是作业是在客户端模式下运行还是在群集模式下运行?还是在纱线客户端上运行?

谢谢

我正在尝试在Amazon AWS中运行一个简单的pyspark作业,它已配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。我看到一些示例代码为...

pyspark yarn amazon-emr
1个回答
0
投票

默认--deploy-mode是客户端。因此,下面的spark-submit都将在客户端模式下运行。

© www.soinside.com 2019 - 2024. All rights reserved.