使用纱线资源管理器的困惑

Question

我正在尝试在Amazon AWS中运行一个简单的pyspark作业，它已配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。

我看到一些示例代码如下：

conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-yarn')
sc = SparkContext(conf=conf)

并且我不确定在指定'yarn-client'的情况下如何执行spark作业。我通常按照以下步骤操作：

$spark-submit --deploy-mode client spark-job.py

但是]之间有什么区别>

$spark-submit --deploy-mode client spark-job.py

和

$spark-submit spark-job.py

我如何确定查看火花日志，是作业是在客户端模式下运行还是在群集模式下运行？还是在纱线客户端上运行？

谢谢

我正在尝试在Amazon AWS中运行一个简单的pyspark作业，它已配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。我看到一些示例代码为...

Answer 1

默认--deploy-mode是客户端。因此，下面的spark-submit都将在客户端模式下运行。