我正在尝试在Amazon AWS中运行一个简单的pyspark作业,它已配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。
我看到一些示例代码如下:
conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-yarn')
sc = SparkContext(conf=conf)
并且我不确定在指定'yarn-client'的情况下如何执行spark作业。我通常按照以下步骤操作:
$spark-submit --deploy-mode client spark-job.py
但是]之间有什么区别>
$spark-submit --deploy-mode client spark-job.py
和
$spark-submit spark-job.py
我如何确定查看火花日志,是作业是在客户端模式下运行还是在群集模式下运行?还是在纱线客户端上运行?
谢谢
我正在尝试在Amazon AWS中运行一个简单的pyspark作业,它已配置为通过spark-default.conf文件使用Yarn。我对Yarn部署代码有些困惑。我看到一些示例代码为...
默认--deploy-mode
是客户端。因此,下面的spark-submit都将在客户端模式下运行。