运行Spark作业:python vs spark.submit

问题描述 投票:4回答:1

[运行火花作业的常见方法似乎是使用火花提交,如下所示[source:]

spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1

[较新的火花,我想知道为什么第一个方法比从python(example)运行它更受欢迎?

python pyfile-that-uses-pyspark.py

前一种方法在搜索主题时会产生更多examples,但没有明确说明原因。实际上,这是另一个Stack Overflow question,其中一个答案(以下重复)明确告诉OP不要使用python方法,但没有给出原因。

不要将您的py文件运行为:python filename.py,而应使用:spark-submit filename.py

有人可以提供见解吗?

python apache-spark pyspark spark-submit
1个回答
0
投票

@ mint您的评论或多或少是正确的。

Spark的bin目录中的spark-submit脚本用于在集群上启动应用程序。它可以通过统一的界面使用Spark所有受支持的集群管理器,因此您不必特别为每个应用程序配置应用程序。

据我了解,使用python pyfile-that-uses-pyspark.py无法在集群上启动应用程序,或者这样做至少要困难一些。

© www.soinside.com 2019 - 2024. All rights reserved.