[运行火花作业的常见方法似乎是使用火花提交,如下所示[source:]
spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1
[较新的火花,我想知道为什么第一个方法比从python(example)运行它更受欢迎?
python pyfile-that-uses-pyspark.py
前一种方法在搜索主题时会产生更多examples,但没有明确说明原因。实际上,这是另一个Stack Overflow question,其中一个答案(以下重复)明确告诉OP不要使用python方法,但没有给出原因。
不要将您的py文件运行为:python filename.py,而应使用:spark-submit filename.py
有人可以提供见解吗?
@ mint您的评论或多或少是正确的。
Spark的bin目录中的spark-submit脚本用于在集群上启动应用程序。它可以通过统一的界面使用Spark所有受支持的集群管理器,因此您不必特别为每个应用程序配置应用程序。
据我了解,使用python pyfile-that-uses-pyspark.py
无法在集群上启动应用程序,或者这样做至少要困难一些。