在Spark
configurations page上提到了大量的可调设置。但是,正如here所述,SparkSubmitOptionParser
属性的Spark
属性名称可能与该属性名称不同。
例如,spark.executor.cores
在--executor-cores
被传递为spark-submit
。
我在哪里可以找到Spark
的所有调整参数的详尽列表(以及它们的SparkSubmitOptionParser
属性名称),可以使用spark-submit
命令传递?
虽然@ suj1th的宝贵意见确实解决了我的问题,但我正在回答我自己的问题,直接解决我的问题。
SparkSubmitOptionParser
属性(配置设置)的Spark
属性名称。两者都会做得很好。但请注意,使用情况之间存在细微差别,如下所示:
spark-submit --executor-cores 2
spark-submit --conf spark.executor.cores=2
上面显示的两个命令都具有相同的效果。第二种方法采用--conf <key>=<value>
格式的配置。''
或double ""
)括起来(如果你愿意,你仍然可以)。
(ii)如果该值具有space
字符,则将整个事物用""
中的双引号"<key>=<value>"
括起来,如here所示。spark-submit
传递的所有配置的完整列表,请运行spark-submit --help
以下来自Spark
docs的两个链接列出了很多配置:
在您的情况下,您应该从文件中加载配置,如此document中所述,而不是将它们作为标志传递给spark-submit
。这减轻了将SparkSubmitArguments
映射到Spark配置参数的开销。引用上述文件:
以这种方式加载默认Spark配置可以避免对
spark-submit
的某些标志的需要。例如,如果设置了spark.master属性,则可以安全地省略--master
中的spark-submit
标志。通常,在SparkConf
上显式设置的配置值采用最高优先级,然后传递给spark-submit
的标志,然后是默认文件中的值。