Spark-submit配置:jars,package。

问题描述 投票:1回答:1

谁能告诉我如何使用jars和包。

  1. 我的工作是在Web应用程序。
  2. 对于引擎侧火花-mongo

binspark-submit --properties-file config.properties --packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.1,com.crealytics:spark-excel_2.11:0.13.1 homePycharmProjectsEngineSpark.py 8dh1243sg2636hlf38m。

  • 我正在使用上面的命令,但每次都从maven仓库下载(jar & packages)。
  • 所以现在我担心的是,如果我离线,它会给我错误信息
  • 它的好,如果他们的任何方式下载它只有一次,所以没有必要下载每次
  • 任何建议如何处理它。
mongodb pyspark spark-submit
1个回答
1
投票

获取所有需要的jar文件,然后将它们作为参数传递给spark-submit。

这样你就不用每次提交spark作业时都下载文件了。

你必须使用 --jars 而不是 --packages

bin/spark-submit --properties-file config.properties --jars /home/PycharmProjects/spark-excel_2.11-0.11.1.jar,/home/PycharmProjects/mongo-spark-connector_2.11-2.4.1.jar /home/PycharmProjects/EngineSpark.py 8dh1243sg2636hlf38m

0
投票

线程 "main "中的异常 org.apache.spark.SparkException。JAR中没有设置主类,请用--class指定一个主类。

可能是因为找不到jar文件,可能是路径不正确,或者尝试在最后给出--jars配置,先给出--class。

© www.soinside.com 2019 - 2024. All rights reserved.