通过DataProc UI提交Spark Streaming作业

问题描述 投票:0回答:1

如何在DataProc UI上指定多个jar文件(我的意思是在Web浏览器上)。例如,从命令行我可以启动作业:

export SPARK_MASTER=local[8]
export DEPENDENCIES=/home/xxx/.ivy2/cache/org.apache.bahir/spark-streaming-twitter_2.11/jars/spark-streaming-twitter_2.11-2.0.1.jar,/home/xxx/.ivy2/cache/org.twitter4j/twitter4j-core/jars/twitter4j-core-4.0.4.jar,/home/xxx/.ivy2/cache/org.twitter4j/twitter4j-stream/jars/twitter4j-stream-4.0.4.jar
/usr/bin/spark-submit \
      --master $SPARK_MASTER \
      --jars $DEPENDENCIES \
      --class me.baghino.spark.streaming.twitter.example.TwitterSentimentScore \
      target/scala-2.11/spark-twitter-stream-example_2.11-1.0.0.jar

我将所有这些文件复制到Google Storage上的存储桶中,然后在我输入的Jar文件下:

gs://mybucket/testdata/spark-twitter-stream-example_2.11-1.0.0.jar:gs://mybucket/testdata/spark-streaming-twitter_2.11-2.0.1.jar:gs://mybucket/testdata/twitter4j-core-4.0.4.jar:gs://mybucket/testdata/twitter4j-stream-4.0.4.jar

还尝试使用逗号:

gs://mybucket/testdata/spark-twitter-stream-example_2.11-1.0.0.jar,gs://mybucket/testdata/spark-streaming-twitter_2.11-2.0.1.jar,gs://mybucket/testdata/twitter4j-core-4.0.4.jar,gs://mybucket/testdata/twitter4j-stream-4.0.4.jar

我也尝试在Arguments下添加--jars。那也行不通。

apache-spark google-cloud-platform google-cloud-dataproc
1个回答
1
投票

希望这个答案仍有帮助。在“Jar文件”字段中的“提交作业”仪表板中,您必须为每个条目输入一个文件。这意味着您需要键入Enter键,就像Arguments字段的行为一样。我在文档中找到了这个线索:“按下打开每个附加参数的新文本框。”这是你的罐子的一个例子:

Adding Jar files for Submitting a job

© www.soinside.com 2019 - 2024. All rights reserved.