spark-submit 相关问题

spark-submit是一个能够运行apache-spark代码的脚本。 java,scala或python

我如何配置spark-submit(或DataProc)从GitHub包中下载Maven依赖项(jar)?

我正在尝试通过GCP DataProc提交spark-submit,以从GitHub软件包存储库下载maven依赖项。添加spark.jars.repositories = https:// myuser:[email protected]/myorg / ...

回答 1 投票 1

如何使用AWS数据管道为Spark应用程序正确设置Google云存储

我正在设置集群步骤,以使用Amazon Data Pipeline运行Spark应用程序。我的工作是从S3读取数据,处理数据并将数据写入Google云存储。对于Google Cloud ...

回答 1 投票 3

火花提交:使用jar无法找到表或视图

当我从intellij ide运行HiveRead.java时,我可以成功运行并获得结果。然后创建了jar文件(这是一个maven项目),然后尝试从IDE运行,它为...提供了ClassLoaderResolver,用于...

回答 1 投票 2

运行Spark作业:python vs spark.submit

运行Spark作业的常用方法似乎是使用spark-submit,如下所示(源):spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1我想知道为什么...

回答 1 投票 4

我是否需要在所有工作计算机上都具有Spark才能运行spark-submit并在同一工作计算机内的k8s集群上运行spark作业?

我有一个k8s集群。现在,我想在k8s集群上部署一个spark作业,我想知道是否需要在所有辅助计算机上安装和配置spark。

回答 1 投票 0

Spark-Submit:无法与virtualenv一起运行

我有一个python应用程序,我想使用spark提交通过虚拟环境运行。这是我的命令PYSPARK_PYTHON =。/ venv / bin / python spark-submit --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON =。/ ...

回答 1 投票 1

将以k8s运行的Spark驱动程序日志发送到Splunk

我正在尝试通过执行此处提到的步骤在kubernetes中运行示例Spark作业:https://spark.apache.org/docs/latest/running-on-kubernetes.html。我正在尝试发送火花驱动程序,然后...

回答 1 投票 0

Spark-submit AWS EMR和安装了Anaconda的python库

我从一个单独的ec2实例中使用boto3启动一个EMR群集,并使用如下所示的引导脚本:#!/ bin / bash #################### ################################################ #...

回答 1 投票 0

带有Spark-Submit的运行Scala Jar

我已经将spark-scala脚本编译为JAR,并且我希望通过spark-submit运行它。但是我遇到了这个错误:2020-01-07 13:03:02,190 WARN util.Utils:您的主机名nifi解析为回送...

回答 1 投票 0

添加--py文件后,火花提交挂起

我有一个运行良好的脚本。脚本具有一些UDF,最后将数据保存到Hive表中。然后,我尝试通过将UDF函数放在不同文件夹下的不同脚本中来对该脚本进行模块化。...

回答 1 投票 0

使用spark-submit将HashMap参数传递给Scala

我正在定义一个以hashmap作为参数的主对象; def main(args:Map [String,Any]):单位= {val v_COUNTRY_CODE = args(“ CTRY_CD”)。toString val v_REPORTING_DATE = args(“ REP_DT”)....

回答 1 投票 0

如何在virtualenv中为pyspark运行spark-submit? https://www.hackingnote.com/zh-CN/spark/trouble-shooting/NoClassDefFoundError-ClientConfig

在virtualenv中是否可以运行spark-submit(来自HDP 3.1.0的Spark v2.3.2?有一种情况是在virtualenv中有使用python3(和某些特定的lib)的python文件(以隔离lib ...

回答 1 投票 0

spark-submit ClassNotFoundException或NoClassDef

我正在使用scala + spark开发一个应用程序。我可以毫无问题地运行该项目,并且可以生成.jar(通过Intellij或仅使用sbt)。当我运行时:spark-submit --class ngram.Ngram ...

回答 1 投票 0

Apache Airflow-Spark提交失败-当使用主'yarn-client'运行时,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR

我不熟悉Spark和Airflow,并试图创建一个在pyspark中运行spark提交作业的DAG。在我的Ubuntu系统中,我创建了一个名为“ hadoopusr”的用户,通过该用户我可以手动运行spark ...

回答 1 投票 0

如何远程运行spark-submit?

我在集群中运行了Spark(远程),如何使用spark-submit将应用程序提交到具有以下场景的远程集群:spark-submit通过骆驼作为命令执行,应用程序运行...

回答 1 投票 2

Spark参数在SparkSubmitOperator-AirFlow中不起作用

我已经在Spark Submit Operator中的conf中传递了以下spark参数,但是看起来这些在运行作业时不起作用。 my_conf = {'spark.io.compression.codec':'snappy',...

回答 1 投票 0

k8s上的火花-错误:缺少应用程序资源

我正在尝试在k8s上使用spark运行SparkPi示例。使用kubectl minikube spark-2.4.4-bin-hadoop2.7运行以下命令:spark-submit --master k8s:// https://192.168.99.100:...

回答 1 投票 1

手动指定火花执行器的数量

我有1000个实木复合地板文件,并且我希望在中间阶段,一个执行程序可以对每个文件进行处理。有没有一种方法可以手动分配此属性?默认情况下,spark会结束...

回答 1 投票 0

Spark-Application to Local Directory

由于Mkdirs创建失败而导致的Spark Spark Application错误。我正在使用spark 1.6.3无法在本地目录java.io.IOException上保存输出:Mkdirs无法创建文件:/ home / zooms / output / ...

回答 1 投票 0

我想在HDFS中将一个文件分成几个文件

我正在尝试使用spark-submit将文件写入hdfs。写入文件时,我想将一个文件分成多个文件,就像mapreduce的结果而不是一个文件。(例如part-0000,park-0001)在这里是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.