阿帕奇气流sparksubmit

问题描述 投票:0回答:1

我在不同的主机上有气流和火花。我正在尝试提交,但出现以下错误:

{standard_task_runner.py:107} 错误 - 无法执行任务 Spark_job 的作业 223(无法执行:spark-submit --master Spark://spark-host --proxy-user hdfs --name arrow-spark --queue默认 --deploy-mode client /opt/airflow/dags/plugins/plug_code.py. 错误代码为:1.; 27605)

Spark-提交cmd:

spark-submit --master spark://spark-host   --name arrow-spark --queue default --deploy-mode client /opt/airflow/dags/plugins/plug_code.py

我尝试使用代理名称,但没有意义。

apache-spark pyspark airflow spark-submit
1个回答
0
投票

尝试使用以下命令和选项:

  • --master
    :指定要连接的 Spark 集群的 URL。在这种情况下,它是
    spark://spark-host
  • --name
    :指定 Spark 应用程序的名称。在这种情况下,它是
    arrow-spark
  • --queue
    :指定应用程序应提交到的YARN队列的名称。在这种情况下,它是
    default
  • --deploy-mode
    :指定是将驱动程序部署在工作节点上(
    cluster
    )还是作为外部客户端部署在本地(
    client
    )。在这种情况下,它是
    client
  • /opt/airflow/dags/plugins/plug_code.py
    :指定包含Spark作业代码的Python文件的路径。

您之前提供的错误消息表明

spark-submit
命令无法执行,错误代码为 1。这可能是由于多种原因造成的,例如命令语法不正确、缺少依赖项或 Airflow 与 Spark 主机之间的连接问题.

要解决此问题,我建议检查以下内容:

  • 验证 Airflow 主机上是否安装了
    spark-submit
    命令,并且该命令的路径是否已添加到 PATH 环境变量中。
  • 检查 Spark 集群是否已启动并正在运行,以及
    spark-host
    是否可从 Airflow 主机访问。您可以尝试从 Airflow 主机 ping
    spark-host
    以验证连接。
  • 检查 Airflow 主机上是否存在包含 Spark 作业代码 (
    /opt/airflow/dags/plugins/plug_code.py
    ) 的 Python 文件,以及是否安装了必要的依赖项。
  • 检查 Spark 作业的日志,看看是否有任何错误消息可以提供有关该作业的更多信息
© www.soinside.com 2019 - 2024. All rights reserved.